CNCC2017梳理
大牛云集的中国计算机大会:大会日程表:http://cncc.ccf.org.cn/cn/news/schedule_empty
早上的论坛可以在爱奇艺下载视频
下午的分论坛是多个同时进行的,我也只去了一部分,这里先按时间顺序写自己的一些收获,之后会从另外的角度做一个总结。
如果觉得我的整理对你有帮助,欢迎star这个项目
10-26 am
丘成桐 现代几何在计算机科学中的应用
- 从几何学的角度找到优化问题(如GAN)的等价形式,通过解决等价问题加速优化过程
沈向洋 理解自然语言 概述,对话和理解
- 自然语言:机器学习(表述)->机器智能(对话)->机器意识(意境)
- 图像表述:微软有一个Image Caption的api可以用
- 检测,分割,识别只是基础任务,对图像进行理解是以后的热点
- 小冰:LSTM端到端,话题引导,有意识的脑补
李飞飞 A Quest for Visual Intelligence: Exploration Beyond Objects
- 在图像识别,分类,分割,检测之外,还有更多的东西可以做
- 图像理解,场景理解,问答,场景检索,思维导图生成
- 上一点也适用于视频
汤道生 让AI服务于人
- 腾讯的AI产品
- 微信语音转文字
- QQ视频挂件,QQ扫码转文字
- 天天P图:美颜美妆
- QQ音乐:个性化推荐
- 企鹅FM:文字转语音
- 全民K歌:伴奏分离
- 腾讯在方面已经有不错的工具,可以集成到我们想要做的东西中
- 腾讯云小微三大开放平台
- 腾讯云智慧交通
- 腾讯觅影
- 可以做的问题:
- 手机性能挖掘,模型压缩,内存共享
马维英 人工智能和新一代信息与内容平台
- 今日头条:智能内容分发(推荐系统)
10-27 pm 深度学习与医疗影像分论坛
疾病预警
- 数据结构化,个性化服务
- 半自动阅片
- 异常检测
图像处理
- 多模态处理
- 分割 配准 可视化
- 分割:亮度,边界,噪声
- 区域分割(二维)、曲面分割(三维)
- 识别(定位),边界寻优
- Graph Cut,Graph Search,将图像转为图进行分割
- 外观模型
- 多模态PET-CT
- 结构的信息和功能信息合起来进行分割
- 对准两个模型(结构和功能)的图像,对两个模型的预测结果进行约束(比如希望两个模型的输出相近)
- 主动外部模型
- 双模型交互迭代优化
- 基于能量函数做Graph Cut
- 曲面分割
- 对曲面做分层
- 建模成三维的图结构,对边权和点权做最大流最小割
- 异常区域分割
- 区域矫正
特征用深度学习的方法提取,距离度量用传统方法
- 分割
- 欠分割,过分割的解决
- 位置约束
- 亮度增强,PCI
- 局部位置约束
- 过分割(多边形近似->特征点标记->瓶颈检测(聚类)->像素与边缘的平均几何距离约束)
- 边缘匹配
识别
基于贝叶斯的视觉信息编解码
- 视觉信息->人脑->神经活动(编码)(反之解码,解码也可能解码为语义信息)
- fMRI检测神经活动
- 分类,辨识,重建
- 卷积 - 中间特征 (->关联神经活动信号)- 反卷积
- 寻找中间特征和目标特征的共同表征(用贝叶斯推断)
- 视觉图像->VAE(推理网络,生成网络),
- 对目标信号,建立贝叶斯线性模型
- 模拟目标信号和视觉信息的稀疏表达
- 给定图像,自底向上推理得到中间特征
- 相似度分析融入贝叶斯分析中
- 多视图生成式自编码器
DL
- 小数据集下的深度学习
- 数据增广
- pretrain
- 传统+深度-检测
- faster rcnn提取特征(可能漏选,传统方法预筛选更简单有效)
- 多尺度卷积分类(LUNA2016第四名)
- 分类
- 领域知识在特征提取中的作用
- 领域知识进行预处理,对于不同的输入图片,提取不同的特征,多特征融合预测
- 分割
- 多网络提取特征融合(ensemble)
- 不同网络提取不同部分或者不同结构的局部的特征,将特征拼接起来
- 多模型投票
- 多模型相互学习(深度协同)
- identification loss and classification loss
- 贝叶斯推理
- 深度学习影响分析
- 将先验知识设计到网络中
- 模拟数据去除隐私问题
- 脉冲神经网络
- 领域知识最大的作用在于不是直接端到端,而是对问题做分割,对子问题做端到端
- 移动GPU
异常检测
- 只有正常数据,如何发现异常数据
- 高斯模型,低概率区域为异常数据
- 高斯过程学习(非参数模型)
- 生成式↑
- 判别式(基于分类)↓
- 单类SVM:将原点作为第二类,让超平面离原点尽可能远
- 分类结果差越多(??),说明越异常
- GAN做异常检测(如果还原出现异常(异常的局部会还原失败,从而自动完成标注),说明是异常图像)
10-27 am
物体识别到场景理解
- Face Recognition, Car Recognition
- 单类识别,多类识别
- 可扩展方向:性能,稳定性,可解释性,推广性,与人感知的一致性
- 视觉:什么东西在哪里
- 场景理解-知识图谱
- 属性组合挖掘
10-27 pm
语音前沿技术
- 港中文
- Man-Computer Symbiosis:人机共生
- Microsoft speech-recognition
- 人机共生三种场景
- AI competencies
- Challenge: 语音加情感识别,场景丰富,non-native, dysarthric, personal speaker
- 人机协作解决困难问题
- RFID加在电车上,可视化,动态规划车次
- 人机合作发明新的知识
- AI进行search,retrieve,cluster,categorize,compare....
- Challenge: 语音加情感识别,场景丰富,non-native dysarthric speaker
- 李锦辉 ECE
- 语音识别(ASR),实际错词率比声称的高
- 语音总是备选项,需要solution,speech app(在用户hands,eye-busy scenarios里)
- more than WERs
- 频谱转换(paradigm shift,旧方法应用在新的场景)
- 降噪,增强,杂音分离,消除回响
- 信号处理->识别
- DNN黑箱
- 属性分析,专业知识,不能盲目分析,不能说只有标签就行,knowledge-driven
- 例如发音中识别摩擦音,爆破音
- 将传统模型中里程碑式的东西拿过来用
- 自动化语音属性抓取
- 搜狗 陈伟
- 自然交互
- 知识计算
- 语音←(asr tts)→语言←(ocr 图像生成)→图像
- 语音听写(字幕,演讲,采访),语音翻译,语音同传
- 可穿戴设备,车载,智能家居
- SeqSequence CNN LSTM
- 运算平台:单卡3TFlops->1PFlops
- 基于容器对GPU运算做调度
- GPU -> FPGA -> RDMA
- 移动端:模型压缩,轻量化
人工智能与机器学习前沿技术论坛
- 朱军:半监督深度学习模型
- 贝叶斯深度学习
- 基于贝叶斯推断的深度生成模型
- 对GAN加中间约束的生成模型
- ZhuSuan(珠算):概率编程模型,开源可用
- 演化算法
- 适用于:解空间不规则,需求不好精确建模的情况
- 视频检索的哈希学习
- 图像检索
- 通常的特征太大,检索太慢
- 用二进制编码的一个哈希值来表达特征
- 设计一个损失,约束正负样本的相似度误差,用变量绝对值与1的差的一范数等价为二进制约束
- 视频检索
- 对两段视频分别切割为帧图片做图像检索的哈希学习
10-28 am
- 下一个互联网引爆点
- 十年后的智能机器人
10-28 pm 多媒体计算
多媒体计算
- AI2.0
- 大数据智能
- 群体智能
- 跨媒体智能
- 混合增强智能
- 自主无人系统
- 应用:制造,农业,医疗
朱文武 TMM趋势
- TMM介绍
- IEEE of Transactions on Multimedia
- 多媒体计算
- 多媒体社交
- 多媒体信号处理
- 多媒体应用和系统
- 趋势:
- 2.5->3.5,CCF A, 长文
- 一年900篇提交,接受30%-35%
- 中了之后半年内出
- 超过60%是机器学习+图像视频分析,多模态,跨媒体
- 跨媒体智能
- 文本图像语音视频及其交互属性混合
- 多源融合+知识演化+系统演化
- 解决语义鸿沟(机器认识世界是什么)意图鸿沟(机器理解人要达到什么目标)
- 机器学习助力多媒体目前效果好,多媒体知识助力AI不成熟
- 跨媒体深度分析和综合推理
- 浅层到深度
- 知识图谱指导多媒体分析,属性补全,知识表达理解是以后的趋势,多媒体理解,视频QA之类
- 难点:跨媒体知识学习推理,多媒体情感分析
- 知识离散,特征连续,如何转化
- 知识和数据如何融合
- 媒体到机器学习近期套路:
- 深度学习+反馈(知识、规则进行反馈/强化学习)(黑箱)
- 统计推理,贝叶斯推理(白盒)
- 数据驱动 && 知识驱动
- Cross-media analysis and reasoning: advances and ...
图像与视频生成的规则约束学习(GAN)
- 已有工作
- 人脸姿态转换,年龄转换,表情转换
- 超分辨率,画风转换,字体转换,图片转视频
- 应用:
- 动画自动制作(补间),手语生成
- 视频自动编辑(天气变化)
- WGAN,PPGAN
- 无监督新框架
- 创意:随机性
- 难点
- 解空间巨大:需要找出解所在的低维子空间
- 宏观结构的一致性(视频生成需要的像素感受野(pooling)很大,难以预测长期运动变化)
- 微观结构的清晰度,要同时逼近多模分布,避免单模生成的结果不够精确
- 用领域中的规则去约束GAN,加入破坏规则的代价
- 缩小预测空间,保证宏观结构,加快细节生成
- 工作介绍:
- 景深风景生成
- 难点:要求空间结构合理,不能有严重的模糊
- 约束:从现有风景图像中对景深关系建模(对区域进行标注, 不同区域有不同的远近限制)
- 建立位置和对象的关系,得到某个位置有某个对象的概率分布
- Hawkes过程模型
- 根据对象对图层做分解,由概率约束建立图层约束
- 层内DCGAN,层间LSTM聚合出整图
- 骨架约束的人体视频生成
- 骨架运动有约束
- 骨架提取很鲁棒,可以得到很多有标签知识(传统方法用来提取知识)
- 静图+动作序列变动图
- CNN编码解码,孪生网络双输入进行生成
- 判别器:对生成和实际帧做Triplet loss优化
- gan loss和视频相似度loss相加
- 交互运动视频生成
- 创意+规则约束+复杂场景+复杂交互
基于锚图的视觉数据分析
- 图学习
- 相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化
- 标号建模 标号平滑 标号学习
- 锚图学习(速度+)
- coarse to fine
- 利用数据点图,生成锚点图,先采一部分有代表性的数据(例如聚类中心)生成一个图模型,然后推理出其他图
- 图模型:表示矩阵,邻接矩阵,如何建立,加快相似度计算
- 高效锚图(性能速度+)
- 数学上优化约束条件
- 层次化锚图(速度++)
- 锚点是线性增加的,也会增加得很快
- 对第一层采样的点做再采样,多层采样减少了锚点数目,从最少的锚点的层逐层推理
- 标号预测器(速度+++)
- 优化对锚点的标号
- 对最小的锚点层接一个优化器进行标号预测
- 主动学习(样本选择)
- 减小标号的误差损失
- Google Expander Graph Learning平台:经典方法,并行运算
彭宇新 跨媒体智能
- 形式上多源异构,语义上相互关联
- 聚焦于跨媒体统一空间学习,获得多个媒体间共享的潜在子空间
- 跨媒体实体关系,跨媒体知识图谱,跨媒体知识演化和推理
- 讲了好多篇论文的Motivation和Solution,我会具体整理另一篇文章
- 跨媒体智能描述与生成
- 用于信息检索
- 应用:内容自动监管,舆情分析,智能医疗
层次记忆网络:视频问答 跨媒体推理
- 视频转语言
- 视频帧 + 时序依赖 -> 动态动作信息
- 选择ROI帧,时序结构编码(Dual Memory Recurrent Model--LSTM扩充来的),生成句子
- 层次记忆网络
- Image QA: 检查是否真的理解了图片
- 视频时序推理
CNCC2017梳理的更多相关文章
- 【初码干货】在Window Server 2016中使用Web Deploy方式发布.NET Web应用的重新梳理
在学习和工作的过程中,发现很多同事.朋友,在做.NET Web应用发布的时候,依然在走 生成-复制到服务器 这样的方式,稍微高级一点的,就是先发布到本地,再上传到服务器 这种方式不仅效率低下,而且不易 ...
- [SQL] SQL 基础知识梳理(一)- 数据库与 SQL
SQL 基础知识梳理(一)- 数据库与 SQL [博主]反骨仔 [原文地址]http://www.cnblogs.com/liqingwen/p/5902856.html 目录 What's 数据库 ...
- [SQL] SQL 基础知识梳理(二) - 查询基础
SQL 基础知识梳理(二) - 查询基础 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5904824.html 序 这是<SQL 基础知识梳理( ...
- [SQL] SQL 基础知识梳理(三) - 聚合和排序
SQL 基础知识梳理(三) - 聚合和排序 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5926689.html 序 这是<SQL 基础知识梳理 ...
- [SQL] SQL 基础知识梳理(四) - 数据更新
SQL 基础知识梳理(四) - 数据更新 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5929786.html 序 这是<SQL 基础知识梳理( ...
- [SQL] SQL 基础知识梳理(五) - 复杂查询
SQL 基础知识梳理(五) - 复杂查询 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5939796.html 序 这是<SQL 基础知识梳理( ...
- 【Spring-web】RestTemplate源码学习——梳理内部实现过程
2016-12-28 by 安静的下雪天 http://www.cnblogs.com/quiet-snowy-day/p/6228198.html 提示:使用手机浏览时请注意,图多费流量. 本篇 ...
- [Erlang 0113] Elixir 编译流程梳理
注意:目前Elixir版本还不稳定,代码调整较大,本文随时失效 之前简单演示过如何从elixir ex代码生成并运行Erlang代码,下面仔细梳理一遍elixir文件的编译过程,书接上文,从 ...
- linux下EOF写法梳理
在平时的运维工作中,我们经常会碰到这样一个场景:执行脚本的时候,需要往一个文件里自动输入N行内容.如果是少数的几行内容,还可以用echo追加方式,但如果是很多行,那么单纯用echo追加的方式就显得愚蠢 ...
随机推荐
- python读取外部文件
>>> pd.read_excel('c://111.xlsx') 年度排名 历史排名 电影名称 总票房 总人次 总场次 上映年份 操作 0 1 1 美人鱼 NaN -- -- 20 ...
- linux (1)基本知识/目录/磁盘格式/文件系统
一.linux基本知识介绍1.命令行格式:(按两次tab可以知道有多少个可执行命令,我的有1980个,用户有1960个)[用户名@linux主机名 ~(当前目录)]$ 命令 选项 参数1 参数2[ro ...
- cas-单点登录-应用说明
单独在tomcat中启动cas 1, 我的百度网盘中有 cas 和 tomcat-cas 压缩包 http://pan.baidu.com/s/1bnxVRkF 直接解压缩就可以使用. 2, ...
- activiti07- Task
任务 用户任务: 用户任务,用来对那些需要人参与完成的工作进行建模.当流程执行到这样的用户任务时,会在被分配到该任务的用户或用户组的任务列表中创建新的任务. 用户任务中可以包含描述.事实上,任何BPM ...
- pig hive hbase比较
Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我 ...
- gephi安装后无法打开
具体解决的方法是找到gephi.conf文件(在“gephi安装目录\etc”中)文件,添加下面的一行,指定jdkhome的路径. jdkhome="C:\Program Files (x8 ...
- [python学习笔记] 开篇
今天开始学习markdown,立贴为证. 平均一天一小时.两个月先学完基础. 所有的帖子只为了学习记录,有不对的请提出,轻吐槽
- 配置exVim开发环境
exVim主页 http://exvim.github.io/ 使用该配置原因: 简单,组织各种优秀插件,安装包很小,各种操作很流畅 实用,对于项目来说,只需要多出一个xx.exvim文件,所有符号等 ...
- [js高手之路] html5 canvas系列教程 - 掌握画直线图形的常用API
我们接着上文[js高手之路] html5 canvase系列教程 - 认识canvas以及基本使用方法继续. 一.直线的绘制 cxt.moveTo( x1, y1 ): 将画笔移动到x1, y1这个点 ...
- .h(头文件) .lib(库文件) .dll(动态链接库文件) 之间的关系和作用的区分
.h头文件是编译时必须的,lib是链接时需要的,dll是运行时需要的.附加依赖项的是.lib不是.dll,若生成了DLL,则肯定也生成 LIB文件.如果要完成源代码的编译和链接,有头文件和lib就够了 ...