Valse2019笔记——弱监督视觉理解
程明明(南开大学):面向开放环境的自适应视觉感知

(图片来自valse2019程明明老师ppt)
面向识别与理解的神经网络共性技术
深度神经网络通用架构 —— VggNet(ICLR’15)、ResNet(CVPR‘16)、DenseNet(CVPR’17)、DLA(CVPR‘18)、Res2Net()富尺度空间的深度神经网络通用架构
富尺度空间的深度神经网络通用架构
网络结构:
应用:检测任务、分类任务、分割任务
通用视觉基元属性感知
显著性物体检测技术
A Simple Pooling-Based Design for Real-Time Salient Object Detection;
Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection(RGBD显著性物体检测) 难点:深度图质量、多模态融合机制,利用对比度先验;
S4Net: Single Stage Salient-Instance Segmentation(显著性Instance检测)。
边缘检测技术
关键机器学习算法到多种行业应用
面向行业开放应用场景,而非传统实验环境下的高可靠、高通用性基础算法。
相关论文
Self-Erasing Network for Integral Object Attention](http://mmcheng.net/SeeNet)(视觉注意机制与弱监督语义分割);
Deeply supervised salient object detection with short connections(基元属性和互联网大数据的自主学习);
Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation(面向普适应用的关键机器学习方法);
Sketch2Photo: Internet Image Montage(利用互联网大数据的自主学习)
总结
- 通过引入层内分层递进残差链接,实现富尺度空间的深度神经网络通用架构,并通过多任务协同求解提高鲁棒性;
- 通过预先构建显著性物体检测、边缘提取等任务类别无关的基元属性感知能力,减少具体任务中的数据依赖,实现“举一反三”;
- 利用互联网海量多媒体数据,减少对人工标注数据的依赖,自主地学习目标类别的识别与检测模型,实现系统智能的自主发育。
叶齐祥(中国科学院大学):从弱监督到自学习视觉目标建模 —— weakly supervised object detection, localization, and instance segmentation
引子
存在问题:
有监督的目标检测和实例分割的主要流程

(图片来自valse2019叶齐祥老师ppt)
从上图看出,数据集的制作需要对大量数据从不同方面进行标注。
解决方法
如何实现 “ 图像数据库 → 训练数据集 ”?
人工标注:耗时耗力
弱监督的数据标注 → 弱监督学习:高效低耗

弱监督学习
相关论文:
CVPR18: Min-entropy Latent Model (MELM)
PAMI2019: Recurrent Learning(MELM+RecurrentLearning)
CVPR19: Continuation Multiple Instance Learning(CMIL)
ICCV17: Soft Proposal Network(SPN)CVPR18:PeakResponseMapping(PRM)
CVPR19:InstanceActivationMap(IAM)
论文详解
问题提出:隐变量学习、多实例学习
往往无法学习到全局最优结果
解决方法:

如上图所示,针对无法得到全局最优问题,提出了convex regularization和continuation optimization两种方法。
- convex regularization(Min-entropy Latent Model for Weakly Supervised object Detection CVPR2018)

- continuation optimization(CMIL: Continuation Multiple Instance Learningfor Weakly Supervised object Detection CVPR2019)

- Recurrent Learning(Min-entropy Latent Model for Weakly Supervised object Detection PAMI2019)

- soft proposal network(Soft Proposal Network for Weakly Supervised Object Localization ICCV2017)

- Peak Response Mapping(Weakly Supervised Instance Segmentation using Class Peak Response CVPR2018)

- learning Instance Activation Maps(Learning Instance Activation Maps for Weakly Supervised Instance Segmentation CVPR2019)

未来发展方向:
- Beyond regularization and continuation optimization
- Beyond weakly supervised detection and segmentation
- Fill the gap of supervised and weakly supervised methods
- Weakly supervised detection meets X (Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model)
X= Few-shot Active Learning | Online Feedback | Temporal
魏秀参(旷视科技):Weakly-supervised object discovery based on pre-trained deep CNNs
引子
Deep learning三驾马车
许多可用的预训练好的深度学习模型
深度学习模型的训练还需要大量标记的数据
图像检索(Image Retrieval)
一般图像检索流程:

(图片来自valse2019魏秀参老师ppt)
黄圣君(南京航空航天大学):Cost-Sensitive Active Learning
引子
- 一个传统的有监督学习

- 有标签的数据非常重要

当m越大,表示估计的模型越接近真实模型。
- 有标签的数据非常稀少
- 有标签的数据非常昂贵:耗时、专业知识人才、耗资
Active Learning —— 可以用更少的标注数据进行学习

Cost Sensitive Active Learning
标记代价 ≠ 查询数量 (查询次数越多不代表所查的东西代价越大)
影响标记代价因素:实例——用于视频推荐的多视角主动学习(instances ——multi-view active learning for video recommendation)
特征——有监督矩阵补全的主动特征获取(features——active feature acquisition with supervised matrix completion) 标签——主动查询分层多标签学习(labels——active querying for hierarchical multi-label learning) oracles- 积极学习各种不完美的oracles(Oracles——active learning from diverse and imperfect oracles)
影响标记代价因素详细介绍
instances ——multi-view active learning for video recommendation
视频推荐:协同过滤(冷门启动问题)/基于内容的过滤(需要大量数据训练)
多视角视频表示:视觉特征、文本特征、用户特征、标签
motivation:在视频推荐任务中,文本特征(即评论)获取需要很大代价,视觉特征不需要人力代价。
idea: Visual to text Mapping

features——active feature acquisition with supervised matrix completion
问题:现实应用中往往会出现特征丢失现象,通常导致学习性能下降
motivation: SMC——supervised matrix completion(exploit the label information / Trace-norm for low-rank assumption)
AFA——Active Feature Acquisition(minimize the feature acquisition cost / contribute to both recovering missing entries and classification)

idea:(这部分设计太多专业基础知识,不太明白)


labels——active querying for hierarchical multi-label learning
标签有层次结构
平衡成本和信息
Oracles——active learning from diverse and imperfect oracles
不同的oracles有不同的价格
同时选择instance和oracle
准确而便宜的标签
总结
主动学习:用最少的标签代价训练一个高效的模型
代价和不同的 instances/features/labels/oracles 有关系
魏云超(UIUC):Towards Weakly Supervised Object Recognition and Scene Parsing
- Self-Erasing Network for Integral Object Attention
- Weakly Supervised Scene Parsing with Point-based Distance Metric Learning
Valse2019笔记——弱监督视觉理解的更多相关文章
- CVPR2020:点云弱监督三维语义分割的多路径区域挖掘
CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...
- 化繁为简,弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL) | CVPR 2020
论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT ...
- CVPR2022 | 弱监督多标签分类中的损失问题
前言 本文提出了一种新的弱监督多标签分类(WSML)方法,该方法拒绝或纠正大损失样本,以防止模型记忆有噪声的标签.由于没有繁重和复杂的组件,提出的方法在几个部分标签设置(包括Pascal VOC 20 ...
- Deep learning for visual understanding: A review 视觉理解中的深度学习:回顾 之一
Deep learning for visual understanding: A review 视觉理解中的深度学习:回顾 ABSTRACT: Deep learning algorithms ar ...
- 【转载】MDX Step by Step 读书笔记(三) - Understanding Tuples (理解元组)
1. 在 Analysis Service 分析服务中,Cube (多维数据集) 是以一个多维数据空间来呈现的.在Cube 中,每一个纬度的属性层次结构都形成了一个轴.沿着这个轴,在属性层次结构上的每 ...
- go笔记--几个例子理解context的作用
目录 go笔记--几个例子理解context的作用 context interface 先看一个简单的例程 context的作用 contxt相关函数 go笔记--几个例子理解context的作用 经 ...
- 读书笔记之《深入理解Java虚拟机》不完全学习总结
写在前面: 之所以称作不完全总结,因为我其实没有完完全全地看完此书,但是涵盖了大部分重要章节:同时以下总结是我自己认为很重要知识,细枝末节处难免遗漏,还请详细参考原著. 转载请注明原文出处:http: ...
- 读书笔记,《深入理解java虚拟机》,第三章 垃圾收集器与内存分配策略
要实现虚拟机,其实人们主要考虑完成三件事情: 第一,哪些内存需要回收: 第二,什么时候回收: 第三,如何回收. 第二节,对象已死吗 垃圾收集其实主要是针对java堆里面的数据来说的,传统的垃圾收 ...
- [原创]java WEB学习笔记27:深入理解面向接口编程
本博客为原创:综合 尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和 网络上的现有资源(博客,文档,图书等),资源的出处我会标明 本博客的目的:①总结自己的学习过程,相当 ...
随机推荐
- 了解JVM运行时的内存分配
了解JVM运行时的内存分配 前言 上文中,在介绍运行时数据区域中的 JAVA 堆时,提到了 JVM 中的堆,一般分为三大部分:新生代.老年代.永久代,本文将进一步了解运行时的内存分配情况. 正文 1. ...
- FPC导通阻抗计算
pc线路板是有导电功能的,那么如何仅适用手工计算出线路的阻值能?那么就需要使用到一个公式: W*R*T=6000 W是指铜箔的宽度单位是密耳mil. T是指铜箔厚度单位是盎司oz. R是指铜箔的电阻单 ...
- centos7.5 安装gaussian09和 gaussianview4
一.安装gaussian09 1. 解压安装包 $ mkdir Gaussian$ cd Gaussian$ tar xvf g09_linux.tar 2. 设置环境变量 #gaussian09 e ...
- ehcarts 四川地图
vue 首先你要傻子地图就引入进来(没得的地图需要你json请求得到(这个json自己去找),然后你要注册这个地图,echarts有的话就不用注册) import "../../node_m ...
- 关于12c安装后打补丁
根据ID:1454618.1,可在MOS上查到相关版本详细的补丁版本号. 补丁安装过程参考补丁文档,以下是大致过程. 1. 更新OPatch2. 创建OCM应答文件(每个节点)$ORACLE_HOME ...
- #WEB安全基础 : HTTP协议 | 0x12 MIME多用途邮件扩展以及多部分对象集合
我们是怎么让邮件里又有图片又有文字的? 文字和图片是两个不同的类型,而邮件又是一个类型. C语言的结构体允许用户定义一个含有多类型的自定义类型 像这样,看不懂没关系,你只要知道邮件里有多个类型就可以了 ...
- Zepto源码分析之二(新旧版本zepto.Z方法的区别)
在上一节中讲到Z()方法,是在初始化函数init中直接调用zepto.Z() zepto.Z = function(dom, selector) { dom = dom || [] dom.selec ...
- UEP-添加
添加数据时候自动更新时间,注意添加数据时,要设置最大主键 时间的工具类:CommonUtil 人的工具类: ContextUtil ScmCompanyAccount scmCompanyAccoun ...
- Kali-Dos洪水攻击之Hping3
在计算机行业,拒绝服务(DoS)或分布式拒绝服务(DDoS)攻击是指不法分子企图让某机器或网络资源无法被预期的用户所使用.虽然执行DoS攻击的方式.动机和目标不一样,但通常包括设法临时性或无限期中断或 ...
- UIElementImageShot
MemoryStream memStream = new MemoryStream(); System.Windows.Media.Imaging.RenderTargetBitmap bmp = n ...

