CVPR2022 | 弱监督多标签分类中的损失问题
前言 本文提出了一种新的弱监督多标签分类(WSML)方法,该方法拒绝或纠正大损失样本,以防止模型记忆有噪声的标签。由于没有繁重和复杂的组件,提出的方法在几个部分标签设置(包括Pascal VOC 2012、MS COCO、NUSWIDE、CUB和OpenImages V3数据集)上优于以前最先进的WSML方法。各种分析还表明,方法的实际效果很好,验证了在弱监督的多标签分类中正确处理损失很重要。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
论文:Large Loss Matters in Weakly Supervised Multi-Label Classification
论文:http://arxiv.org/pdf/2206.03740
代码:https://github.com/snucml/LargeLossMatters
背景
弱监督多标签分类(WSML)任务是利用每幅图像的部分观察标签来学习多标签分类,由于其巨大的标注成本,变得越来越重要。
目前,有两种简单的方法可以使用部分标签来训练模型。一种是只使用观察到的标签来训练模型,而忽略未观察到的标签。另一种是假设所有未观察到的标签都是负面的,并将其纳入训练,因为在多标签设置中,大多数标签都是负面的。
但第二种方法有一个局限性,即这种假设会在标签中产生一些噪声,从而妨碍模型学习,因此之前的工作大多遵循第一种方法,并尝试使用各种技术(如引导或正则化)探索未观察标签的线索。然而,这些方法包括大量计算或复杂的优化管道。
基于以上思路,作者假设,如果标签噪声能够得到妥善处理,第二种方法可能是一个很好的起点,因为它具有将许多真正的负面标签纳入模型训练的优势。因此,作者就从噪声标签学习的角度来看待WSML问题。
众所周知,当训练带有噪声标签的模型时,该模型首先适应干净的标签,然后开始记忆噪声标签。虽然之前的研究表明记忆效应仅在有噪声的多类别分类场景中存在,但作者发现,在有噪声的多标签分类场景中也存在同样的效应。如图1所示,在训练期间,来自干净标签(真负样本)的损失值从一开始就减小,而来自噪声标签(假负样本)的损失从中间减小。
图1 WSML中的记忆效应
基于这一发现,作者开发了三种不同的方案,通过在训练过程中拒绝或纠正大损失样本,防止误报标签被记忆到多标签分类模型中。
贡献
1) 首次通过实验证明,记忆效应发生在有噪声的多标签分类过程中。
2) 提出了一种新的弱监督多标签分类方案,该方案明确利用了带噪声标签的学习技术。
3)提出的方法轻巧且简单,在各种部分标签数据集上实现了最先进的分类性能。
方法
在本文中,作者提出了新的WSML方法,其动机是基于噪声多类学习的思想,它忽略了模型训练过程中的巨大损失。通过在损失函数中进一步引入了权重项λi:
作者提出了三种提供权重λi的不同方案,示意图描述如图2所示。
图2 提出的方法的总体管道
1.损失拒绝
处理大损耗样本的一种方法是通过设置λi=0来拒绝它。在有噪声的多类任务中,B.Han等人提出了一种在训练过程中逐渐增加拒绝率的方法。作者同样设置函数λi,
由于模型在初始阶段学习干净的模式,因此在t=1时不拒绝任何损失值。在每次迭代中使用小批量而不是完整批量D′来组成损失集。作者将此方法称为LL-R。
2. 损失纠正(临时)
处理大损失样本的另一种方法是纠正而不是拒绝它。在多标签设置中,可以通过将相应的注释从负值切换到正值来轻松实现这一点。“临时”一词的意思是,它不改变实际标签,而只使用根据修改后的标签计算的损失,将函数λi定义为
作者将此方法命名为LL-Ct。这种方法的优点是,它从未观察到的标签中增加了真实阳性标签的数量。
3. 损失纠正(永久)
通过永久更正标签来更积极地处理较大的损失值。直接将标签从阴性改为阳性,并在下一个训练过程中使用修改后的标签。为此,为每种情况定义λi=1,并修改标签如下:
作者将此方法命名为LL-Cp。
实验
表2 人为创建的部分标签数据集的定量结果
表3 OpenImages V3数据集中的定量结果
图3 人为生成COCO部分标签数据集的定性结果
图4 COCO数据集上建议的方法的精度分析
图5 LL-Ct对COCO数据集的超参数效应
图6 使用较少数量的图像进行训练
表4 Pointing Game
结论
在本文中,作者提出了损失修改方案,该方案拒绝或纠正了在训练带有部分标记注释的多标签分类模型时出现的大损失样本。这源于经验观察,即记忆效应也发生在嘈杂的多标签分类场景中。
虽然不包括繁重的和复杂的组件,但作者的方案成功地防止了多标签分类模型记忆有噪声的假阴性标签,在各种部分标记的多标签数据集上实现了最先进的性能。
---------------------------------------------------------------------------------
CV技术指南创建了一个计算机视觉技术交流群和免费版的知识星球,目前星球内人数已经700+,主题数量达到200+。
知识星球内将会每天发布一些作业,用于引导大家去学一些东西,大家可根据作业来持续打卡学习。CV技术群内每天都会发最近几天出来的顶会论文,大家可以选择感兴趣的论文去阅读,持续follow最新技术,若是看完后写个解读给我们投稿,还可以收到稿费。 另外,技术群内和本人朋友圈内也将发布各个期刊、会议的征稿通知,若有需要的请扫描加好友,并及时关注。
加群加星球方式:关注公众号CV技术指南,获取编辑微信,邀请加入。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
欢迎可以写以下内容的朋友联系我(关注公众号后获取联系方式)。
- 最新顶会的解读。例如最近的CVPR2022论文。
- 各个方向的系统性综述、主要模型发展演变、各个模型的创新思路和优缺点、代码解析等。如目标检测大总结:对目标检测从传统方法到深度学习的所有大总结,主要包括传统方法检测、RCNN系列、YOLO系列、anchor-free系列、小目标检测方法总结、小样本目标检测方法总结、视频中的目标检测方法总结、目标检测使用的损失函数总结等内容。支持边学边写。
- TVM入门到实践的教程
- MNN入门到实践的教程
- OpenVINO入门到实践的教程
- libtorch入门到实践的教程
- Oneflow入门到实践的教程
- Detectron入门到实践的教程
- caffe源码阅读
- 深度学习从入门到精通(从卷积神经网络开始讲起)
- 若自己有想写的且这上面没提到的,可以跟我联系。声明:有报酬,具体请联系详谈。
公众号其它文章
CVPR2022 | iFS-RCNN:一种增量小样本实例分割器
CVPR2022 | Time 3D:用于自动驾驶的端到端联合单目三维物体检测与跟踪
CVPR2022 | A ConvNet for the 2020s & 如何设计神经网络总结
CVPR2022 | PanopticDepth:深度感知全景分割的统一框架
CVPR2022 | 未知目标检测模块STUD:学习视频中的未知目标
从零搭建Pytorch模型教程(五)编写训练过程--一些基本的配置
从零搭建Pytorch模型教程(四)编写训练过程--参数解析
从零搭建Pytorch模型教程(三)搭建Transformer网络
CVPR2022 | 弱监督多标签分类中的损失问题的更多相关文章
- CVPR2020:点云弱监督三维语义分割的多路径区域挖掘
CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...
- Valse2019笔记——弱监督视觉理解
程明明(南开大学):面向开放环境的自适应视觉感知 (图片来自valse2019程明明老师ppt) 面向识别与理解的神经网络共性技术 深度神经网络通用架构 -- VggNet(ICLR'15).ResN ...
- 化繁为简,弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL) | CVPR 2020
论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT ...
- scikit-learn一般实例之八:多标签分类
本例模拟一个多标签文档分类问题.数据集基于下面的处理随机生成: 选取标签的数目:泊松(n~Poisson,n_labels) n次,选取类别C:多项式(c~Multinomial,theta) 选取文 ...
- 移动前端不得不了解的HTML5 head 头标签(中上篇)
Meta 标签 meta标签是HTML中head头部的一个辅助性标签,它位于HTML文档头部的 <head> 和 <title> 标记之间,它提供用户不可见的信息.虽然这部分信 ...
- html(常用标签,标签分类),页面模板, CSS(css的三种引入方式),三种引入方式优先级
HTML 标记语言为非编程语言负责完成页面的结构 组成: 标签:被<>包裹的由字母开头,可以结合合法字符( -|数字 ),能被浏览器解析的特殊符号,标签有头有尾 指令:被<>包 ...
- 前端 HTML 标签分类
三种: 1.块级标签: 独占一行,可设置宽度,高度.如果设置了宽度和高度,则就是当前的宽高.如果宽度和高度没有设置,宽度是父盒子的宽度,高度根据内容填充. 2.行内标签:在一行内显示,不能设置宽度,高 ...
- 带监督的文本分类算法FastText
该算法由facebook在2016年开源,典型应用场景是“带监督的文本分类问题”. 模型 模型的优化目标如下: 其中,$<x_n,y_n>$是一条训练样本,$y_n$是训练目标,$ ...
- 如何用softmax和sigmoid来做多分类和多标签分类
首先,说下多类分类和多标签分类的区别 多标签分类:一个样本可以属于多个类别(或标签),不同类之间是有关联的,比如一个文本被被划分成“人物”和“体育人物”两个标签.很显然这两个标签不是互斥的,而是有关联 ...
随机推荐
- MongoDB 支持地理空间数据存储
MongoDB 支持地理空间数据存储 官方文档 https://docs.mongodb.com/manual/geospatial-queries/ MongoDB 支持对于地理空间数据的查询操作. ...
- 进程的概念及multiprocess模块的使用
一.进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础.在早期面向进程设计的计算机结构中,进程是程序的基本执行实体:在 ...
- JS/JQ动态创建(添加)optgroup和option属性
JavaScript和Jquery动态操作select下拉框 相信在前端设计中必然不会少的了表单,因为经常会使用到下拉框选项,又或是把数据动态回显到下拉框中.因为之前牵扯到optgroup标签时遇到了 ...
- JQuery学习高级
## 今日内容: 1. JQuery 高级 1. 动画 2. 遍历 3. 事件绑定 4. 案例 5. 插件 ## ...
- 【HarmonyOS学习笔记】记第一次使用IDE
哈喽大家好我是脸皮贼厚的小威 愚人节刚过先给大家拜个早年吧 最近在HarmonyOS官网下载了IDE,并抱着学(wan)习(wan)的心态试着跑出了Hello World,并安装到手机上 这是一个简单 ...
- 组合式应用新利器?SaaS新时代事件网格如何解决集成标准化问题
摘要:组合式应用需要面临的一个难题是如何解决各个应用之间的集成标准问题,比如应用可能仅支持HTTP.TCP等协议中的一种,而缺乏统一的通讯标准就给业务落地该架构带来了困难.下面介绍事件网格(Event ...
- Day 001:PAT练习--1091 N-自守数 (15 分)
体验了一阵子现代生活后,朕发现敲代码还是挺有意思的.所以从今天开始,小编秦始皇开始记录朕做PAT题目的过程辣,那话不多说,开始今天的题目了: 题目描述: 如果某个数 K 的平方乘以 N 以后, ...
- Java指令重排序在多线程环境下的应对策略
一.序言 指令重排在单线程环境下有利于提高程序的执行效率,不会对程序产生负面影响:在多线程环境下,指令重排会给程序带来意想不到的错误. 本文对多线程指令重排问题进行复原,并针对指令重排给出相应的解决方 ...
- Hadoop(四)C#操作Hbase
Hbase Hbase是一种NoSql模式的数据库,采用了列式存储.而采用了列存储天然具备以下优势: 可只查涉及的列,且列可作为索引,相对高效 针对某一列的聚合及其方便 同一列的数据类型一致,方便压缩 ...
- uniapp复制到剪贴板
uni.setClipboardData() ; 例: 给元素添加点击事件 <view @click="doCopy()">复制</view> 复制方法 d ...