YOLACT : 首个实时one-stage实例分割模型,29.8mAP/33.5fps | ICCV 2019
论文巧妙地基于one-stage目标检测算法提出实时实例分割算法YOLACT,整体的架构设计十分轻量,在速度和效果上面达到很好的trade-off。
来源:【晓飞的算法工程笔记】 公众号
论文: YOLACT: Real-time Instance Segmentation
Introduction
目前的实例分割方法虽然效果都有很大的提升,但是均缺乏实时性,为此论文的提出了首个实时($>30fps$)实例分割算法YOLACT,论文的主要贡献如下:
- 基于one-stage目标检测算法,提出实时实例分割算法YOLACT,整体的架构设计十分轻量,在速度和效果上面达到很好的trade-off。
- 提出加速版NMS算法Fast NMS,有12ms加速
YOLACT
YOLACT的主要想法是直接在one-stage目标检测算法中加入Mask分支,而不添加任何的RoI池化的操作,将实例分割分成两个并行的分支:
- 使用FCN来生成分辨率较大的原型mask,原型mask不针对任何的实例。
- 目标检测分支添加额外的head来预测mask因子向量,用于对原型mask进行特定实例的加权编码。
这样做的原理在于,mask在空间上是连续的,卷积能很好地保持这种特性,因此原型mask通过全卷积生成的,而全连接层虽然不能保持空间连贯性,但能很好地预测语义向量,于是用来生成instance-wise的mask因子向量,结合两者进行预测,既能保持空间连贯性,也能加入语义信息并保持one-stage的快速性。最后取目标检测分支经过NMS后的实例,逐个将原型mask和mask因子向量相乘,再将相乘后的结果合并输出
Prototype Generation
原型mask分支预测$k$个mask,protonet按如图3的FCN形式实现,最后的卷积输出channel为$k$,protonet接在主干网络上。整体的实现与大多数的语义分割模型类似,区别在于主干网络使用了FPN来增加网络的深度,并且保持较大的分辨率($P_3$, 原图1/4大小)来提高小物体的识别。另外,论文发现不限制protonet的输出是很重要的,能够让网络对十分确定的原型给予压倒性的响应(比如背景),可以选择对输出的原型mask进行ReLU激活或不接激活,论文最终选择了ReLU激活。
Mask Coefficients
在经典的anchor-based目标检测算法中,检测head一般有两个分支,分别预测类别和bbox偏移。在此基础上添加第三个用于mask因子预测的分支,每个实例预测$k$个mask因子。
为了更好地控制和丰富原型mask的融合,对mask因子进行tanh激活,使得值更稳定且有正负,效果如图2的分支。
Mask Assembly
将原型mask和mask因子进行线性组合,然后对组合结果进行sigmoid激活输出最终的mask。$P$为$h\times w\times k$的原型mask,$C$为$n\times k$的原型因子,$n$为检测分支NMS和分数过滤后留下的实例数。
Losses
训练的损失函数包含3种:分类损失$L_{cls}$、box回归损失$L_{box}$以及mask损失$L_{mask}$,权重分别为1、1.5和6.125,分类损失和回归损失的计算与SSD一样,mask损失使用pixel-wise的二元交叉熵计算$L_{mask}=BCE(M, M_{gt})$
Cropping Masks
在推理阶段,使用预测的bbox在最终的mask截取出实例,再使用阈值(人工设置0.5)来过滤成二值的mask。在训练的时候,则使用GT来截取实例计算mask损失,$L_{mask}$会除以截取的实例大小,这样有助于保留原型中的小目标。
Emergent Behavior
一般而言,FCN做分割都需要添加一些额外的trick来增加平移可变性,比如position-sensitive特征图,虽然YOLACT唯一增加平移可变形的措施是对最终的mask进行截取输出,但是论文发现对于中大物体不截取输出的效果也不错,这代表YOLACT的原型mask学到了对不同的实例进行不同的响应,如图5所示,适当地对原型mask进行组合就能得出实例。需要注意的是全红的输入图片,其原型mask特征是各不一样的,这是由于每次卷积都会padding,使得边界存在可区分性,所以主干网络本身就存在一定的平移可变形。
Backbone Detector
原型mask和mask因子的预测都需要丰富的特征,为了权衡速度和特征丰富性,主干网络采用类似与RetinaNet的结构,加入FPN,去掉$P_2$加入$P_6$和$P_7$,在多层中进行head预测,并用$P_3$特征进行原型mask预测。
YOLACT head使用$P_2 \sim P_7$的特征,anchor的大小分别对应$[24, 48, 96, 192, 384]$,每个head共享一个$3\times 3$卷积,然后再分别通过独立的$3\times 3$卷积进行预测,比RetinaNet更轻量,如图4。使用smooth-$L1$训练bbox预测,使用带背景类的softmax交叉熵训练分类预测,OHEM正负比例为$1:3$。
Other Improvements
Fast NMS
正常的NMS会串行地按类别将bbox逐个校验,这种效率对于5fps的算法是足够快的,但对于30fps的算法将是很大的瓶颈。为此,论文提出Fast NMS来加速。
首先根据类别分数对各检测结果进行排序,然后计算各自的IoU对,得到$c\times n\times n$的IoU矩阵$X$,$c$为类别数,$n$为bbox数量。假设与bbox的IoU高于阈值$t$的其它bbox的分数高于当前框,则去掉该bbox,计算逻辑如下:
- 将矩阵$X$的下三角和对角线置为0,$X_{kij}=0, \forall k, j, i \ge j$
- 取每列的最大值,计算如公式2,得到最大IoU值矩阵$K$
- $K<t$的检测结果即为每个类别保留的结果。
通过实验,FastNMS大约能比原生的NMS快约11.8ms,mAP下降0.1
Semantic Segmentation Loss
为了提升准确率而不影响推理的速度,在训练阶段加入语义分割分支并计算语义分割损失辅助训练。在$P_3$输出上接一个c维的$1\times 1$卷积,由于一个像素可能属于多个类别,使用sigmoid激活输出而不是softmax激活,损失的权重为1,大约能提升0.4mAP。
Results
Mask Results
Mask Quality
Ablations
CONCLUSION
论文巧妙地基于one-stage目标检测算法提出实时实例分割算法YOLACT,整体的架构设计十分轻量,在速度和效果上面达到很好的trade-off。
写作不易,未经允许不得转载~
更多内容请关注 微信公众号【晓飞的算法工程笔记】
YOLACT : 首个实时one-stage实例分割模型,29.8mAP/33.5fps | ICCV 2019的更多相关文章
- 论文速递 | 实例分割算法BlendMask,实时又state-of-the-art
BlendMask通过更合理的blender模块融合top-level和low-level的语义信息来提取更准确的实例分割特征,该模型效果达到state-of-the-art,但结构十分精简,推理速度 ...
- 手把手教你使用LabVIEW实现Mask R-CNN图像实例分割
前言 前面给大家介绍了使用LabVIEW工具包实现图像分类,目标检测,今天我们来看一下如何使用LabVIEW实现Mask R-CNN图像实例分割. 一.什么是图像实例分割? 图像实例分割(Instan ...
- 实例分割:MaskXRCnn 与Visual Genome数据集
一.VG数据集 机器学习领域的突破突然让计算机获得了以未曾有的高精度识别图像中物体的能力--几乎达到了让人惊恐的程度.现在的问题是机器是否还能更上层楼,学会理解这些图片中所发生的事件. Visual ...
- CVPR2019 | 超越Mask R-CNN!华科开源图像实例分割新方法MS R-CNN
安妮 乾明 发自 凹非寺 本文转载自量子位(QbitAI) 实习生又立功了! 这一次,亮出好成绩的实习生来自地平线,是一名华中科技大学的硕士生. 他作为第一作者完成的研究Mask Scoring R- ...
- 经典论文系列| 实例分割中的新范式-SOLO
前言: 这是实例分割中的一篇经典论文,以往的实例分割模型都比较复杂,这篇论文提出了一个简单且直接的实例分割模型,如何设计这种简单直接的模型且要达到一定的精度往往会存在一些困难,论文中有很多思路或思想值 ...
- CVPR2021 | Transformer用于End-to-End视频实例分割
论文:End-to-End Video Instance Segmentation with Transformers 获取:在CV技术指南后台回复关键字"0005"获取该论文 ...
- 实时实例分割的Deep Snake:CVPR2020论文点评
实时实例分割的Deep Snake:CVPR2020论文点评 Deep Snake for Real-Time Instance Segmentation 论文链接:https://arxiv.org ...
- CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)
CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)1. 目标检测:FCOS(CVPR 2019)目标检测算法FCOS(FCOS: ...
- CVPR2020论文解析:实例分割算法
CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv ...
随机推荐
- alg-链表中有环
typedef struct ListNode { int val; ListNode *next; ListNode(int x) : val(x), next(nullptr) {} }ListN ...
- AJ学IOS(07)UI之UITextField代理事件_类似QQ登陆窗口的简单实现
AJ分享,必须精品 先看效果图: 学习代码 // // NYViewController.m // 05-UITextField事件_UIKit复习 // // Created by apple on ...
- GitHub 热点速览 Vol.16:化身蒙娜丽莎和乔布斯对话
摘要:妙趣横生,上周的 GitHub 热点的关键词.无论是让你化身为爱因斯坦开启会议脑暴模式 avatarify,还是和上周人人都是抠图师项目的同门项目 3D 照片修复:3d-photo-inpain ...
- cool-yogurt小组采访感想
“对于这个小组项目的选题,其实最初的那个版本我还是被“感动”到的,因为我自己以前确实有这样的类似体验和需求,以前非常喜欢一个球星,因此想知道关于他所有的事情,想知道他每一场比赛的数据,新闻有哪些报道, ...
- CSS 中你应该了解的 BFC
我们常说的文档流其实分为定位流.浮动流和普通流三种.而普通流其实就是指BFC中的FC.FC是formatting context的首字母缩写,直译过来是格式化上下文,它是页面中的一块渲染区域,有一套渲 ...
- Laravel项目Linux服务器部署
laravel项目本地开发,一切正常.部署到服务器,首页都加载不出来,查了n多教程,各种方法姿势都试过了,还是不行. 功夫不负有心人,最后终于找到了问题所在,在此做个记录,铭记教训. 排查错误一定要: ...
- 一口气带你踩完五个 List 的大坑,真的是处处坑啊!
List 可谓是我们经常使用的集合类之一,几乎所有业务代码都离不开 List.既然天天在用,那就没准就会踩中这几个 List 常见坑. 今天我们就来总结这些常见的坑在哪里,捞自己一手,防止后续同学再继 ...
- 2020-3 网络对抗技术 20175120 exp5 信息搜集与漏洞扫描
目录 实践目标 实践内容 各种搜索技巧的应用 搜索特定类型的文件Google Hacking 搜索网站目录结构 DNS IP注册信息的查询 网络侦查 基本的扫描技术:主机发现.端口扫描.OS及服务版本 ...
- 如何利用python实现报表自动化?让你更高效的完成工作内容
如果能够实现报表自动化,那我们将节约不少的时间,更高效的完成工作内容.那么,如何利用python实现报表自动化呢?本文将介绍xlwt .xlrd.xlutils的常用功能,xlwt写Excel时公式的 ...
- [git] github 推送以及冲突的解决,以及一些命令
推送以及冲突的解决:(我的觉得先看完) (正常情况就是把修改的文件 git add 然后git commit 然后推送就行啦): 下面是一些命令 1.查看分支状态(查看所有:当前检出分支的前面会有星号 ...