About Saliency Object Detection
显著性对象检测综述
详见:http://mmcheng.net/zh/paperreading/
一、 程明明等人的论文:Salient Object Detection: A Survey(简单归纳了文章中的我认为比较重要的部分)
该论文旨在全面回顾突出显示目标检测的最新进展,并将其与其他密切相关领域(如通用场景分割,目标建议生成以及固定预测的显著性)相关联。主要内容涉及(1)根源,关键概念和任务;(2)核心技术和主要建模趋势,以及(3)显著性物体检测中的数据集和评估指标。讨论并提出了未来的研究方向等开放性问题。
1. 介绍
1.1 什么是显著性物体检测
一般认为,良好的显著性检测模型应至少满足以下三个标准:1)良好的检测:丢失实际显著区域的可能性以及将背景错误地标记为显著区域的概率应该是低的;2)高分辨率:显著图应该具有高分辨率或全分辨率以准确定位突出物体并保留原始图像信息;3)计算效率:作为其他复杂过程的前端,这些模型应该快速检测显著区域。
1.2 显著物体检测的发展历史
(1)Itti等人提出的最早、经典的显著模型。例如[24]“Modeling the influence of task on attention”一文掀起了跨认知心理学、神经科学和计算机视觉等多个学科的第一波热潮。
(2)第二波热潮由刘等人的[25],[55]和Achanta等人的[56]掀起,他们将显著性检测定义为二元分割问题,自此出现了大量的显著性检测模型。
(3)最近出现了第三波热潮,卷积神经网络(CNN)[69],特别是引入完全卷积神经网络[70]。与基于对比线索的大多数经典方法不同[1],基于CNN的方法消除了对手工特征的需求,减轻了对中心偏见知识的依赖,因此被许多科研人员所采用。基于CNN的模型通常包含数十万个可调参数和具有可变接受字段大小的神经元。神经元具有较大的接受范围提供全局信息,可以帮助更好地识别图像中最显著的区域。CNN所能实现前所未有的性能使其逐渐成为显著性物体检测的主流方向。
2. 现状调查
本节主要回顾三部分内容:
(1)显著性物体检测模型;(2)应用;(3)数据集。
2.1 经典模型
2.1.1 具有内在线索的基于块的模型
缺点:1)高对比度边缘通常突出其他而非突出物体;2)凸显物体的边界不能很好地保存。为了克服这些问题,一些方法提出基于区域来计算显著性。
主要优点:1)区域的数量远少于区块的数量,这意味着高效开发和快速算法的潜力;2)更多的信息功能可以从区域中提取,有更好的表现。
2.1.2 具有内在线索的基于区域的模型(图4)
基于区域的显著性模型的主要优势:1)采用互补先验,以提高整体性能,这是主要优势;2)与像素和色块相比,区域提供更复杂的线索(如颜色直方图),以更好地捕捉场景的显著对象;3)由于图像中的区域数量远小于像素数量,因此在生成全分辨率显著图时,区域级别的计算显著性可以显著降低计算成本。
元素: PI=像素,PA=补丁,PE=区域,前缀m和h分别表示多尺度和分层版本。
假设: CP=中心先验,G=全局对比度,L=局部对比度,ED=边缘密度,B=背景先验,F=先验焦点,O=先验物体,CV=先验凸度,CS=中心环绕对比度,CLP=先验颜色,SD空间分布,BC=边界连通之前,SPS=稀疏噪声。
聚合/优化: LN=线性,NL=非线性,AD=自适应,RI=分层,BA=贝叶斯,GMRF=高斯MRF,EM=能量最小化,LS=最小二乘解
2.1.3 具有外部线索的模型(图5)
线索 :GT=地面真值注释,SI=相似图像,TC=时间线索,SCO=显著性实现,DP=深度,LF=光场。
对于显著性假设 : P=通用属性,PRA=预注意线索,HD=高维特征空间中的判别性,SS=显著性相似性,CMP=显著性提示的互补,SP=采样概率,MCO=运动相干性,RP=重复性,RS=区域相似度,C=相应,DK=领域知识。
其他 : CRF=条件随机场,SVM=支持向量机,BDT=提升决策树,RF=随机森林
2.1.4 其他经典模型(图6)
局部化模型、分割模型、监督模式与无监督模式、聚合和优化模型
2.2 基于深度学习的模型
2.2.1 基于CNN(经典卷积网络)的模型
CNN大大降低了计算成本,多级特征允许CNN更好地定位检测到显著区域的边界,即使存在阴影或反射。然而CNN特征的空间信息因为使用了MLP(多层感知器)而无法保留。
2.2.2 基于FCN(完全卷积网络)的模型
该模型具有保存空间信息的能力,可实现点对点学习和端到端训练策略,与CNN相比大大降低了时间成本。但在具有透明物体的场景、前景和背景之间的相同对比度以及复杂的背景等情况下无法检测显著物体。
3 数据集和评估措施
3.1 显著对象检测数据集
早期的带有包围框的突出物体图像:MSRA-A和MSRA-B
使用像素方式的二进制掩码来注释显著对象:ASD和DUT-OMRON
具有复杂和杂乱背景中的多个对象的数据集:[22]、[23]、[26]
3.2 评估措施(5个)
用S表示归一化为[0,255]的预测显著图,G是显著对象的地面正式二进制掩模.
(1) 精确召回(PR):首先将显著图S转化为二进制掩码M,然后通过将M与地面真值G进行比较来计算Precission和Recall:
(2) F值:通常Precission和Recall都不能完全评估显著图的质量,为此提出F值作为Precission和Recall的非负权重的集权调和平均:
(3) ROC(Receiver Operating Characteristic)曲线:是以假正率(FP_rate)和假负率(TP_rate)为轴的曲线
(4)ROC曲线下面积(AUC):AUC越大性能越好
(5) 平均绝对误差(MAE):进行更全面的比较。
图12,比较流行的显著性对象检测数据集:
二、 传统显著性检测内容补充
常用的显著性检测方法:
1. 认知模型
几乎所有模型都直接或间接地受认知模型启发而来,其一大特点是与心理学和神经学相结合。Itti模型(使用三个特征通道:颜色、属性、方向)是这一类模型的代表,也是后来很多衍生模型的基础。
2. 信息论模型
本质是最大化来自所处视觉环境的信息,其中最有影响力的模型是AIM模型。
3. 图论模型
基于图论的显著性模型把运动数据看成时间序列,使用了隐马尔科夫模型、动态贝叶斯网和条件随机场等方法。图模型可以对复杂的注意机制建模,因此能取得较好的预测能力,缺点在于模型的高复杂度,尤其在涉及训练和可读性时。典型模型有:GBVS等
4. 频域模型
基于频谱分析的显著性模型,形式简洁,易于解释和实现,并且在注意焦点预测和显著区域检测方面取得了很大的成功,但其生物合理性不是非常清楚。经典模型有:频谱残差的显著性检测模型(纯数学计算方法)。
参考资料:
http://www.doc88.com/p-4993561181219.html
https://blog.csdn.net/u012507022/article/details/52863461
三、 基于深度学习的显著性检测内容补充
基于深度学习的显著性目标检测研究发展初期从物体检测神经网络到OverFeat,一直难以取得理想的效果。2014年R-CNN的诞生成为第一个真正可以工业级应用的方案,其在VOC2007测试集的mAP提升至66%。但R-CNN框架仍然存在很多问题:
1) 训练分为多个阶段,步骤较为繁琐:微调网络+训练SVM+训练边框回归器
2) 训练耗时,占用磁盘空间大:5000张图片产生几百G的特征文件
3) 速度慢:使用GPU,VGG-16模型处理一张图像需要47s
截止目前,基于深度学习的显著性目标检测研究可以分为基于区域建议的深度学习目标检测和基于回归的深度学习目标检测两个类别。
(1)基于区域建议的深度学习目标检测方法
基于区域建议的深度学习目标检测方法有:R-CNN、SPP-net、FastR-CNN、Faster R-CNN、R-FCN等。
1) R-CNN(Regions with CNN features)重复计算,时间、空间代价较高;
2) SPP-net(Spatial Pyramid Pooling)强化了CNN的使用,允许输入大小不一致的图片,进一步强调了CNN特征计算前移、区域处理后移的思想,极大节省计算量,但不是端到端的模型且CNN特征提取没有联动调参数;
3) FastR-CNN的出现解决了前两者重复计算的问题,实现了区域建议到目标检测一端的卷积共享,首次提出的RoI Pooling技术极大地发挥区域后移的优势,加快了训练速度,采用VGG-16作为CNN网络模型,联动调用参数提升了实验效果,但是依然没有实现端到端的模型,对SS区域建议依赖严重;
4) Faster R-CNN弃用选择性搜索,提出了RPN网络来计算候选框,使用端到端的网络进行目标检测,无论在速度上还是在精度上,都得到了极大的提高,但在速度上并不能满足实时的需求,对每个建议分类计算量仍较大,功能上没有进入实例分割阶段。
(2)基于回归的深度学习目标检测方法
1) YOLO(You Only Look Once)将目标检测任务转换成回归问题,大大简化了检测的过程、加快了检测的速度,但预测目标窗口时使用的是全局信息,冗余度高,且没有区域建议机制后检测精度不高;
2) SSD(Single ShotMultibox Detector)预测某个位置时使用的是该位置周围的特征,结合YOLO的回归思想以及FasterR-CNN中的候选区域机制,既保持了YOLO速度快的特性,也保证了精确定位;
3) G-CNN着力于减少初始化建议数量,使数以万计的建议变成极少的初始格网,提升了检测速度;
4) NMS(Non Maximum Suppression)则通过迭代的形式去除重复候选框,取置信率最大的框。
当前实际应用中,基于区域建议的深度学习目标检测使用更为广泛。
当前基于深度学习的显著性检测研究方法:
R-CNN系列显著性目标检测框架和YOLO显著性目标检测框架给了我们进行基于深度学习的目标检测两个基本框架。目前研究人员基于这些框架从其他方面入手提出了一系列提高目标检测性能的方法。如:难样本挖掘、多层特征融合、使用上下文信息、更深网络学习的特征等。
About Saliency Object Detection的更多相关文章
- Minimum Barrier Salient Object Detection at 80 FPS 论文阅读笔记
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
- tensorfolw配置过程中遇到的一些问题及其解决过程的记录(配置SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving)
今天看到一篇关于检测的论文<SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real- ...
- 论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)
Chenyi Chen--[ACCV2016]R-CNN for Small Object Detection 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 总结与收获点 参考文献 ...
- deep learning on object detection
回归工作一周,忙的头晕,看了两三篇文章,主要在写各种文档和走各种办事流程了-- 这次来写写object detection最近看的三篇文章吧.都不是最近的文章,但是是今年的文章,我也想借此让自己赶快熟 ...
- 论文阅读之 DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation
DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...
- 目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...
- object detection技术演进:RCNN、Fast RCNN、Faster RCNN
object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别.object detection要解决的问题就是物体在哪里,是什么这整个流程的问题.然而,这个问题 ...
- TensorFlow Object Detection API(Windows下测试)
"Speed/accuracy trade-offs for modern convolutional object detectors." Huang J, Rathod V, ...
- Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
随机推荐
- Python 零基础 快速入门 趣味教程 (咪博士 海龟绘图 turtle) 0. 准备工作
一.关于 Python Python 是全球使用人数增长最快的编程语言!它易于入门.功能强大,从 Web 后端 到 数据分析.人工智能,到处都能看到 Python 的身影. Python 有两个主要的 ...
- maven项目无法读取src/main/java目录下的配置文件解决方法
我们在用Mybatis去操作底层数据库的时候,需要用到xml配置文件,一般我们是把配置文件和dao放置在同一层目录.但是在用idea操作maven项目的时候,我们可能会遇到无法读取到dao对应的map ...
- 一本通1644【例 4】佳佳的 Fibonacci
1644:[例 4]佳佳的 Fibonacci 时间限制: 1000 ms 内存限制: 524288 KB sol:搞了大概一个多小时什么结果都没,被迫去看题解,感觉自己菜到家了qaq ...
- 洛谷P3950 部落冲突(LCT)
洛谷题目传送门 最无脑LCT题解,Dalao们的各种算法都比这个好多啦... 唯一的好处就是只管码代码就好了 开战cut,停战link,询问findroot判连通性 太无脑,应该不用打注释了.常数大就 ...
- ctags相关
ctags相关 首先肯定是下载安装了.这点不用多讲,根据自己的操作系统或者平台,使用相应的包管理工具或者源码编译安装都可以. 下载完之后,在想要使用ctags帮助查找的文件夹(一般是项目的根目录)下输 ...
- emWin 界面切换注意事项
@2018-07-10 emWin 在做界面切换时,须将切换前的界面所有信息 “删除”,否则将造成切换后的界面死机 此 “删除” 对象包括: > 界面上绘制的曲线(随时间一直变化).绘制的2D ...
- 【转】如何在您的PCB大作上添加二维码?
开篇先给大家来段新闻截选: “8月20日,新加坡总理李显龙在国庆群众大会上演讲时,称中国移动支付(电子支付)领先全球,新加坡的移动支付还很落后,上海路边摊都有移动支付,新加坡人去上海就像乡巴佬. 这番 ...
- 解析word公式的解决方案(office插入和wps插入不同的解决方案)
这几天在公司的项目有个需求就是数学公式的导入,而对于word来说,插入的公式xml格式,需要转换为mathML,借用插件MathJax来进行展示,而对于wps插入的公式来说,获取到的是一个wmf图片, ...
- Linux上shell脚本date的用法
在shell脚本里date命令的用法: %% 一个文字的 % %a 当前locale 的星期名缩写(例如: 日,代表星期日) %A 当前locale 的星期名全称 (如:星期日) %b 当前local ...
- Linux掉电处理
在嵌入式设备中,掉电处理一直是一项比较麻烦的工作,在具有Linux系统的设备中,系统的种种数据的处理更是增加掉电处理的难度.现在做以下几点总结,再遇到类似问题可以做个参考. 1,系统启动的处理 在系统 ...