1 介绍(INTRODUCTION)

本文主要对最近的 proposal 检测方法做一个总结和评价。主要是下面这些方法。 

2 Detection Proposal 方法(DETECTION PROPOSAL METHODS)

作者将 Detection Proposal 分为两类,grouping method (将图片分为碎片,最后聚合)和 window scoring method (对分成的大量窗口打分)。

2.1 分组 proposal 方法(Grouping proposal methods)

Grouping proposal methods尝试产生对应于目标的多个区域(可能重叠)。根据它们产生 proposal 的方式可以划分为三类:superpixels (SP),graph cut (GC) 和 edge contours (EC)。

• SelectiveSearch (SP) [15], [29]:通过贪婪地合并超像素来产生 proposals。这个方法没有学习的参数,合并超像素的特征和相似函数是手动设定的。它被 R-CNN 和 Fast R-CNN detectors [8], [16] 等最新的目标检测方法选用。

• RandomizedPrim’s (SP) [26]:使用类似与SelectiveSearch 的特征,但是使用了一个随机的超像素合并过程来学习所有的可能(probabilities)。此外,速度有了极大地提升。

• Rantalankila (SP) [27]:使用类似与SelectiveSearch 的策略,但使用了不同的特征。在后续阶段,产生的区域用作求解图切割的种子点(seeds )(类似于CPMC)。

• Chang (SP) [38]:结合 saliency 和 Objectness 在一个图模型中来合并超像素实现前景/背景(figure/background)分割。

• CPMC (GC) [13],[19]:避免初始的分割,使用几个不同的种子点(seeds )和位元(unaries )对像素直接进行图切割。生成的区域使用一个大的特征池来排序。

• Endres (GC) [14], [21]:从遮挡的边界建立一个分层(hierarchical )的分割,并且使用不同的种子点和参数来切割图产生区域。产生的 使用大量的线索和鼓励多样性的角度排序。

• Rigor (GC) [28]:是 CPMC 的一个改进,使用多个图切割和快速的边缘检测子来加快计算速度。

• Geodesic (EC) [22]:首先使用 [36] 对图片过分割。分类器用来为一个测地距离变换标定种子点。每个距离转换的水平集(Level sets)定义了(figure/ground)的分割。

• MCG (EC) [23]:基于 [36], 提出一个快速的用于计算多尺度(multi-scale)层次分割进程。使用边缘强度来合并区域,生成的目标假设(object hypotheses )使用类似于尺度,位置,形状和边缘强度的线索来排序。

2.2 窗口评分的 proposal 方法(Window scoring proposal methods)

Window scoring proposal methods 通过对每个候选的窗口根据它们包含目标的概率来打分来产生 proposals 。与 grouping approaches 比,这些方法值返回边界框(bounding boxes),因此速度更快。但是,除非它们的窗口采样密度很高,否则这些方法位置精度很低。

• Objectness [12], [24]:最为最早和最广泛的一种 proposal 方法。它通过选择一副图片中的显著性位置作为 proposal,接着通过颜色,边缘,位置,尺寸,和 superpixel straddling 等多个线索对这些 proposal 打分。

• Rahtu [25]:以 一个包含采样区域(单个,两个和三个超像素)和 多个随机采样的框的大的 proposal 池作为开始。采用类似于 Objectness 的打分策略,但是有些提高 ([40]添加了额外的 low-level features 和 强调了恰当调优的非最大抑制(properly tuned nonmaximum suppression)的重要性)。

• Bing† [18]:通过边缘训练一个简单的线性分类器,并且以一个滑动窗口的方式运行。使用充足的近似,获得一个非常快的类未知的检测子 (CUP中每帧 1ms)。CrackingBing [41]表明一个有很小影响和类似性能的分类器可以通过不用查看图片的方式来获得 (分类性能不是来自于学习而是几何学)。

• EdgeBoxes† EC [20] :基于目标边界估计(通过 structured decision forests [36], [42]获得)形成一个粗糙的滑动窗口模式作为开始,使用一个后续的 refinement 步骤来提高位置精度。不学习参数。作者提出通过调节滑动窗口模式的密度和和非最大抑制的阈值来调优方法用于不同的重叠阈值。

• Feng [43] :通过搜索显著性图片内容来找到 proposal ,提出了一种新的显著性度量,包括一个潜在的目标能被图片的剩余部分组成。它采用滑动窗口模式,并通过显著性线索对每个位置打分。

• Zhang [44] :提出在简单的梯度特征上训练一个级联的排序 SVMs。第一阶段对不同的尺度和长宽比(aspect ratio)训练不同的分类器;第二阶段对所有获得的proposals 排序。所有的 SVMs 使用结构性的输出,对含有更多目标重叠的窗口打分更高。因为级联在同样的类别上训练和测试,因此不太清楚它的泛化能力。

• RandomizedSeeds [45] :使用多个随机的 SEED 超像素映射图 对每个候选窗口打分。打分策略类似于 Objectness 的 superpixel straddling (没有额外添加的信息)。作者展示使用多个超像素映射(superpixel maps )可以明显地提高召回率。

2.3 其他 proposal 方法(Alternative proposal methods)

• ShapeSharing [47] :是一个无参的数据驱动的方法,通过匹配边转换目标形状从范例(exemplars)到测试图片。生成的区域使用图切割合并和提纯。

• Multibox [9], [48] :训练一个神经网络来直接回归一定数量的 proposals (不需要在图片上滑动网络)。每个 proposals 都有它自己的位置误差 。该方法在 ImageNet 表现出最好的结果。

2.4 Proposals VS 级联(Proposals versus cascades)

Proposals:使用图像特征产生候选窗口; 
级联(cascades):使用一个快速但是不太精确的分类器抛弃大量不太好的 proposals 。 
两者之间的主要差异是级联(cascades)要求在训练过程中一般化对象类别。 
proposal 一般化对象类别的原因:1)一个主要的假设是对于足够大量的类别训练一个分类器对于一般化未知的类别是充足的(训练猫和狗后,可以一般化到其他动物)。2)分类器的判别能力经常是受限的,因此阻止分类器过拟合和学习所有目标共享的属性。

2.5 控制proposals的数量(Controlling the number of proposals)

Ranging from just a few ( ∼ 102) to a large number ( ∼ 105)

3 Proposals 可重复性(PROPOSAL REPEATABILITY)

在检测 proposals(detection proposals)而不是所有滑动窗口上训练一个检测器修改了所有正负窗口的外观分布(appearance distribution)。本部分我们主要分析负窗口的分布( the distribution of negative windows):如果 proposal 不能一致地对包含部分或不含目标的相似图片产生窗口,分类器就不能对测试集中的负窗口进行评分(if the proposal method does not consistently propose windows on similar image content without objects or with partial objectsthe classifier may have difficulty generating scores on negative windows on the test set)。一个极端的例子是训练数据集中只包含目标,而测试集中包含目标和负窗口,这样训练获得的分类器将不能区分目标和背景,因此在测试阶段会对负窗口给出无用的评分。因此,我们希望 proposals在背景上的一致性的外观分布 
与检测器相关。 
我们将 proposals 的这种对类似图片内容标定的属性为 proposals 方法的 repeatability 。直观上来说,proposals 应该对包含相同内容的有轻微差别的图片 repeatable 。

3.1 可重复性评估协议(Evaluation protocol for repeatability)

For matching we use the intersection over union (IoU) criterion。 
Given the matching, we plot the recall for every IoU threshold and define the repeatability to be the area under this “recall versus IoU threshold” curve between IoU 0 and 1

3.2 可重复性实验和结果(Repeatability experiments and results)

 
 

Small changes to an image cause noticeable differences in the set of detection proposals for all methods except Bing. The higher repeatability of Bing is explained by its sliding window pattern, which has been designed to cover almost all possible annotations with IoU = 0.5 (see also Cracking Bing [41]).

4 Proposals召回(PROPOSAL RECALL)

当使用 proposals 的检测方法时测试图片中的兴趣目标要求有一个好的覆盖,因为缺失的目标在后续分类阶段不能被恢复。因此通常使用召回率来评价 proposals 的质量。

4.1 召回评价协议(Evaluation protocol for recall)

4.2 召回结果(Recall results)

 
 
 

参考及延伸阅读材料 
[9] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, highquality object detection,” arXiv:1412.1441, 2014. 
[12] B. Alexe, T. Deselaers, and V. Ferrari, “What is an object?” in CVPR, 2010. 
[13] J. Carreira and C. Sminchisescu, “Constrained parametric min-cuts for automatic object segmentation,” in CVPR, 2010. 
[14] I. Endres and D. Hoiem, “Category independent object proposals,” in ECCV, 2010. 
[15] K. van de Sande, J. Uijlings, T. Gevers, and A. Smeulders, “Segmentation as selective search for object recognition,” in ICCV, 2011. 
[18] M.-M. Cheng, Z. Zhang, W.-Y. Lin, and P. H. S. Torr, “BING: Binarized normed gradients for objectness estimation at 300fps,” in CVPR, 2014. 
[19] J. Carreira and C. Sminchisescu, “Cpmc: Automatic object segmentation using constrained parametric min-cuts.” PAMI, 2012. 
[20] C. Zitnick and P. Dollár, “Edge boxes: Locating object proposals from edges,” in ECCV, 2014. 
[21] I. Endres and D. Hoiem, “Category-independent object proposals with diverse ranking,” in PAMI, 2014. 
[22] P. Krähenbühl and V. Koltun, “Geodesic object proposals,” in ECCV, 2014. 
[23] P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marqués, and J. Malik, “Multiscale combinatorial grouping,” in CVPR, 2014. 
[24] B. Alexe, T. Deselares, and V. Ferrari, “Measuring the objectness of image windows,” PAMI, 2012. 
[25] E. Rahtu, J. Kannala, and M. Blaschko, “Learning a category independent object detection cascade,” in ICCV, 2011. 
[26] S. Manén, M. Guillaumin, and L. Van Gool, “Prime object proposals with randomized prim’s algorithm,” in ICCV, 2013. 
[27] P. Rantalankila, J. Kannala, and E. Rahtu, “Generating object segmentation proposals using global and local search,” in CVPR, 2014. 
[28] A. Humayun, F. Li, and J. M. Rehg, “Rigor: Recycling inference in graph cuts for generating object regions,” in CVPR, 2014. 
[29] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders, “Selective search for object recognition,” IJCV, 2013. 
[36] P. Dollár and C. L. Zitnick, “Fast edge detection using structured forests,” PAMI, 2015. 
[38] K.-Y. Chang, T.-L. Liu, H.-T. Chen, and S.-H. Lai, “Fusing generic objectness and visual saliency for salient object detection,” in ICCV, 2011. 
[39] J. Lim, C. L. Zitnick, and P. Dollár, “Sketch tokens: A learned midlevel representation for contour and object detection,” in CVPR, 2013. 
[40] M. Blaschko, J. Kannala, and E. Rahtu, “Non Maximal Suppression in Cascaded Ranking Models,” in Scandanavian Conference on Image Analysis, 2013. 
[41] Q. Zhao, Z. Liu, and B. Yin, “Cracking BING and beyond,” in BMVC, 2014. 
[42] P. Dollár and C. L. Zitnick, “Structured forests for fast edge detection,” in ICCV, 2013. 
[43] J. Feng, Y. Wei, L. Tao, C. Zhang, and J. Sun, “Salient object detection by composition,” in ICCV, 2011. 
[44] Z. Zhang, J. Warrell, and P. H. S. Torr, “Proposal generation for object detection using cascaded ranking svms,” in CVPR, 2011. 
[45] M. Van Den Bergh, G. Roig, X. Boix, S. Manen, and L. Van Gool,“Online video seeds for temporal window objectness,” in ICCV, 2013. 
[46] M. Van den Bergh, X. Boix, G. Roig, and L. Van Gool, “Seeds: Superpixels extracted via energy-driven sampling,” IJCV, 2014. 
[47] J. Kim and K. Grauman, “Shape Sharing for Object Segmentation,” in ECCV, 2012. 
[48] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in CVPR, 2014

What makes for effective detection proposals? 论文解析的更多相关文章

  1. 【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析(转)

    目录 0. 前言 1. 博客一 2.. 博客二 0. 前言   这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里 ...

  2. [Network Architecture]Mask R-CNN论文解析(转)

    前言 最近有一个idea需要去验证,比较忙,看完Mask R-CNN论文了,最近会去研究Mask R-CNN的代码,论文解析转载网上的两篇博客 技术挖掘者 remanented 文章1 论文题目:Ma ...

  3. CVPR2020论文解析:实例分割算法

    CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv ...

  4. 人脸真伪验证与识别:ICCV2019论文解析

    人脸真伪验证与识别:ICCV2019论文解析 Face Forensics++: Learning to Detect Manipulated Facial Images 论文链接: http://o ...

  5. 人脸标记检测:ICCV2019论文解析

    人脸标记检测:ICCV2019论文解析 Learning Robust Facial Landmark Detection via Hierarchical Structured Ensemble 论 ...

  6. SLAM架构的两篇顶会论文解析

    SLAM架构的两篇顶会论文解析 一. 基于superpoint的词袋和图验证的鲁棒闭环检测 标题:Robust Loop Closure Detection Based on Bag of Super ...

  7. How good are detection proposals, really?

    How good are detection proposals, really? J. Hosang, R. Benenson, B. Schiele Oral at BMVC 2014 http: ...

  8. LTMU论文解析

    LTMU 第零部分:前景提要 一般来说,单目标跟踪任务可以从以下三个角度解读: A matching/correspondence problem.把其视为前后两帧物体匹配的任务(而不考虑在跟踪过程中 ...

  9. 人体姿态和形状估计的视频推理:CVPR2020论文解析

    人体姿态和形状估计的视频推理:CVPR2020论文解析 VIBE: Video Inference for Human Body Pose and Shape Estimation 论文链接:http ...

随机推荐

  1. 无法将参数 1 从“WCHAR [256]”转换为“const char *”

    https://blog.csdn.net/zhangxuechao_/article/details/81064037 字符集 修改为未设置 然后再修改回来unicode  居然好了

  2. Vue组件中引入jQuery

    一.安装jQuery依赖 在使用jQuery之前,我们首先要通过以下命令来安装jQuery依赖: npm install jquery --save # 如果你更换了淘宝镜像,可以使用cnpm来安装, ...

  3. SVN简明教程

    SVN简明教程 Posted on 2010-09-07 17:34 幻海蓝梦 阅读(7196) 评论(0)  编辑  收藏 所属分类: 版本管理  http://www.emsym.com/blog ...

  4. ListView动态改变每一项的高度。

    ListView中每一项的高度默认是相同的,除非超过其预定高度值,否则需要动点手脚. VariableSizedListView 继承 ListView然后重写protected override v ...

  5. python入门之字典

    1.字典的基本特征: key-value结构 key唯一,必须为不可变数据类型 value可以不唯一 无序 查找速度快 2.创建一个字典: info={“gaohui”:"IT", ...

  6. 2G内存编译android4.0

    http://blog.csdn.net/leerobin83/article/details/7873229 1.Error occurred during initialization of VM ...

  7. bundler简介(ruby gem)

    簡介 Bundler   RubyGem 是包裝.散佈Ruby程式庫的標準方式,相關文件可以參考 RubyGems Guides 的說明,或是 簡介 plugins 中的第二個例子.在使用rails ...

  8. vue实现左侧滑动删除

    不是很完美,无法做到第一个左滑其他的隐藏删除: 代码来源于 https://segmentfault.com/a/1190000011062124 自己做了写改动,添加父组件点击触发子组件 引入组件 ...

  9. 2019.01.19 bzoj4592: [Shoi2015]脑洞治疗仪(ODT)

    传送门 ODT水题. 支持区间01赋值,区间填补(把区间[l,r][l,r][l,r]从左往右数kkk个1都变成0),区间查询最长连续1个数. 思路: 区间填补操作感觉不是很好弄,写线段树的神仙可以套 ...

  10. 2019.01.08 bzoj3809: Gty的二逼妹子序列(莫队+权值分块)

    传送门 题意:多组询问,问区间[l,r]中权值在[a,b]间的数的种类数. 看了一眼大家应该都知道要莫队了吧. 然后很容易想到用树状数组优化修改和查询做到O(mnlogamax)O(m\sqrt nl ...