paper 111：图像分类物体目标检测 from RCNN to YOLO

参考列表

Selective Search for Object Recognition
Selective Search for Object Recognition(菜菜鸟小Q的专栏)
Selective Search for Object Recognition(Surge)
Selective Search for Object Recognition(原始论文)
Efficient Graph-Based Image Segmentation(快速图像分割)
Homepage of Koen van de Sande

非极大值抑制（Non-maximum suppression）在物体检测领域的应用
 Efficient Non Maximum Suppression 笔记（不完整版）

如何评价rcnn、fast-rcnn和faster-rcnn这一系列方法？
RCNN的安装与简单使用

Ross B. Girshick(RCNN系列开创者)
rbg’s home page

RCNN
Rich feature hierarchies for accurate object detection and semantic segmentation
https://github.com/rbgirshick/rcnn

Fast RCNN
Fast R-CNN
https://github.com/rbgirshick/fast-rcnn

Faster RCNN
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
https://github.com/rbgirshick/py-faster-rcnn
https://github.com/ShaoqingRen/faster_rcnn

You Only Look Once
You Only Look Once: Unified, Real-Time Object Detection
YOLO Object Detection(视频)

RCNN

最早的物体识别，是通过窗口扫描的方式进行，并且需要对图片进行几个级别的缩放来重复进行。
这种方式非常暴力，计算量大。
RCNN主要解决的是去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个侯选框的层次组。
分割分组方法有很多，RCNN用到的是Selective Search。

以下就是RCNN的结构。

从原始图片，通过Selective Search提取出区域候选框，有2000个左右
把所有侯选框缩放成固定大小
然后通过CNN网络，提取特征
再添加两个全链接层，然后再用SVM分类，回归来微调选框位置与大小

Fast RCNN

RCNN有两千个左右的候选框，都要进行CNN操作。但候选框有大量重叠，造成重复计算。
Fast RCNN就是解决这个问题的。

利用CNN(卷积神经网络)，得到整个原始图片的特征层
在原始图片上通过Selective Search等方法，提取出域候选框
把候选框投影到最后的特征层，并进行Max-Pooling采样，得到固定大小的特征矩形
然后再通过两个全连接层，分别用softmax分类，regressor进行选框位置与大小微调

Faster RCNN

在上面的 RCNN 与 Fast RCNN中，相对于在GPU上计算的CNN，在CPU上运行的提取候选框效率低下，一张图片大概需要2秒。
Faster RCNN则直接利用CNN来计算候选框，方式如下:

原始图片经过CNN，得到最后的卷积特征
利用3×3的矩形进行扫描，得到256维的向量(相当于再添加了一个卷积层，卷积核为3×3，输出特征数为256)
3×3的特征层映射到最初图片，是一块比较大的固定区域，在此固定区域上进行长宽变形，比如分别3个缩放级别，则一共有9个不同的矩形区域，称做anchor box。9就是上图中的k值。
对上图中的k个anchor box进行是否是物体判断预测，和矩形框位置与大小微调
选出物体框后，再利用同Fast RCNN同样的方式，对物体类别进行判断
选框与分类使用同样的CNN网络

一张1000×600的图片，大概可以得到20k个anchor box(60×40×9)。
anchor box的设置应比较好的覆盖从大到小的区域，如下图:

注
这里有一点疑惑，3×3的卷积核对应的原始图是块固定区域(感受野)，并没有包含区域外的信息，如何做到预测更大区域的物体位置？
或者类似于人的感知，比如只看到部分人像，推测整个人像的大小？看到老虎的头，预测整个老虎的位置与大小？

You Only Look Once

Faster RCNN需要对20k个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。
YOLO(You Only Look Once)则把物体框的选择与识别进行了结合，一步输出，即变成”You Only Look Once”。
所以识别速度非常快，达到每秒45帧，而在快速版YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。
网络的整体结构如下图:

把原始图片缩放成448×448大小
运行单个卷积网络
得到物体的位置与类别

模型如下:

把缩放成统一大小的图片分割成S×S的单元格
每一个单元格负责输出B个矩形框，每一个框带四个位置信息(x, y, w, h)，与一个该框是物体的概率，用Pr(Object)或者C(Confidence)表示
每一个单元格再负责输出C个类别的概率，用Pr(Class∣Object)表示
最终输出层应有S×S×(B∗5+C)个单元

NMS

通过上面的RCNN, Fast RCNN, Faster RCNN 或 YOLO 方法，图片中的同一个物体，可能识别出来多个选框。
这时需要进行选优，去掉重复的框。
非极大值抑制(Non-maximum suppression，NMS)就是拿来干这个的。

如上图所示，一共有6个识别为人的框，每一个框有一个置信率。
现在需要消除多余的:

按置信率排序: 0.95, 0.9, 0.9, 0.8, 0.7, 0.7
取最大0.95的框为一个物体框
剩余5个框中，去掉与0.95框重叠率大于0.6(可以另行设置)，则保留0.9, 0.8, 0.7三个框
重复上面的步骤，直到没有框了，0.9为一个框
选出来的为: 0.95, 0.9

两个矩形的重叠率计算方式如下:

如图，矩形的左上角坐标为x1, y1, 右下角坐标为x2, y2，两个矩形的面积分别为A, B。

取两个矩形左上角坐标的最大值x1_max, y1_max
取两个矩形右下角坐标的最小值x2_min, y2_min
重叠区域的宽w为max(0, x2_min - x1_max)，高h为max(0, y2_min - y1_max)
重叠率为 w×hA+B−w×h

如下的两个矩形，重叠率为0: