Faster R-CNN改进篇（一）： ION ● HyperNet ● MS CNN

一. 源起于Faster

深度学习于目标检测的里程碑成果，来自于这篇论文：

Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015.

也可以参考：【论文翻译】

虽然该文章前面已经讲过，但只给出了很小的篇幅，并没有作为独立的一篇展开，这里我们详细展开并讨论其网络结构、应用领域及后续改进。

前面文章参考：【目标检测-RCNN系列】

二. 网络结构

Faster RCNN的网络结构图如下：

用的还是之前的图，其实对于这张图只需要记住一点：RPN网络，这是本文的核心贡献，RPN通过深度网络实现了 Proposal 功能，相较于之前的 SS（Selective Search）方法和 EdgeBoxes 方法有很大提升。

RPN 我们来看原论文的图：

这张图虽然经典，但描述的并不太清楚，有些人可能看不明白，有几个关键点需要说明：

1）RPN 连接在 Conv5 之后

参考网络结构图，先理解 Conv5，Conv5是前面经过4次conv和pooling。

对于原图800*600的输入，Feature尺寸 变为[800/16,600/16] = [50,37.5]，

Conv5的输出维度为 256，Feature维度 为 256。

2）Anchor 生成与排序

特征图采用滑窗方式遍历，每个特征像素点对应K个 Anchor（即不同的Scale和Size），上述input对应的Anchor Count为 50*38*k(9) = 17100。

对应如此多的 Anchor，需要通过置信度剔除大多数Candidate，通常保留100-300个就足够了。

训练过程中通过IOU进行正负样本的选择，测试过程中置信度较低的被丢弃。

3）RPN 输出

如上图所示，输出分为两部分，2K Scores + 4K Reg，基于 256d 的 intermediate 层，通过两个网络，同时进行分类 + 回归，Scores提供了作为前景、背景目标的概率（2位），Reg提供了4个坐标值，标识Box位置。

参考如下Caffe结构图，先通过3*3 的卷积核进行处理，然后1*1的卷积核进行降维，在 k=9 的情况下，每个像素对应生成 2*k = 18个 Scores 参数和 4*k = 36个 Reg参数。

整体上 1*1 卷积生成的特征是分类W*H*18 & 回归W*H*36，其中 ReShape 是方便 Softmax 用的，可以忽略掉。

Proposal层 根据 Softmax 输出（丢弃背景），结合对应 Anchor和Stride进行映射，将Box映射到原图，作为下一步 ROI Pooling 的输入。

4）RPN 结合方式

RPN 网络相对独立于卷积层，原文中通过 ImageNet 数据集进行预训练。

微调时，分别固定 RPN参数和卷积网络参数，对另外的网络部分进行微调，也就是说，虽然 Faster实现了端到端的处理，但并未实现全局的 Fine Turning。

5）ROI Pooling

提取到的 Proposal 作为输入送到 ROI Pooling 层，与 Conv5 特征图结合，即在特征图上标识出了 Proposal 的位置。

> Smooth L1 Loss

针对边框回归，可以描述为一种映射，即通过变换函数 f，将原 Box A=(Ax, Ay, Aw, Ah) 变换为：

f(Ax, Ay, Aw, Ah) = (G'x, G'y, G'w, G'h) ，如下图所示：

t 表示与Ground Truth之间的差异系数（ln 是为了减少w，h的误差比），公式描述为（其中红色框内 σ 为一般形式，=1 时与 Fast 一致）：

ωin 和 ωout 作为开关控制当前项是否起作用。

三. 应用领域

对于目标检测的研究分为两个方向，精度和效率，一方面以 Faster R-CNN为代表的RPN的方法在精度上不断刷新 mAP；另一方面，以SSD 和 YOLO v2 为代表的回归方法则是强调效率（或者说性价比），这两个方向在领域内都有着很大的应用场景。

Faster RCNN的代表特征是Region Proposal，通过 RPN 将检测分成两步，提供 Proposal 和 Location＋Class，Proposal 越准确，后面的复合Loss里 Class所占比例就越大，分类自然就更加准确。而回归方法没有 Proposal过程，通过 Location＋Class直接回归＋分类，反向传播误差在Location上面大范围回归，降低了分类占比，因此分类准确度不好保证，特别是对于小目标，检测精度比较差。

检测精度是算法最核心的价值，即使是以效率为主的回归方法也会强调准确性，Faster 方法目前所实现的效率通常是每秒3-5帧（GPU版本），这在非实时系统里面实际上也是足够使用的，比如在农业上对于病虫害的检测，在医疗领域对于图像的后处理等等。

实时系统的应用是更为广阔的市场，这也是为什么说目前有相当多的人持续投入研究，比如 ADAS、机器人、无人机等，这些领域对于实时性、准确性、成本控制的要求带来了不断刷新纪录的研究成果。

四. 后续改进

关于 Faster RCNN 的改进比较多，我们将随时关注，保持更新。

可以参考数据集排名：【KITTI】【PASCAL VOC 2012】【COCO】

Faster R-CNN 的三个组成部分思路包括：

1）基础特征提取网络

ResNet，IncRes V2，ResNeXt 都是显著超越 VGG 的特征网络，当然网络的改进带来的是计算量的增加。

2）RPN

通过更准确地 RPN 方法，减少 Proposal 个数，提高准确度。

3）改进分类回归层

分类回归层的改进，包括通过多层来提取特征和判别。

@改进1：ION

论文：Inside outside net: Detecting objects in context with skip pooling and recurrent neural networks 【点击下载】

提出了两个方面的贡献：

1）Inside Net

所谓 Inside 是指在 ROI 区域之内，通过连接不同 Scale 下的 Feature Map，实现多尺度特征融合。

这里采用的是 Skip-Pooling，从 conv3-4-5-context 分别提取特征，后面会讲到。

多尺度特征能够提升对小目标的检测精度。

2）Outside Net

所谓 Outside 是指 ROI 区域之外，也就是目标周围的上下文（Contextual）信息。

作者通过添加了两个 RNN 层（修改后的 IRNN）实现上下文特征提取。

上下文信息对于目标遮挡有比较好的适应。

来看结构图：

> 多尺度特征

本文不考虑 Region Proposal 的环节，只在 ROI 之后，从上图可以看到，分别从 3、4、5 层提取特征，然后再和 context得到的特征做一个连接（concat），这样做的依据是什么呢？作者给出了实验验证结果：

可以看到 Conv2 是用不到的，和我们理解的一致（尺度太大），而特征提取是通过 L2 Norm + Scale + 1x1 Conv 得到，因为不同 Feature 之间的尺度不一致，Norm 是必须的，通过归一化和 Scale 进行特征提取后，送到 FC全连接层进行分类和回归，如上图所示。

> Contextual 上下文

和前面的多尺度的思路一样，上下文也不是一个新的概念，生成上下文信息有很多种方法，来看下对比示意：

文中用的是多维的概念，上图（d）（4-dir），如下图所示：

与传统的双向 RNN 不同，文中通过上下左右四个方向，并且通过两次 IRNN 来增加非线性，更加有效的结合全局信息，看实验效果：

@改进2：多尺度之 HyperNet

论文：Hypernet: Towards accurate region proposal generation and joint object detection 【点击下载】

基于 Region Proposal 的方法，通过多尺度的特征提取来提高对小目标的检测能力，来看网络框图：

分为三个主要特征来介绍（对应上面网络拓扑图的 三个红色框）：

1）Hyper Feature Extraction （特征提取）

多尺度特征提取是本文的核心点，作者的方法稍微有所不同，他是以中间的 Feature 尺度为参考，前面的层通过 Max Pooling 到对应大小，后面的层则是通过反卷积（Deconv）进行放大。

多尺度 Feature ConCat 的时候，作者使用了 LRN进行归一化（类似于 ION 的 L2 Norm）。

抛开具体方法不表，对小目标检测来讲，这种多尺度的特征提取已经算是标配，下图证明采用 1、3、5 的效果要更优（层间隔大，关联性小）。

2）Region Proposal Generation（建议框生成）

作者设计了一个轻量级的 ConvNet，与 RPN 的区别不大（为写论文强创新^_^）。

一个 ROI Pooling层，一个 Conv 层，还有一个 FC 层。每个 Position 通过 ROI Pooling 得到一个 13*13 的 bin，通过 Conv（3*3*4）层得到一个 13*13*4 的 Cube，再通过 FC 层得到一个 256d 的向量。

后面的 Score+ BBox_Reg 与 Faster并无区别，用于目标得分和 Location OffSet。

考虑到建议框的 Overlap，作者用了 Greedy NMS 去重，文中将 IOU参考设为 0.7，每个 Image 保留 1k 个 Region，并选择其中 Top-200 做 Detetcion。

通过对比，要优于基于 Edge Box 重排序的 Deep Box，从多尺度上考虑比 Deep Proposal 效果更好。

3）Object Detection（目标检测）

与 Fast RCNN基本一致，在原来的检测网络基础上做了两点改进：

a）在 FC 层之前添加了一个卷积层（3*3*63），对特征有效降维；

b）将 DropOut 从 0.5 降到 0.25；

另外，与 Proposal一样采用了 NMS 进行 Box抑制，但由于之前已经做了，这一步的意义不大。

> 训练过程

采用了联合训练（joint training）的方法，首先对 Proposal 和 Detection 分别训练，固定一个训练另一个，然后 joint 训练，即共享前面的卷积层训练一遍，具体可以参考原文给出的训练流程（这里不再赘述）。

> 效率改进

算法整体上和 Faster 运行效率相当，因为加入了多尺度的过程，理论上要比 Faster要慢，作者提出了提高效率的改进方法，将 Conv 层放在 ROI Pooling 层之前，如下图所示：

> 实验效果对比

通过对比可以看到 mAP 比 Faster 提高了 1%，主要是多尺度的功劳，其他可以忽略，这一点需要正视。

@改进3：多尺度之 MSCNN

论文：A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection 【点击下载】

Caffe代码：【Github】

论文首先给出了不同的多尺度方法（参考下图讲解）：

a）原图缩放，多个Scale的原图对应不同Scale的Feature；

该方法计算多次Scale，每个Scale提取一次Feature，计算量巨大。

b）一幅输入图像对应多个分类器；

不需要重复提取特征图，但对分类器要求很高，一般很难得到理想的结果。

c）原图缩放，少量Scale原图->少量特征图->多个Model模板；

相当于对 a）和 b）的 Trade-Off。

d）原图缩放，少量Scale原图->少量特征图->特征图插值->1个Model；

e）RCNN方法，Proposal直接给到CNN；

和 a）全图计算不同，只针对Patch计算。

f）RPN方法，特征图是通过CNN卷积层得到；

和 b）类似，不过采用的是同尺度的不同模板，容易导致尺度不一致问题。

g）上套路，提出我们自己的方法，多尺度特征图；

每个尺度特征图对应一个输出模板，每个尺度cover一个目标尺寸范围。

> 拓扑图

套路先抛到一边，原理很简单，结合拓扑图（基于VGG的网络）来看：

上面是提供多尺度 Proposal 的子图，黑色 Cube 是网络输出，其中 h*w 表示 filter尺寸，c是分类类别，b是Box坐标。

通过在不同的 Conv Layer 进行输出（conv4-3，conv5-3，conv6），对应不同尺度的 det 检测器，得到4个Branch Output。

PS：作者提到，conv4-3 Branch比价靠近Bottom，梯度影响会比后面的 Branch要大，因此多加入了一个缓冲层。

> Loss函数

再来看 Loss 函数，对于训练样本 Si ＝（Xi,Yi），其中 Xi 表示输入图像，Yi＝｛yi，bi｝表示类别标签＋Box位置，M代表不同的Branch，训练样本S按照尺度划分到不同的Brach，每个Branch权值不同，用a来表示。

来看下面的公式：

后面两个公式为最上面公式子项的展开，公式2 中l(X,Y|W) 对应分类Loss 和 Loc Loss的加权求和，公式3 Loc Loss 同样采用 Smooth L1 Loss，与Faster方法大致上没什么区别，此处不再展开。

> Sampling

样本的选择对于训练结果非常重要，本文采用多尺度训练，样本先划分到对应 Layer m，在对应Layer上根据 IOU 划分为正负样本，S = {S+，S-}，公式：

对应每个Ground Truth （S gt），计算与每个 Anchor Box 的 IOU，结果 o*>0.5 表示正样本，o*<0.2 归类为负样本，其余丢弃。为了保证正负样本的比例，作者提出三种方法对负样本进行筛选：1）随机采样； 2）按Score排序，保留 Top n个强负样本（Hard Negative）； 3）一般随机采样，另一半Score排序；

同样由于每个 Scale单独训练，可能会出现某个特定的 Scale 正样本不足，无法满足比例条件，即 S-/S+ >> λ，作者采用如下方法处理：

通过一个加权的 Cross Entropy 来进行比例调节，思路比较好理解。

> Training

作者 Argue 了多尺度训练的必要性，强调针对 KITTI 这种 Scale 差异比较大的数据集，有比较大的意义。引入了一个 Two-Stage 的训练过程，通过不同的参数来达到好的训练效果（具体参数和迭代次数可以参考原文章）。

> 检测网络

与 RPN 网络对应的是检测网络，检测网络与上面的 RPN网络共享一个主干网络（trunk CNN layers），如下图所示：

这上面有两点要说明：

1）通过在 conv4-3 后面添加一个反卷积（Deconvolution），增加特征图的分辨率，提高了对小目标的检测精度；

2）加入 Object 的上下文（context）描述，对应上图的蓝色 Cube，是对应Object（绿色cube）尺寸的1.5倍大小；

特征图通过全连接层后，输出为一个分类（class probability）加一个位置（bounding box）。

> 结果评估

不同尺度上对目标 Recall 的影响：

Input size 对 Proposal Recall 的影响：

比较 state-of-the-art 的 Detection 结果（看来是不错）：

Faster R-CNN改进篇（一）： ION ● HyperNet ● MS CNN的更多相关文章

[原创].NET 分布式架构开发实战五 Framework改进篇
原文:[原创].NET 分布式架构开发实战五 Framework改进篇 .NET 分布式架构开发实战五 Framework改进篇前言:本来打算这篇文章来写DAL的重构的,现在计划有点改变.之前的文章 ...
Faster R-CNN改进篇（二）： RFCN ● RON
@改进1:RFCN 论文:R-FCN: Object Detection via Region-based Fully Convolutional Networks [点击下载] MXNet代码 ...
目标跟踪之相关滤波：CF及后续改进篇
一. 何为相关滤波? Correlation Filter 最早应用于信号处理,用来描述两个信号之间的相关性,或者说相似性(有点像早期的概率密度),先来看定义: 对于两个数据 f 和 g,则两个信号的 ...
CNN实战篇-手把手教你利用开源数据进行图像识别（基于keras搭建）
我一直强调做深度学习,最好是结合实际的数据上手,参照理论,对知识的掌握才会更加全面.先了解原理,然后找一匹数据来验证,这样会不断加深对理论的理解. 欢迎留言与交流! 数据来源: cifar10 (其 ...
Pytorch_第十篇_卷积神经网络（CNN）概述
卷积神经网络(CNN)概述 Introduce 卷积神经网络(convolutional neural networks),简称CNN.卷积神经网络相比于人工神经网络而言更适合于图像识别.语音识别等任 ...
R实践第二篇：创建数据集
准备数据是数据分析的第一步,由数据构成集合,我们称作数据集,数据集的结构是行列式的,行表示观测,列表示变量.把数据读入到R中,转换为合适的数据结构,能够提高数据分析的效率.在数据分析中,常用的存储数据 ...
R实战第九篇：数据标准化
数据标准化处理是数据分析的一项基础工作,不同评价指标往往具有不同的量纲,数据之间的差别可能很大,不进行处理会影响到数据分析的结果.为了消除指标之间的量纲和取值范围差异对数据分析结果的影响,需要对数据进 ...
R数据挖掘第二篇：基于距离评估数据的相似性和相异性
聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异.相似性和相异性(dissimilarity)是根据数据对象的属性值评估的 ...
R数据挖掘第一篇：聚类分析（划分）
聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类.在相同的数据集上, ...

随机推荐

gerrit代码审核工具之“error unpack failed error Missing unknown”错误解决思路
使用gerrit代码审核工具时遇到error: unpack failed: error Missing unknown d6d7c89bd1d77f44c5c8e99437aaffbfc0684e7 ...
vi在行首插入注释符号#
1.ctrl+v 2.上下键选中要插入的位置 3.按下shift+i,接着输入#符号 4.按键ESC(稍等一下,就会自动插入了)
Caffe学习笔记（二）：Caffe前传与反传、损失函数、调优
Caffe学习笔记(二):Caffe前传与反传.损失函数.调优在caffe框架中,前传/反传(forward and backward)是一个网络中最重要的计算过程:损失函数(loss)是学习的驱动 ...
【Network Architecture】SegNet论文解析（转）
文章来源: https://blog.csdn.net/fate_fjh/article/details/53467948 Introduction 自己制作国内高速公路label,使用SegNet训 ...
POJ2159 ancient cipher - 思维题
2017-08-31 20:11:39 writer:pprp 一开始说好这个是个水题,就按照水题的想法来看,唉~ 最后还是懵逼了,感觉太复杂了,一开始想要排序两串字符,然后移动之类的,但是看了看好 ...
02_zookeeper集群安装
zookeeper集群安装 (1) 下载zookeeper安装包,并上传到要组成zookeeper集群的多个机器上我放置的目录:/usr/local/src/zookeeper-3.4.5.ta ...
input实现文件上传
input实现文件上传 input + ajax 实现文件上传,包括文件大小及类型的判断一.html <input type="file" id="file&qu ...
java 获取今天，昨天，上个月的日期
获取今天,昨天,上个月的日期的方法: Calendar cal = Calendar.getInstance(); //获取今天的日期 cal.setTime(new Date()); int ye ...
spring mvc: 属性方法名称解析器(多动作控制器)MultiActionController/ControllerClassNameHandlerMapping/PropertiesMethodNameResolver
spring mvc: 属性方法名称解析器(多动作控制器) 加入控制器是StudentContrller.java,里面有3个方法 index,add,remove 那么访问地址是: http://l ...
ItemsControl控件-----常用的
常用的ItemsControl控件有:ListBox.ComboBox.TreeView.DataGrid等等.(小结:均是“多项”控件,多项对应集合,单项对应元素) ItemsControl ...

Faster R-CNN改进篇（一）： ION ● HyperNet ● MS CNN

Faster R-CNN改进篇（一）： ION ● HyperNet ● MS CNN的更多相关文章

随机推荐

热门专题