深度学习论文笔记：Fast R-CNN

知识点

mAP：detection quality.

Abstract

本文提出一种基于快速区域的卷积网络方法（快速R-CNN）用于对象检测。
快速R-CNN采用多项创新技术来提高训练和测试速度，同时提高检测精度。
采用VGG16的网络：VGG: 16 layers of 3x3 convolution interleaved with max pooling + 3 fully-connected layers

Introduction

物体检测相对于图像分类是更复杂的，应为需要物体准确的位置。
- 首先，必须处理许多候选对象位置（通常称为“proposal”）。
- 其次，这些候选者只提供粗略的定位，必须进行精确定位才能实现精确定位。
- 这些问题的解决方案经常损害速度， 准确性 或 简单性 。

R-CNN and SPPnet

R-CNN(Region-based Convolution Network)具有几个显著的缺点：
- 训练是一个多级管道。
- 训练在空间和时间上是昂贵的。
- 物体检测速度很慢。
R-CNN是慢的，因为它对每个对象proposal执行ConvNet正向传递，而不共享计算（sharing computation）。
Spatial pyramid pooling networks（SPPnets），利用sharing computation对R-CNN进行了加速，但是SPPnets也具有明显的缺点，像R-CNN一样，SPPnets也需要：
- 训练是一个多阶段流程，
- 涉及提取特征，
- 用对数损失精简网络
- 训练SVM
- 赋予边界框回归。
- 特征也需要也写入磁盘。
但与R-CNN 不同，在[11]中提出的fine-tuning算法不能更新在空间金字塔池之前的卷积层。不出所料，这种限制（固定的卷积层）限制了非常深的网络的精度。

Contributions

Fast R-CNN优点：

比R-CNN，SPPnet更高的检测质量（mAP）
训练是单阶段的，使用多任务损失（multi-task loss）
训练可以更新所有网络层
特征缓存不需要磁盘存储

Fast R-CNN architecture and training

整体框架
快速R-CNN网络将整个图像和一组object proposals作为输入。
- 网络首先使用几个卷积（conv）和最大池层来处理整个图像，以产生conv feature map。
- 然后，对于每个对象proposal， 感兴趣区域（RoI）池层 从特征图中抽取固定长度的特征向量。
- 每个特征向量被馈送到完全连接（fc）层序列，其最终分支成两个同级输出层：
  - 一个产生对K个对象类加上全部捕获的“背景”类的softmax概率估计(one that produces softmax probability estimates over K object classes plus a catch-all “background” class)
  - 另一个对每个K对象类输出四个实数，每组4个值编码提炼定义K个类中的一个的的边界框位置。(another layer that outputs four real-valued numbers for each of the K object classes. Each set of 4 values encodes reﬁned bounding-box positions for one of the K classes.)

The RoI pooling layer

Rol pooling layer的作用主要有两个：
- 一个是将image中的RoI定位到feature map中对应patch
- 另一个是用一个单层的SPP layer将这个feature map patch下采样为大小固定的feature再传入全连接层。
RoI池层使用最大池化将任何有效的RoI区域内的特征转换成具有H×W（例如，7×7）的固定空间范围的小feature map，其中H和W是层超参数 它们独立于任何特定的RoI。
在本文中，RoI是conv feature map中的一个矩形窗口。
每个RoI由定义其左上角（r，c）及其高度和宽度（h，w）的四元组（r，c，h，w）定义。
RoI层仅仅是Sppnets中的spatial pyramid pooling layer的特殊形式，其中只有一个金字塔层.

Initializing from pre-trained networks

用了3个预训练的ImageNet网络（CaffeNet/ VGG_CNN_M_1024 /VGG16）。预训练的网络初始化Fast RCNN要经过三次变形：

最后一个max pooling层替换为RoI pooling层，设置H’和W’与第一个全连接层兼容。
最后一个全连接层和softmax（原本是1000个类）替换为softmax的对K+1个类别的分类层，和bounding box 回归层。
输入大专栏深度学习论文笔记：Fast R-CNN修改为两种数据：一组N个图形，R个RoI，batch size和ROI数、图像分辨率都是可变的。

Fine-tuning for detection

利用反向传播算法进行训练所有网络的权重是Fast R-CNN很重要的一个能力。
我们提出了一种更有效的训练方法，利用在训练期间的特征共享（feature sharing during training）。
在Fast R-CNN训练中， 随机梯度下降（SGD）小批量分层采样 ，首先通过采样N个图像，然后通过从每个图像采样 R/N个 RoIs。
关键的是，来自同一图像的RoI在向前和向后传递中共享计算和存储。
此外为了分层采样，Fast R-CNN使用了一个流水线训练过程，利用一个fine-tuning阶段来联合优化一个softmax分类器和bounding box回归，而非训练一个softmax分类器，SVMs，和regression在三个独立的阶段。
Multi-task loss：
- 两个sibling输出层：
  - 第一层：输出离散概率分布（针对每个RoIs），$p=(p_0,…,p_K)$，分别对应$K+1$个类。p是在一个全连接层的$K+1$个输出上的softmax。
  - 第二层：输出bounding-box的回归偏移(bounding-box regression offsets)，针对K object classes中的每一个类，计算$t^k=(t^k_x,t^k_y,t^k_w,t^k_h)$，具体见R-CNN得补充材料，里面有很详细的介绍bounding box regression。
- 每一个训练RoIs被标注一个ground truth类$u$，和一个ground truth bounding box 回归目标$v$。
- 两个loss，以下分别介绍：
  - 对于分类loss，是一个N+1路的softmax输出，其中的N是类别个数，1是背景。
  - 对于回归loss，是一个4xN路输出的regressor，也就是说对于每个类别都会训练一个单独的regressor的意思，比较有意思的是，这里regressor的loss不是L2的，而是一个平滑的L1，形式如下：
我们利用一个multi-task loss L 在每个被标注的RoI上来联合训练分类器和bounding box regression
Mini-batch sampling：在微调时，每个SGD的mini-batch是随机找两个图片，R为128，因此每个图上取样64个RoI。从object proposal中选25%的RoI，就是和ground-truth交叠至少为0.5的。剩下的作为背景。
Back-propagation through RoI pooling layers：
- RoI pooling层计算损失函数对每个输入变量x的偏导数，如下：
  
  y是pooling后的输出单元，x是pooling前的输入单元，如果y由x pooling而来，则将损失L对y的偏导计入累加值，最后累加完R个RoI中的所有输出单元。下面是我理解的x、y、r的关系：

Scale invariance

这里讨论object的scale问题，就是网络对于object的scale应该是要不敏感的。这里还是引用了SPP的方法，有两种:
- brute force （single scale），也就是简单认为object不需要预先resize到类似的scale再传入网络，直接将image定死为某种scale，直接输入网络来训练就好了，然后期望网络自己能够学习到scale-invariance的表达。
- image pyramids （multi scale），也就是要生成一个金字塔，然后对于object，在金字塔上找到一个大小比较接近227x227的投影版本，然后用这个版本去训练网络。
可以看出，2应该比1更加好，作者也在5.2讨论了，2的表现确实比1好，但是好的不算太多，大概是1个mAP左右，但是时间要慢不少，所以作者实际采用的是第一个策略，也就是single scale。
这里，FRCN测试之所以比SPP快，很大原因是因为这里，因为SPP用了2，而FRCN用了1。

Fast R-CNN detection

大型全连接层很容易的可以通过将他们与 truncated SVD(奇异值分解) 压缩来加速计算。

Main results

All Fast R-CNN results in this paper using VGG16 ﬁne-tune layers conv3 1 and up; all experments with models S and M ﬁne-tune layers conv2 and up.

Design evaluation

Do we need more training data?

在训练期间，作者做过的唯一一个数据增量的方式是水平翻转。作者也试过将VOC12的数据也作为拓展数据加入到finetune的数据中，结果VOC07的mAP从66.9到了70.0，说明对于网络来说， 数据越多就是越好的。

深度学习论文笔记：Fast R-CNN的更多相关文章

深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes
来自:CVPR 2014 作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predic ...
深度学习论文笔记：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes
这篇文章将深度学习算法应用于机械故障诊断,采用了“小波包分解+深度残差网络(ResNet)”的思路,将机械振动信号按照故障类型进行分类. 文章的核心创新点:复杂旋转机械系统的振动信号包含着很多不同频率 ...
深度学习课程笔记（一）CNN 卷积神经网络
深度学习课程笔记(一)CNN 解析篇相关资料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html 首先提到 Why CNN for I ...
重磅︱文本挖掘深度学习之word2vec的R语言实现
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:2013年末,Google发布的 w ...
(zhuan) 126 篇殿堂级深度学习论文分类整理从入门到应用
126 篇殿堂级深度学习论文分类整理从入门到应用 | 干货雷锋网作者: 三川 2017-03-02 18:40:00 查看源网址阅读数:66 如果你有非常大的决心从事深度学习,又不想在这一行打 ...
【深度学习系列3】 Mariana CNN并行框架与图像识别
[深度学习系列3] Mariana CNN并行框架与图像识别本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框 ...
深度学习word2vec笔记之算法篇
深度学习word2vec笔记之算法篇声明: 本文转自推酷中的一篇博文http://www.tuicool.com/articles/fmuyamf,若有错误望海涵前言在看word2vec的资料 ...
（转）深度学习word2vec笔记之基础篇
深度学习word2vec笔记之基础篇声明: 1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用 ...
深度学习word2vec笔记之基础篇
作者为falao_beiliu. 作者:杨超链接:http://www.zhihu.com/question/21661274/answer/19331979来源:知乎著作权归作者所有.商业转载请联系 ...

随机推荐

14 微服务电商【黑马乐优商城】：day06-了解vue-router和webpack的使用
本项目的笔记和资料的Download,请点击这一句话自行获取. day01-springboot(理论篇) :day01-springboot(实践篇) day02-springcloud(理论篇一) ...
使用DataSnap Server环境搭建注意的问题。
1.Data exploer 的MYSQL文件(Libmysql.dll)放到系统的system32目录即可
Opencv笔记（九）——图像阈值
学习目标: 学习简单阈值,自适应阈值,Otsu's 二值化等学习函数cv2.threshold,cv2.adaptiveThreshold 等. 一.简单阈值与名字一样,这种方法非常简单.但像素值 ...
Halcon系列（1）菜鸟入门
官方网站怎么使用HDevelop :https://www.mvtec.com/products/halcon/halcon-tour
[TJOI2017]不勤劳的图书管理员（分块+树状数组）
有一个数组开大会MLE开小会RE的做法:就是树套树,即树状数组套主席树,这种方法比较暴力,然而很遗憾它不能通过,因为其时空复杂度均为O(nlog2n). 想到一种不怎么耗内存,以时间换空间,分块!单次 ...
iso镜像文件的挂载和yum库的搭建
挂载镜像文件 1.上传镜像文件到服务器(或电脑)的某一目录下如:(/media/rpm_pack/rhel...iso) 2.root 用户下创建镜像文件挂载目录 mkdir /mnt/vcd ...
mysql免安装版 win10
1.在官网中下载免安装版:https://dev.mysql.com/downloads/mysql/ 2.解压下载后的文件,新建 data 文件夹和 my.ini 文件 3.打开 my.ini 文 ...
Linux下查找Nginx配置文件位置
1.查看Nginx进程命令: ps -aux | grep nginx 圈出的就是Nginx的二进制文件 2.测试Nginx配置文件 /usr/sbin/nginx -t 可以看到nginx配置文件 ...
[LC] 270. Closest Binary Search Tree Value
Given a non-empty binary search tree and a target value, find the value in the BST that is closest t ...
day45-多线程(server和多个client通信)
#server: import socket from threading import Thread def func(conn): conn.send(b'hello client') ret = ...

深度学习论文笔记：Fast R-CNN

知识点

Abstract

Introduction

R-CNN and SPPnet

Contributions

Fast R-CNN architecture and training

The RoI pooling layer

Initializing from pre-trained networks

Fine-tuning for detection

Scale invariance

Fast R-CNN detection

Main results

Design evaluation

Do we need more training data?

深度学习论文笔记：Fast R-CNN的更多相关文章

随机推荐

热门专题