很久之前试着写一篇深度学习的基础知识，无奈下笔之后发现这个话题确实太大，今天发一篇最近看的论文Fast RCNN。这篇文章是微软研究院的Ross Girshick大神的一篇作品，主要是对RCNN的一些改进，但是效果十分明显，paper和项目的地址都能从Ross Girshick的主页找到：http://people.eecs.berkeley.edu/~rbg/

刚刚接触深度学习，难免纰漏很多，还请大神指教。

自己的百度云里也有一些相关内容http://pan.baidu.com/s/1o79NZ2E

文字内容大多是自己讲解时的PPT的内容。

背景介绍

Fast rcnn是针对RCNN+SPP-NET的改进，改进的原因是：

1.Training is a multi-stage pipeline.
2.Training is expensive in space and time
3.Object detection is slow

1.RCNN

RCNN的结构示意图

首先看一下RCNN的框架图，大概的工作过程是：

takes an input image,
extracts around 2000 bottom-up region proposals,
computes features for each proposal using a large convolutional neural network (CNN)
classifies each region using class-specific linear SVMs.

详细的说一下就是：首先输入一张图片，通过selective search获得约2K个proposal（也就是candidate object locations），之后对图像进行伸缩变换，把图像变为固定尺寸的照片，之后把固定尺寸之后的图片传入CNN网络中进行提取特征等操作，之后使用SVM分类器进行分类。

由此可以看出RCNN有这样的缺点：

训练的时候，多pipeline分离，首先提取proposal，之后使用CNN提取特征，最后使用SVM分类然后进行boundingbox regression。
训练时间和空间开销大。RCNN中ROI-centric的运算开销大，所以FRCN用了image-centric的训练方式来通过卷积的share特性来降低运算开销；RCNN提取特征给SVM训练时候需要中间要大量的磁盘空间存放特征，FRCN去掉了SVM这一步，所有的特征都暂存在显存中，就不需要额外的磁盘空间了。

由此看一看出RCNN的问题所在，首先在提取完proposal之后，整个网络对提取到的RCNN中的所有的proposal都进行了整套的提取特征这些操作，这些操作是非常耗时，耗费空间的。事实上我们并不需要对每个proposal都进行CNN操作，只需要对原始的整张图片进行CNN操作即可，因为我们所提取到的proposal属于整张图片，因此对整张图片提取出feature map之后，再找出对应proposal在feature map中对应的区域，进行对比分类即可。第二个问题所在就是在框架中2-3过程中的对提取到的区域进行变形，我们知道CNN提取特征的过程对图像的大小并无要求，只是在提取完特征，进行全连接的时候才需要固定尺寸的特征，然后使用SVM等分类器进行分类操作，当然这两个问题在SPP -NET中得到了很好的解决。

2.SPP NET

引入原因：在RCNN中，使用完ss提取proposal之后，对每个proposal都进行了CNN提取特征+SVM分类。
解决方法：因为region proposal都是图像的一部分，我们只需要对图像提一次卷积层特征，然后将region proposal在原图的位置映射到卷积层特征图上，这样对于一张图像我们只需要提一次卷积层特征，然后将每个region proposal的卷积层特征输入到全连接层做后续操作。

更直白的讲就是SPP-NET代替卷积网络中最后一个pooling层，而且这pooling层是多scale的。

接下来看一下SPPNET的框架图

SPPNET框架图

图中叠在一起的四个黑色方框是输入图像经过卷积层得到的特征图（feature maps of conv5），图中叫window的方框就是我们proposal在feature map中的对应位置，之后我们使用空间金字塔pooling层对这块区域进行池化，得到一个固定尺寸的向量，之后再加入到全连接层中。

（这一篇论文正在看，先写一部分大概内容，以后进行系统点补充）

关于Fast RCNN

FRCNN针对RCNN在训练时是multi-stage pipeline和训练的过程中很耗费时间空间的问题进行改进。

最后一个卷积层后加了一个ROI pooling layer。ROI pooling layer首先可以将image中的ROI定位到feature map，然后是用一个单层的SPP layer将这个feature map patch池化为固定大小的feature之后再传入全连接层。
损失函数使用了多任务损失函数(multi-task loss)，将边框回归直接加入到CNN网络中训练。

接下来看一下FRCNN的框架图

FRCNN的框架图

图中省略了通过ss获得proposal的过程，第一张图中红框里的内容即为通过ss提取到的proposal，中间的一块是经过深度卷积之后得到的conv feature map，图中灰色的部分就是我们红框中的proposal对应于conv feature map中的位置，之后对这个特征经过ROI pooling layer处理，之后进行全连接。在这里得到的ROI feature vector最终被分享，一个进行全连接之后用来做softmax回归，用来进行分类，另一个经过全连接之后用来做bbox回归。

关于multi-task loss

参数含义：

p = (p0; : : : ; pK), over K + 1 categories.P是通过k+1个全连接层输出使用softmax计算得到的。

未完待续....

论文笔记--Fast RCNN的更多相关文章

论文笔记：目标检测算法（R-CNN，Fast R-CNN，Faster R-CNN，FPN，YOLOv1-v3）
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...
深度学习论文笔记：Fast R-CNN
知识点 mAP:detection quality. Abstract 本文提出一种基于快速区域的卷积网络方法(快速R-CNN)用于对象检测. 快速R-CNN采用多项创新技术来提高训练和测试速度,同时 ...
论文笔记：Fast(er) RCNN
在 RCNN 初步试水取得成功后,研究人员又迅速跟进,针对 RCNN 中的几点不足提出改进,接连推出了 fast-rcnn 和 faster-rcnn.关于这两篇论文,网上相关的文章实在是多如牛毛,因 ...
论文阅读笔记二十六：Fast R-CNN (ICCV2015)
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/5103 ...
Fast R-CNN论文阅读笔记
论文地址:Fast R-CNN R-CNN的缺陷 (1)训练是一个多级的流水线.R-CNN首先在候选目标上微调一个卷积神经网络,使用log loss.然后使用SVMs充当目标分类器,以取代softma ...
【CV论文阅读】 Fast RCNN + SGD笔记
Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构.首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of inter ...
标题发布状态评论数阅读数操作操作 CNN目标检测系列算法发展脉络简析——学习笔记（三）：Fast R-CNN
最近两周忙着上网课.投简历,博客没什么时间写,姑且把之前做的笔记放上来把... 下面是我之前看论文时记的笔记,之间copy上来了,内容是Fast R-CNN的,以后如果抽不出时间写博客,就放笔记上来( ...
论文笔记(2)：A fast learning algorithm for deep belief nets.
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm ...
论文笔记：Mask R-CNN
之前在一次组会上,师弟诉苦说他用 UNet 处理一个病灶分割的任务,但效果极差,我看了他的数据后发现,那些病灶区域比起整张图而言非常的小,而 UNet 采用的损失函数通常是逐像素的分类损失,如此一来, ...

随机推荐

Extjs tree 更改图标
去掉树的叶子图标 .x-tree-node-icon { display: none; //不显示图标 } 更改图标在后台返回的json中有添加 iconCls 属性如 icon ...
JS 日期格式化
<script type="text/javascript" src="http://code.jquery.com/jquery-latest.js"& ...
box-shadow中的理解(bootstrap)
刚研究了bootstrap中css里面的源码,找到了表单(form)中关于输入框的一些设置,根据要求,label标签和input标签需要一起使用,(屏幕阅读器中不能单独辨认input),如需隐藏lab ...
RTL-SDR + GnuRadio+RFcat 分析、重放无线遥控信号
0×00 前言前段时间在<永不消逝的电波(二)HackRF入门:家用无线门铃信号重放> 一文中通过HackRF录制.重放了无线遥控信号,不过一直没来得及对信号进行分析,刚好在国外网站看到 ...
clojure 之 hello world
1. 安装Leiningen 2. lein new app bar 3. lein run Hello, World!
java 接口
1.接口的引出:发现没有继承关系的类也能共享行为 2.接口不是类,类描述对象的属性和行为,但是接口只关注实现的行为3.当我们发现有行为在多个没有继承关系的类中共享,我们要把它抽取到接口中,而不是写到父 ...
深入理解JavaScript系列：史上最清晰的JavaScript的原型讲解
一说起JavaScript就要谈的几个问题,原型就是其中的一个.说了句大话,史上最清晰.本来是想按照大纲式的行文写一下,但写到后边感觉其实就一个概念,没有什么条理性,所以下面就简单按照概念解释的模式谈 ...
深入理解css系列：清除浮动
如果出现div嵌套,内层元素浮动,而外层包裹的父元素div未设置高度的时候,那么会出现外层不能被撑开的情况. HTML标签代码: <div class="wrap"> ...
【Python】二分查找算法
二分查找:在一段数字内,找到中间值,判断要找的值和中间值大小的比较.如果中间值大一些,则在中间值的左侧区域继续按照上述方式查找.如果中间值小一些,则在中间值的右侧区域继续按照上述方式查找.直到找到我们 ...
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 2-byte UTF-8 sequence报错解决方法
添加了XML实体和表映射文件后,莫名报错,百思不得其解,也找不到哪里错了,后来把mybatis-config.xml文件中去掉中文注释就好了 mybatis-config.xml文件中的内容如下,去掉 ...

论文笔记--Fast RCNN