之前的文章简要介绍了Faster-RCNN等物体检测的算法，本文将从代码角度详细分析介绍Faster-RCNN的实现。本文使用的代码参考了chenyuntc的实现，代码的位置看这里。需要注意的是，本文使用的框架是Pytorch。

数据载入

数据载入部分的代码主要见./data/dataset.py中的类Dataset与TestDataset。

数据载入部分的逻辑如下：

从VOC数据集中获得img, bbox, label
将img, bbox进行放缩（放缩的目的是让图片处于合适的大小，这样预先指定锚框才有意义）
将img进行标准化正则处理
如果是训练阶段，将img翻转以增加训练数据

网络结构

FasterRCNN的网络结构如下图所示：

FasterRCNN结构的代码主要见./model.faster_rcnn.py，其结构包含三大部分：

预训练的CNN模型 decom_vgg16
rpn网络RegionProposalNetwork
roi及以上网络VGG16RoIHead

下面，将以放缩后大小为[1, 3, 600, 800]的图片为例针对每个部分分别介绍。图像类别共计21类（包含背景）。

预训练的CNN模型

该部分代码见./model/vgg16.py。

输入：图片，大小[1, 3, 600, 800]

输出：特征图features，大小[1, 512, 37, 50]

其逻辑如下：

载入预先训练好的CNN模型VGG16。
将模型拆分为两部分extractor, classifier。其中，extractor的参数固定。
图片通过extractor可以得到特征图features。根据extractor中池化参数可知图像通过extractor缩小了16倍。

rpn网络

该部分代码见./model/rpn.py。

输入：特征图features，大小[1, 512, 37, 50]

输出：

rpn_locs：rpn对位置的修正，大小[1, 16650, 4]
rpn_scores ：rpn判断区域前景背景，大小[1, 16650, 2]
rois：rpn筛选出的roi的位置，大小[300， 4]
roi_indices：rpn筛选出的roi对应的图片索引，大小[300]
anchor：原图像的锚点，大小[16650, 4]

其中，16650是放缩后的图像所产生的所有锚点（37*50*9），每个锚点都对应了一个rp。通过 rpn_scores以及nms可以得到筛选后的大小为300的roi。

其逻辑如下：

对特征图features以基准长度为16、选择合适的ratios和scales取基准锚点anchor_base。（选择长度为16的原因是图片大小为600*800左右，基准长度16对应的原图区域是256*256，考虑放缩后的大小有128*128，512*512比较合适）
根据anchor_base在原图上获得anchors。
对特征图features采用卷积得到rpn_locs和rpn_scores
根据anchors和rpn_locs获得修正后的rp
对rp进一步修正获得rois和roi_indices，修正包括超出边界的部分截断、移除太小的、nms。

roi及以上网络

该部分代码见./model/roi_module.py。

输入：

features：特征图，大小[1, 512, 37, 50]
rois：rpn筛选出的roi的位置，大小[300， 4]
roi_indices：rpn筛选出的roi对应的图片索引，大小[300]

输出：

roi_cls_locs：roi位置的修正，大小[300， 84]
roi_scores：roi各类的分数，大小[300， 21]

其逻辑如下：

通过RoIPooling2D将大小不同的roi变成大小一致，得到pooling后的特征，大小为[300, 512, 7, 7]
接入预训练的CNN模型引入的classifier
分别接入全连接得到roi_cls_locs、roi_scores

训练

训练部分的代码主要见./trainer/trainer.py中的FasterRCNNTrainer中的train_step函数。

训练部分的核心是loss如何求取。

loss求取前网络的步骤如下：

预训练CNN特征提取：输入img到extractor获得features
rpn网络得到roi：输入features到rpn获得rpn_locs, rpn_scores, rois, roi_indices, anchor
抽样roi：输入rois，bbox，label到ProposalTargetCreator获得sample_roi, gt_roi_loc, gt_roi_label。该步骤的含义是得到正负例比例和位置合适的roi。
head网络得到roi的位置修正与分数：输入features,sample_roi,sample_roi_index得到roi_cls_loc, roi_score

各个loss求取的方式如下：

rpn_loc_loss：已知rpn_loc，需要先根据anchor和bbox得到真实的gt_rpn_loc和gt_rpn_label。该处loss的计算只考虑前景，所以根据rpn_loc,gt_rpn_loc,gt_rpn_label计算L1-LOSS即可。
rpn_cls_loss：根据rpn_score和gt_rpn_label计算二分类的交叉熵即可。
roi_loc_loss：已知roi_loc，在sample roi的过程中已获得gt_roi_loc, gt_roi_label。根据roi_loc,gt_roi_loc,gt_roi_label计算L1-LOSS即可。
roi_cls_loss：根据roi_score和gt_roi_label计算多分类的交叉熵即可。

整体的loss为以上各loss相加求和。

测试

训练部分的代码主要见./model/faster_rcnn.py中的FasterRCNNTrainer中的predict函数。

其步骤如下：

图片预处理
预训练CNN特征提取：输入img到extractor获得features
rpn网络得到roi：输入features到rpn获得rpn_locs, rpn_scores, rois, roi_indices, anchor
head网络得到roi的位置修正与分数：输入features,rois,roi_indices得到roi_cls_loc, roi_score
得到图片预测的bbox：输入roi_cls_loc、roi_score、rois，采用nms等方法得到预测的bbox。

FasterRCNN代码解读的更多相关文章

Android MVP模式谷歌官方代码解读
Google官方MVP Sample代码解读关于Android程序的构架, 当前(2016.10)最流行的模式即为MVP模式, Google官方提供了Sample代码来展示这种模式的用法. Repo ...
优秀开源代码解读之JS与iOS Native Code互调的优雅实现方案
简介本篇为大家介绍一个优秀的开源小项目:WebViewJavascriptBridge. 它优雅地实现了在使用UIWebView时JS与ios 的ObjC nativecode之间的互调,支持消息发 ...
SoftmaxLayer and SoftmaxwithLossLayer 代码解读
SoftmaxLayer and SoftmaxwithLossLayer 代码解读 Wang Xiao 先来看看 SoftmaxWithLoss 在prototext文件中的定义: layer { ...
Hybrid----优秀开源代码解读之JS与iOS Native Code互调的优雅实现方案-备
本篇为大家介绍一个优秀的开源小项目:WebViewJavascriptBridge. 它优雅地实现了在使用UIWebView时JS与ios 的ObjC nativecode之间的互调,支持消息发送.接 ...
Jsoup代码解读之六-防御XSS攻击
Jsoup代码解读之八-防御XSS攻击防御XSS攻击的一般原理 cleaner是Jsoup的重要功能之一,我们常用它来进行富文本输入中的XSS防御. 我们知道,XSS攻击的一般方式是,通过在页面输入 ...
Jsoup代码解读之五-实现一个CSS Selector
Jsoup代码解读之七-实现一个CSS Selector 当当当!终于来到了Jsoup的特色:CSS Selector部分.selector也是我写的爬虫框架webmagic开发的一个重点.附上一张s ...
Jsoup代码解读之四-parser
Jsoup代码解读之四-parser 作为Java世界最好的HTML 解析库,Jsoup的parser实现非常具有代表性.这部分也是Jsoup最复杂的部分,需要一些数据结构.状态机乃至编译器的知识.好 ...
Jsoup代码解读之三-Document的输出
Jsoup代码解读之三-Document的输出 Jsoup官方说明里,一个重要的功能就是output tidy HTML.这里我们看看Jsoup是如何输出HTML的. HTML相关知识分析代码前 ...
Jsoup代码解读之一-概述
Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了webmagic里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学 ...

随机推荐

LeetCode（121）：买卖股票的最佳时机
Easy! 题目描述: 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格. 如果你最多只允许完成一笔交易(即买入和卖出一支股票),设计一个算法来计算你所能获取的最大利润. 注意你不能在买 ...
select下拉框的数据回显
需求描述:select框,下拉后又很多的选项,选择一个,根绝后台代码做查询,完成之后,页面上的select框还是之前选的那个值解决思路:select本质就是 value和text一一对应,根据你的s ...
CSS----布局不理解
正常情况正常显示如果往div标签中添加汉字出现显示(不理解) 解决方式加上vertical-align:top
bzoj 1076
发现自己已经把期望dp忘光了... 其实本质上非常简单,就是利用状压的思想跑期望首先很容易设计出状态:记状态f[s][i]表示到了第i个点,之前已选过的点的状态为s时所能获得的最大期望得分但是会发 ...
Python使用re模块实现正则表达式操作
Python提供了re模块,用于实现正则表达式的操作.在实现时,可以使用re模块提供的方法(如search().match().findall()等)进行字符串处理,也可以先使用re模块的compil ...
C++ StrCat()
关于StrCat function,参考:https://msdn.microsoft.com/en-us/library/windows/desktop/bb759925(v=vs.85).aspx ...
mysql常见安全加固策略
原创 2017年01月17日 21:36:50 标签: 数据库 / mysql / 安全加固 5760 常见Mysql配置文件:linux系统下是my.conf,windows环境下是my.ini: ...
asp.net core 自定义404等友好错误页面
Home控制器里: [Route("Home/Error/{statusCode}")] public IActionResult Error(int statusCode) { ...
tensorflow实现RNN及Word2Vec
参考:<tensorflow实战> 首先介绍一下Word2Vec Word2Vec:从原始语料中学习字词空间向量的预测模型.主要分为CBOW(Continue Bags of Words) ...
.NetCore 下开发独立的（RPL）含有界面的组件包（六）实现业务功能
.NetCore 下开发独立的(RPL)含有界面的组件包 (一)准备工作 .NetCore 下开发独立的(RPL)含有界面的组件包 (二)扩展中间件及服务 .NetCore 下开发独立的(RPL)含 ...

FasterRCNN代码解读

数据载入

网络结构

预训练的CNN模型

rpn网络

roi及以上网络

训练

测试

FasterRCNN代码解读的更多相关文章

随机推荐

热门专题