r-cnn学习（九）：学习总结

首先看下代码文件夹的说明（这部分转自：http://blog.csdn.net/bailufeiyan/article/details/50749694）

tools

在tools文件夹中，是我们直接调用的最外层的封装文件。其中主要包含的文件为：

_init_paths.py :用来初始化路径的，也就是之后的路径会join（path，*）
compress_net.py：用来压缩参数的，使用了SVD来进行压缩，这里可以发现，作者对于fc6层和fc7层进行了压缩，也就是两个全连接层。
demo.py ：通常，我们会直接调用这个函数，如果要测试自己的模型和数据，这里需要修改。这里调用了fast_rcnn中的test、config、nums_wrapper函数。vis_detections用来做检测，parse_args用来进行参数设置，以及damo和主函数。
eval_recall.py：评估函数
reval.py：re-evaluate，这里调用了fast_rcnn以及dataset中的函数。其中，from_mats函数和from_dets函数分别loadmat文件和pkl文件
rpn_genetate.py：这个函数调用了rpn中的genetate函数，之后我们会对rpn层做具体的介绍。这里，主要是一个封装调用的过程，我们在这里调用配置的参数、设置rpn的test参数，以及输入输出等操作。
test_net.py：测试fast rcnn网络。主要就是一些参数配置。
train_faster_rcnn_alt_opt.py：训练faster rcnn网络使用交替的训练，这里就是根据faster rcnn文章中的具体实现。可以在主函数中看到，其包括的步骤为：

RPN 1，使用imagenet model进行初始化参数，生成proposal，这里存储在mp_kwargs
fast rcnn 1，使用 imagenet model 进行初始化参数，使用刚刚生成的proposal进行fast rcnn的训练
RPN 2使用 fast rcnn 中的参数进行初始化（这里要注意哦），并生成proposal
fast rcnn 2，使用RPN 2 中的 model进行初始化参数
值得注意的是：在我们训练时，我们可以在get_solvers中的max_iters中设置迭代次数，在不确定网络是否可以调通时，减少迭代次数可以减少测试时间。
我们在训练faster rcnn网络时，就是调用这个文件训练的

train_net.py：使用fast rcnn，训练自己数据集的网络模型
train_svms.py：使用最原始的RCNN网络训练post-hoc SVMs

RPN

这里我们主要看lib/rpn文件夹下的代码。这里主要介绍了rpn的模型，其中，包含的主要文件如下：

generate_anchors.py: 生成多尺度和多比例的锚点。这里由generate_anthors函数主要完成，可以看到，使用了 3 个尺度( 128, 256, and 512)以及 3 个比例(1:1,1:2,2:1)。一个锚点由w, h, x_ctr, y_ctr固定，也就是宽、高、x center和y center固定。
proposal_layer.py:这个函数是用来将RPN的输出转变为object proposals的。作者新增了ProposalLayer类，这个类中，重新了set_up和forward函数，其中forward实现了：生成锚点box、对于每个锚点提供box的参数细节、将预测框切成图像、删除宽、高小于阈值的框、将所有的(proposal, score) 对排序、获取 pre_nms_topN proposals、获取NMS 、获取 after_nms_topN proposals。（注：NMS，nonmaximum suppression，非极大值抑制）
anchor_target_layer.py:生成每个锚点的训练目标和标签，将其分类为1 (object), 0 (not object) ， -1 (ignore).当label>0，也就是有object时，将会进行box的回归。其中，forward函数功能：在每一个cell中，生成9个锚点，提供这9个锚点的细节信息，过滤掉超过图像的锚点，测量同GT的overlap。
proposal_target_layer.py:对于每一个object proposal 生成训练的目标和标签，分类标签从0-k，对于标签>0的box进行回归。（注意，同anchor_target_layer.py不同，两者一个是生成anchor，一个是生成proposal）
generate.py:使用一个rpn生成object proposals。

作者就是通过以上这些文件生成rpn的。

nms

lib/nms文件夹下是非极大值抑制，这部分大家应该已经非常熟悉了，其Python版本的核心函数为py_cpu_nms.py，具体实现以及注释如下：

def py_cpu_nms(dets, thresh):

    """Pure Python NMS baseline."""

    #x1、y1、x2、y2、以及score赋值

    x1 = dets[:, 0]

    y1 = dets[:, 1]

    x2 = dets[:, 2]

    y2 = dets[:, 3]

    scores = dets[:, 4]

    #每一个op的面积

    areas = (x2 - x1 + 1) * (y2 - y1 + 1)

    #order是按照score排序的

    order = scores.argsort()[::-1]

    keep = []

    while order.size > 0:

        i = order[0]

        keep.append(i)

        xx1 = np.maximum(x1[i], x1[order[1:]])

        yy1 = np.maximum(y1[i], y1[order[1:]])

        xx2 = np.minimum(x2[i], x2[order[1:]])

        yy2 = np.minimum(y2[i], y2[order[1:]])

        #计算相交的面积

        w = np.maximum(0.0, xx2 - xx1 + 1)

        h = np.maximum(0.0, yy2 - yy1 + 1)

        inter = w * h

        #计算：重叠面积/（面积1+面积2-重叠面积）

        ovr = inter / (areas[i] + areas[order[1:]] - inter)

        inds = np.where(ovr <= thresh)[0]

        order = order[inds + 1]

前段时间看了faster r-cnn的源码，对该框架有了更清楚的认识，特此总结下整个过程。

1、准备

从train_faster_rcnn_alt_opt.py开始，通过args先做一些配置工作，包括solvers，max_iter等。

还进行了多线程的操作。

接下来，将整个训练过程分为四步。

（这部分可参考我之前的博客：http://www.cnblogs.com/573177885qq/p/6130877.html）

2、Stage 1 RPN, init from ImageNet model

用ImageNet初始化，通过调用train_rpn来训练RPN网络。

进入train_rpn：

这部分包括配置参数、初始化caffe、准备数据集（roidb,imdb），然后是train_net。

通过get_roidb来准备数据集，参考：http://www.cnblogs.com/573177885qq/p/6141796.html

调用train_net开始正式训练。在train_net中，首先通过filter_roidb过滤掉一部分roidb，通过

set_roidb将roidb设置进layer[0](即ROILayer)，最后训练train_model。详细参考layer中的setup，

在训练时roilayer的forward函数，在第一个层，只需要进行数据拷贝，在不同的阶段根据prototxt文件

定义的网络结构拷贝数据，blobs = self._get_next_minibatch()这个函数读取图片数据（调用get_minibatch函数，

这个函数在minibatch中，主要作用是为faster rcnn做实际的数据准备，在读取数据的时候，分出了boxes，gt_boxes,

im_info（宽高缩放）等）。

minibatch部分参考：http://www.cnblogs.com/573177885qq/p/6142152.html

画出stage1_rpn_train.pt如图：

该图包括6个top blob：data、rois、labels、bbox_targetx、bbox_inside_weights、bbox_outside_weights。

其中rpn-data层使用的是AnchorTargetLayer，这部分参考：http://www.cnblogs.com/573177885qq/p/6141507.html

这就是第一阶段的过程。

3、Stage 1 RPN, generate proposals

用上一步训练的模型生成proposals，供后面使用。

在生成proposals时，调用的是rpn_generate，在其中又调用了rpn文件夹下generate.py中的imdb_proposals（实在太绕了），

在这个函数中，终于可以看到imread读入图片了，并调用im_proposals生成图片的proposals以及得分（这部分以后补充）。

至此，得到imdb proposals。

4、Stage 1 Fast R-CNN using RPN proposals, init from ImageNet model

用上一步的proposals以及ImageNet model训练fast r-cnn。这里通过调用train_fast_rcnn来训练

5、Stage 2 RPN, init from stage 1 Fast R-CNN model

利用上一步训练的模型，保持前五层（卷积层）不动，训练RPN网络。

6、 Stage 2 RPN, generate proposals

利用上一步训练好的RPN网络，生成proposals。

7、Stage 2 Fast R-CNN, init from stage 2 RPN R-CNN model

利用上一步的proposals，产生最终的检测网络。这一步，卷积层和rpn层固定，只训练全连接层（stage1只固定

rpn层，训练其他层）。

最后输出最终训练的模型。

参考：http://blog.csdn.net/u011956147/article/details/53053381

r-cnn学习（九）：学习总结的更多相关文章

碎片︱R语言与深度学习
笔者:受alphago影响,想看看深度学习,但是其在R语言中的应用包可谓少之又少,更多的是在matlab和python中或者是调用.整理一下目前我看到的R语言的材料: ---------------- ...
R语言书籍的学习路线图
现在对R感兴趣的人越来越多,很多人都想快速的掌握R语言,然而,由于目前大部分高校都没有开设R语言课程,这就导致很多人不知道如何着手学习R语言. 对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑 ...
R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例笔者寄语:受启发 ...
R语言与机器学习学习笔记
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自 ...
R语言网络爬虫学习基于rvest包
R语言网络爬虫学习基于rvest包龙君蛋君:2015年3月26日 1.背景介绍: 前几天看到有人写了一篇用R爬虫的文章,感兴趣,于是自己学习了.好吧,其实我和那篇文章R语言爬虫初尝试-基于RVES ...
R语言与显著性检验学习笔记
R语言与显著性检验学习笔记一.何为显著性检验显著性检验的思想十分的简单,就是认为小概率事件不可能发生.虽然概率论中我们一直强调小概率事件必然发生,但显著性检验还是相信了小概率事件在我做的这一次检验 ...
R语言函数化学习笔记6
R语言函数化学习笔记 1.apply函数可以让list或者vector的元素依次执行一遍调用的函数,输出的结果是list格式 2.sapply函数原理和list一样,但是输出的结果是一个向量的形式 ...
R语言函数化学习笔记3
R语言函数化学习笔记3 R语言常用的一些命令函数 1.getwd()查看当前R的工作目录 2.setwd()修改当前工作目录 3.str()可以输出指定对象的结构(类型,位置等),同理还有class( ...
Deep Learning（深度学习）学习笔记整理系列之（八）
Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...
Deep Learning（深度学习）学习笔记整理系列之（七）
Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

随机推荐

[LeetCode] Implement Queue using Stacks 用栈来实现队列
Implement the following operations of a queue using stacks. push(x) -- Push element x to the back of ...
csv表格处理（下）－－纯JS解析导入csv
多日前的上篇介绍了csv表格,以及JS结合后端PHP解析表格填充表单的方法.其中csv转换成二维数组的时候逻辑比较复杂多坑,幸好PHP有丰富的库函数来处理,而现在用JS解析的话就没有那么幸运了,一切都 ...
Android Studio插件之快速findViewById（butterknife和Android CodeGenerator的使用）
首先在设置里面的Plugins里面下载安装插件: 安装之后会提示重启, 然后就是怎么使用了: butterknife的使用: 首先在build.gradle(app)里面添加这句话: compile ...
canvas
1. 画布可以通过两只手指上下移动,画布大小默认为屏幕大小的2倍,通过自定义View,嵌套scollview实现. Y 2. 通过处理手指触摸事件,一根手指时,使用Canvas绘制移动路径,产生直线: ...
Xftp连接linux（ubuntu）时提示ssh服务器拒绝了密码，请再试一次
用xftp root连接时显示ssh服务器拒绝了密码,请重新连接.由于sshd的设置不允许root用户用密码远程登录,修改/etc/ssh/sshd_config文件,但必须是安装了openssh才会 ...
【Codeforces 738A】Interview with Oleg
http://codeforces.com/contest/738/problem/A Polycarp has interviewed Oleg and has written the interv ...
图解TCP-IP协议
本文通过图来梳理TCP-IP协议相关知识.TCP通信过程包括三个步骤:建立TCP连接通道,传输数据,断开TCP连接通道.如图1所示,给出了TCP通信过程的示意图. 图1 TCP 三次握手四次挥手图1 ...
Android基础总结（九）
多媒体概念(了解) 文字.图片.音频.视频计算机图片大小的计算(掌握) 图片大小 = 图片的总像素 * 每个像素占用的大小单色图:每个像素占用1/8个字节 16色图:每个像素占用1/2个字节 25 ...
java学习笔记之线程2wait和notifyAll
2.乐观锁和悲观锁悲观锁(Pessimistic Lock), 顾名思义,就是很悲观,每次去拿数据的时候都认为别人会修改,所以每次在拿数据的时候都会上锁,这样别人想拿这个数据就会block直到它拿到 ...
nginx代理TCP端口
1.升级nginx 版本至1.9.0以上升级流程参考 nginx平滑升级 2.配置编译的时候需要加上 ./configure --prefix=/usr/local/nginx --user=www ...

r-cnn学习（九）：学习总结

RPN

nms

r-cnn学习（九）：学习总结的更多相关文章

随机推荐

热门专题