Faster rcnn代码理解（3）

紧接着之前的博客，我们继续来看faster rcnn中的AnchorTargetLayer层：

该层定义在lib>rpn>中，见该层定义：

首先说一下这一层的目的是输出在特征图上所有点的anchors（经过二分类和回归）；

（1）输入blob：bottom[0]储存特征图信息，bottom[1]储存gt框坐标,bottom[2]储存im_info信息；

（2）输出blob：top[0]存储anchors的label值（fg是1,bg是0,-1类不关心）,top[1]存储的是生成的anchors的回归偏移量，即论文中的tx,ty,tw,th四个量（所以说整个faster rcnn总共两次bbox回归，第一次在RPN中，第二次在fast rcnn中），top[2]和top[3]分别存储的是bbox_inside_weights和bbox_outside_weights，这两者的具体形式后面再说，作用还不是很清楚；

好的，先进入层的setup函数：

该函数通过解析父类对自己的一些参数进行初始化，同时定义该层的输入输出blob;

该函数中要注意的是generate_anchors()函数，它的作用是产生对应与特征图上最左上角那个点的九种anchor（尺寸对应与输入图像），这9个anchor在后面被用来产生所有图像上的anchors，进入generate_anchors（）函数：

三种长宽比（0.5,1,2）和三种参考尺寸（128,256,512）形成了九种anchors（注意这里只是参考尺寸，是用来计算anchors尺寸时用到的三种规格，并不是说anchors的规格就是这三种）；

接着向下看该层的前向传播函数forward函数：

这里获得输入bottom[0]、bottom[1]、bottom[2],继续：

这里的shift_x和shift_y分别对应x和y轴上的偏移量，用在之前说过的用generate_anchors（）函数生成的最左上角的anchors上，对其进行偏移，从而获得所有图像上的anchors；all_anchors用来存储所有这些anchors，total_anchors用来存储这些anchors的数量K×A,其中，K是输入图像的num,A是一幅图像上anchor的num；之后作者还对这些anchors进行了筛选，超出图像边界的anchors都将其丢弃～继续：

这一部分主要就是获得这些anchors和对应gt的最大重叠率的情况，以及正样本的划分标准：a.对于每一个gt，重叠率最大的那个anchor为fg；b,对于每一个gt，最大重叠率大于0.7的为fg；

cfg.TRAIN.RPN_CLOBBER_POSITIVE则涉及到一种情况，即如果最大重叠率小于cfg.TRAIN.RPN_NEGATIVE_OVERLAP=0.3,则到底正还是负，这里的cfg.TRAIN.RPN_CLOBBER_POSITIVE默认是False；

继续：

这一部分是说，如果我们得到的正样本或者负样本太多的话，那么就选取一定数量的，丢弃一定数量的anchors，应该是为了加速（这里的选取方法也很直接，就是随机选取），继续：

这一部分是生成bbox_targets、bbox_inside_weights、bbox_inside_weights；其中对于bbox_targets，它这里是调用了_compute_targets()函数，见：

在该函数又接着调用了bbox_transform函数，见：

从而得到了论文中所需要的四个偏移量tx,ty,tw,th四个量；

而对于后两个bbox_inside_weights和bbox_outside_weights，函数中定义的是bbox_inside_weights初始化为n×4的0数组，然后其中正样本的坐标的权值均为1；而bbox_outside_weights同样的初始化，其中正样本和负样本都被赋值1/num(anchors的数量)，还有另一种非统一的赋值方式在else中，这里就不说了；继续：

这里则是通过_unmap()函数实现将之前在所有图像上产生的anchors都赋上label、bbox_targets、bbox_inside_weights、bbox_outside_weights属性，见该函数：

之后会把这些属性信息经过reshape封装进该网络层的输出blob，即top[0]、top[1]、top[2]、top[3]中；之后：

由于该层不需要反向传播，所以backward函数也不需要写了，在前向传播中已经reshape了，就不用再写reshape函数了～

好了，到此，AnchorTargetLayer层的定义就写到这儿，若有错误请指出～

（转载请注明出处）

Faster rcnn代码理解（3）的更多相关文章

Faster RCNN代码理解（Python）
转自http://www.infocool.net/kb/Python/201611/209696.html#原文地址第一步,准备从train_faster_rcnn_alt_opt.py入: 初 ...
Faster rcnn代码理解（4）
上一篇我们说完了AnchorTargetLayer层,然后我将Faster rcnn中的其他层看了,这里把ROIPoolingLayer层说一下: 我先说一下它的实现原理:RPN生成的roi区域大小是 ...
Faster rcnn代码理解（2）
接着上篇的博客,咱们继续看一下Faster RCNN的代码- 上次大致讲完了Faster rcnn在训练时是如何获取imdb和roidb文件的,主要都在train_rpn()的get_roidb()函 ...
Faster rcnn代码理解（1）
这段时间看了不少论文,回头看看,感觉还是有必要将Faster rcnn的源码理解一下,毕竟后来很多方法都和它有相近之处,同时理解该框架也有助于以后自己修改和编写自己的框架.好的开始吧- 这里我们跟着F ...
原 CNN--卷积神经网络从R-CNN到Faster R-CNN的理解(CIFAR10分类代码)
1. 什么是CNN 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Netwo ...
Faster R-CNN代码例子
主要参考文章:1,从编程实现角度学习Faster R-CNN(附极简实现) 经常是做到一半发现收敛情况不理想,然后又回去看看这篇文章的细节. 另外两篇: 2,Faster R-CNN学习总结 ...
对Faster R-CNN的理解(1)
目标检测是一种基于目标几何和统计特征的图像分割,最新的进展一般是通过R-CNN(基于区域的卷积神经网络)来实现的,其中最重要的方法之一是Faster R-CNN. 1. 总体结构 Faster R-C ...
Rcnn/Faster Rcnn/Faster Rcnn的理解
基于候选区域的目标检测器 1. 滑动窗口检测器根据滑动窗口从图像中剪切图像块-->将剪切的图像块warp成固定大小-->cnn网络提取特征-->SVM和regressor进行分类 ...
Faster RCNN代码解析
1.faster_rcnn_end2end训练 1.1训练入口及配置 def train(): cfg.GPU_ID = 0 cfg_file = "../experiments/cfgs/ ...

随机推荐

自学Zabbix2.4-web页面配置zabbix
点击返回:自学Zabbix之路 ....
ASP.NET服务器端控件原理分析
服务器端控件触发事件分两种: 1.服务器端控件Button被渲染成客户端的 <input type="submit" name="Button1" val ...
Hashtable 删除元素，抛出异常 java.util.ConcurrentModificationException
今天在对一个Hashtable对象进行搜索 -> 删除操作时遇到的一个问题,开始的使用我使用的是Hashtable的Iterator,然后直接执行: Hashtable.remove(key ...
Microsoft JET Database Engine 错误 '80004005' 未指定错误
Microsoft JET Database Engine 错误 '80004005'未指定错误 =====解决=======出现这种“未指定错误”时,可以尝试重新注册ASP脚本解释链接库文件在CMD ...
java连接mysql的过程
今天突然心血来潮,想要用java连接mysql,记得以前是在vs2010的环境下用C#连接sql sever,其实他们的方法都差不多. 现在就可以简单的介绍下java如何连接mysql 第一步,设计m ...
redis的入门篇---五种数据类型及基本操作
查看所有的key keys * 清空所有的key flushall 检查key是否存在 exists key 设置已存在的key的时长 expire key //设置key为10s 查看key还剩多少 ...
javascript 模拟日历
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Hbase记录-HBase基本操作（一）
HBase创建表可以使用命令创建一个表,在这里必须指定表名和列族名.在HBase shell中创建表的语法如下所示. create ‘<table name>’,’<column ...
Hbase记录-Hbase基础概念
HBase是什么? HBase是建立在Hadoop文件系统之上的分布式面向列的数据库.它是一个开源项目,是横向扩展的. HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数 ...
Hive记录-hive权限控制
在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下: <property> <name>hive.security.authori ...

Faster rcnn代码理解（3）

Faster rcnn代码理解（3）的更多相关文章

随机推荐

热门专题