anchor_target_layer层其他部分解读

inds_inside = np.where(

            (all_anchors[:, 0] >= -self._allowed_border) &

            (all_anchors[:, 1] >= -self._allowed_border) &

            (all_anchors[:, 2] < im_info[1] + self._allowed_border) &  # width

            (all_anchors[:, 3] < im_info[0] + self._allowed_border)    # height

        )[0]

        # keep only inside anchors

        anchors = all_anchors[inds_inside, :]

这部分代码是把所有anchor中超过了图片边界部分的anchor去掉，即论文中说的cross-boundary anchors

        # fg label: for each gt, anchor with highest overlap

        labels[gt_argmax_overlaps] = 1

        # fg label: above threshold IOU

        labels[max_overlaps >= cfg.TRAIN.RPN_POSITIVE_OVERLAP] = 1

这部分代码是把和gt-roi有最大iou的anchor和与任何gt-roi iou大于0.7的anchor的label置为1，即前景。这和论文中所说的是一样的。

if cfg.TRAIN.RPN_CLOBBER_POSITIVES:

            # assign bg labels last so that negative labels can clobber positives

            labels[max_overlaps < cfg.TRAIN.RPN_NEGATIVE_OVERLAP] = 0

把和所有gt-roi iou都小于0.3的achor的label置为0

# label: 1 is positive, 0 is negative, -1 is dont care

        labels = np.empty((len(inds_inside), ), dtype=np.float32)

        labels.fill(-1)

这是label的初始化的代码，所有的label都置为-1

所以总的来看，label分为3类，一类是0,即背景label；一类是1，即前景label；另一类既不是前景也不是背景，置为-1。论文中说只有前景和背景对训练目标有用，这种-1的label对训练没用。

# subsample positive labels if we have too many

        num_fg = int(cfg.TRAIN.RPN_FG_FRACTION * cfg.TRAIN.RPN_BATCHSIZE)

        fg_inds = np.where(labels == 1)[0]

        if len(fg_inds) > num_fg:　　　　　　　　　　　　　　　　　　　　　　　　#从所有label为1的anchor中选择128个，剩下的anchor的label全部置为-1

            disable_inds = npr.choice(

                fg_inds, size=(len(fg_inds) - num_fg), replace=False)

            labels[disable_inds] = -1

        # subsample negative labels if we have too many

        num_bg = cfg.TRAIN.RPN_BATCHSIZE - np.sum(labels == 1)#这里num_bg不是直接设为128，而是256减去label为1的个数，这样如果label为1的不够，就用label为0的填充，这个代码实现很巧

        bg_inds = np.where(labels == 0)[0]

        if len(bg_inds) > num_bg:　　　　　　　　　　　　　　　　　　 #将没被选择作为训练的anchor的label置为-1

            disable_inds = npr.choice(

                bg_inds, size=(len(bg_inds) - num_bg), replace=False)

            labels[disable_inds] = -1

            #print "was %s inds, disabling %s, now %s inds" % (

                #len(bg_inds), len(disable_inds), np.sum(labels == 0))

论文中说从所有anchor中随机选取256个anchor，前景128个，背景128个。注意：那种label为-1的不会当前景也不会当背景。

这两段代码是前一部分是在所有前景的anchor中选128个，后一部分是在所有的背景achor中选128个。如果前景的个数少于了128个，就把所有的anchor选出来，差的由背景部分补。这和fast rcnn选取roi一样。

这是论文中rpn的loss函数：

这个loss函数和fast rcnn中的loss函数差不多，所以在计算的时候是每个坐标单独进行smoothL1计算，所以参数Pi*和Nreg必须弄成4维的向量，并不是在论文中的就一个数值

        bbox_inside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)

        bbox_inside_weights[labels == 1, :] =     np.array(cfg.TRAIN.RPN_BBOX_INSIDE_WEIGHTS)

        bbox_outside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)

        if cfg.TRAIN.RPN_POSITIVE_WEIGHT < 0:

            # uniform weighting of examples (given non-uniform sampling)

            num_examples = np.sum(labels >= 0)

            positive_weights = np.ones((1, 4)) * 1.0 / num_examples

            negative_weights = np.ones((1, 4)) * 1.0 / num_examples

        else:

            assert ((cfg.TRAIN.RPN_POSITIVE_WEIGHT > 0) &

                    (cfg.TRAIN.RPN_POSITIVE_WEIGHT < 1))

            positive_weights = (cfg.TRAIN.RPN_POSITIVE_WEIGHT /

                                np.sum(labels == 1))

            negative_weights = ((1.0 - cfg.TRAIN.RPN_POSITIVE_WEIGHT) /

                                np.sum(labels == 0))

        bbox_outside_weights[labels == 1, :] = positive_weights

        bbox_outside_weights[labels == 0, :] = negative_weights

bbox_inside_weights实际上指的就是Pi*，bbox_outside_weights指的是Nreg。

论文中说如果anchor是前景，Pi*就是1，为背景，Pi*就是0。label为-1的，在这个代码来看也是设置为0，应该是在后面不会参与计算，这个设置为多少都无所谓。

Nreg是进行标准化操作，就是取平均。这个平均是把所有的label 0和label 1加起来。因为选的是256个anchor做训练，所以实际上这个值是1/256。

值得注意的是，rpn网络的训练是256个anchor，128个positive，128个negative。但anchor_target_layer层的输出并不是只有256个anchor的label和坐标变换，而是所有的anchor。其中_unmap函数就很好体现了这一点。那训练的时候怎么实现训练这256个呢？实际上，这一层的4个输出，rpn_labels是需要输出到rpn_loss_cls层，其他的3个输出到rpn_loss_bbox，label实际上就是loss function前半部分中的Pi*（即计算分类的loss），这是一个log loss，为-1的label是无法进行log计算的，剩下的0、1就直接计算，这一部分实现了256。loss function后半部分是计算bbox坐标的loss，Pi*，也就是bbox_inside_weights，论文中说了activated only for positive anchors，只有为正例的anchor才去计算坐标的损失，这是Pi*是1，其他情况都是0

bbox_inside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)

bbox_inside_weights[labels == 1, :] = np.array(cfg.TRAIN.RPN_BBOX_INSIDE_WEIGHTS)

这段代码也体现了这个思想，所以这也实现了256。

可以这样去理解：anchor_target_layer输出的是所有anchor的label，bbox_targets。但真正进行了loss计算的只有那256个anchor。可以看下面这个loss函数，i是anchor的下标，这个i计算是计算了所有的anchor的，但只有那256个才真正改变了loss值，其他的都是0。

_unmap函数：因为all_anchors裁减掉了2/3左右，仅仅保留在图像内的anchor。这里就是将其复原作为下一层的输入了，并reshape成相应的格式。

anchor_target_layer层其他部分解读的更多相关文章

anchor_target_layer层解读
总结下来,用generate_anchors产生多种坐标变换,这种坐标变换由scale和ratio来,相当于提前计算好.anchor_target_layer先计算的是从feature map映射到原 ...
Tensorflow-slim 学习笔记（二）第一层目录代码解读
通过阅读代码来学习,一向时最直接快速的.本章将讲解slim的第一层目录tensorflow/tensorflow/contrib/slim/python/slim的代码. 本层代码主要包括learni ...
OSI七层协议大白话解读
参考链接:https://www.cnblogs.com/zx125/p/11295985.html 国际标准化组织(ISO)制定了osi七层模型,iso规定了各种各样的协议,并且分了7层应用层应 ...
proposal_layer.py层解读
proposal_layer层是利用训练好的rpn网络来生成region proposal供fast rcnn使用. proposal_layer整个处理过程:1.生成所有的anchor,对ancho ...
caffe︱ImageData层、DummyData层作为原始数据导入的应用
Part1:caffe的ImageData层 ImageData是一个图像输入层,该层的好处是,直接输入原始图像信息就可以导入分析. 在案例中利用ImageData层进行数据转化,得到了一批数据. 但 ...
数据通讯与网络第五版第24章传输层协议-UDP协议部分要点
24.1 介绍本章节主要集中于传输层协议的解读,图24.1展示TCP.UDP.SCTP在TCP\IP协议栈的位置 24.1.1 服务(Service) 每个协议都提供不同的服务,所以应该合理正确的使 ...
ERNIE代码解析
原创作者 |疯狂的Max ERNIE代码解读考虑到ERNIE使用BRET作为基础模型,为了让没有基础的NLPer也能够理解代码,笔者将先为大家简略的解读BERT模型的结构,完整代码可以参见[1]. ...
v87.01 鸿蒙内核源码分析 (内核启动篇) | 从汇编到 main () | 百篇博客分析 OpenHarmony 源码
本篇关键词:内核重定位.MMU.SVC栈.热启动.内核映射表内核汇编相关篇为: v74.01 鸿蒙内核源码分析(编码方式) | 机器指令是如何编码的 v75.03 鸿蒙内核源码分析(汇编基础) | ...
BiLSTM-CRF模型中CRF层的解读
转自: https://createmomo.github.io/ BiLSTM-CRF模型中CRF层的解读: 文章链接: 标题:CRF Layer on the Top of BiLSTM - 1 ...

随机推荐

codeforces 689A A. Mike and Cellphone(水题)
题目链接: A. Mike and Cellphone time limit per test 1 second memory limit per test 256 megabytes input s ...
BZOJ：2819 NIM（树链剖分||DFS序 &&NIM博弈）
著名游戏设计师vfleaking,最近迷上了Nim.普通的Nim游戏为:两个人进行游戏,N堆石子,每回合可以取其中某一堆的任意多个,可以取完,但不可以不取.谁不能取谁输.这个游戏是有必胜策略的.于是v ...
Spring-AOP解析
策略模式:选择动态代理还是CGLIB方式: 1.这种在运行时,动态地将代码切入到类的指定方法.指定位置上的编程思想就是面向切面的编程. 2.AOP基本上是通过代理机制实现的 3.写好验证用户的代码,然 ...
【SCOI 2003】严格n元树
[题目链接] 点击打开链接 [算法] f[i]表示深度小于等于i的严格n元树显然,一棵深度小于等于i的严格n元树,就是一个根节点,下面有n棵子树,这n棵子树都是深度小于等于i-1的严格n元树,每棵子 ...
Java多线程系列八——volatile和ThreadLocal
参考资料: http://ifeve.com/java-memory-model-4/ http://www.infoq.com/cn/articles/java-memory-model-1 htt ...
windows server 2003 修改远程链接端口
服务器默认的远程链接的端口是3389,只能内网访问,外网不能访问,现映射了8400端口给服务器,内外网都可以访问,因此需要修改服务器的远程链接的端口. 运行中输入:regedit 选择十进制,将33 ...
bzoj 1997: [Hnoi2010]Planar【瞎搞+黑白染色】
脑补一下给出的图:一个环,然后有若干连接环点的边,我们就是要求这些边不重叠考虑一下不重叠的情况,两个有交边一定要一个在环内一个在环外,所以把相交的边连边,然后跑黑白染色看是否能不矛盾即可(可能算个2 ...
[Usaco2005 Jan]Muddy Fields泥泞的牧场
Description 雨连续不断的击打了放牛的牧场,一个R行C列的格子(1<=R<=50,1<=C<=50).虽然这对草来说是件好事,但这却使得一些没有草遮盖的土地变得很泥泞 ...
_bzoj2818 Gcd【线性筛法欧拉函数】
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=2818 若gcd(x, y) = 1,则gcd(x * n, y * n) = n.那么,当y ...
文件输入输出C++操作
基于C++的文件操作在C++中,有一个stream这个类,所有的I/O都以这个"流"类为基础的,包括我们要认识的文件I/O,stream这个类有两个重要的运算符: 1.插入器(& ...

anchor_target_layer层其他部分解读

anchor_target_layer层其他部分解读的更多相关文章

随机推荐

热门专题