OHEM论文笔记

引言
- Fast R-CNN设计思路
一、动机
二、现有方案hard negative mining 及其窘境
- hard negative mining实现
- 窘境
设计思路
- OHEM步骤：
反向传播
实验结果

引言

Fast R-CNN设计思路

Fast R-CNN将整张图片和选择性搜索算法提取出来的候选区域作为输入，对整张图片利用卷积+池化的组合提取特征，产生一个feature map（特征层），结合选择性搜索算法提取出来的候选区域位置，从feature map中选择对应位置的特征（红色框）送到RoI pooling层
因为后面的全连接层需要固定大小的输入，所以作者在RoI pooling层对其采用了特殊的处理。即将\(h \times w\)输入划分成固定的输出大小\(H \times W\)，这样\(H \times W\)的每个单元格中包含了\(h/H \times w/W\)个元素，对其中的元素进行maxpool，就得到了固定的输出大小\(H \times W\)。
将RoI pooling后的输出送入全连接层后在两个子网络分别进行输出和回归。

一、动机

目标检测领域一个经典的问题，难易样本不均衡。

二、现有方案hard negative mining 及其窘境

hard negative mining实现

固定模型，去寻找难样本添加到样本集中
在上一步中选出的样本集中更新模型
重复以上步骤直到满足条件如模型性能不再上升

窘境

固定模型寻找难样本对于目标检测计算量太大，一个图片有约\(2k+\)个候选区域，其次因为难样本RoI与对应的图片关联，没有办法单独保存难RoI到样本集中去，要想学习难样本必须对对应图片再来一次候选区域提取和卷积特征提取，并对不需要再学习的简单样本来一次梯度更新，想想都很麻烦还慢。所以Fast R-CNN中没有用。不过Fast R-CNN采用了一个正负样本1：3的设计。

设计思路

由以上分析可以看出来，这种交替执行寻找难样本的方法在Fast R-CNN中实现是不现实的，如果能在线学习的话，就可以解决掉这个问题。下面是作者的思路

OHEM步骤：

提取N张图片的特征，提取RoI
对所有的RoI计算loss，然后选择其中表现最差（\(loss=l_{cls}+l_{reg}\)最大）的B/N个RoI。
然后利用选择出来的B/N个RoI更新网络
重复2-3步骤
对于第二步，作者说因为卷积特征提取层的参数共享，前向传播计算所有loss的计算量很小。
这里有个注意事项是，因为相邻的RoI很可能拥有相邻的loss，对loss进行选择的时候容易重复选择，所以采用了NMS的方法，将IoU大于0.7的loss低的RoI移除了。
另一个问题是，如果只是简单的将其他没有被选择的RoI的loss置为零，但是仍然会对所有RoI分配空间存储参数并进行反向传播计算，这十分不高效。所以，作者设计了一个新的结构来优化上述结构。

作者设计了一个只进行前向传播的结构（绿色）和一个用来进行反向更新的结构（红色）。红色和绿色的部分网络完全相同且共享权重参数。前向结构用来计算所有RoI的loss，然后从中挑出B/N个loss最大的RoI送到红色的结构中进行反向传播，这样，进行反向传播的就只有B/N个RoI了，从而减少了计算量。作者实验表明，使用这种方法与不使用相比，空间占用差不多，但是快了两倍多。

反向传播

看不懂Fast R-CNN的反向传播，暂时先空着。

实验结果

其中N表示一次采样几张图片，LR是学习率，B是batch_size，bg_lo是Fast R-CNN中正负样本划分的值，[bg_lo, 0,5）被认为是负样本。可以看到网络精度提升了2个百分点。

推理时间慢了一点，但也不是特别多。

OHEM论文笔记的更多相关文章

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...
论文笔记(2)：A fast learning algorithm for deep belief nets.
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm ...
论文笔记：Towards Diverse and Natural Image Descriptions via a Conditional GAN
论文笔记:Towards Diverse and Natural Image Descriptions via a Conditional GAN ICCV 2017 Paper: http://op ...

随机推荐

Mybatis框架配置讲解以及使用
1.什么是Mybatis MyBatis 是一款优秀的持久层框架, 它支持定制化 SQL.存储过程以及高级映射. MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集.·MyB ...
Activity--Eclipse安装Activity designer插件失败
案例今天使用Eclipse 安装Activity designer插件时,出现了如下错误: An error occurred while collecting items to be instal ...
JQuery--50个必备的实用jQuery代码段.
原文出处:http://my.oschina.net/chengjiansunboy/blog/55496?p=2#comments 1. 如何修改jQuery默认编码(例如默认UTF-8改成改GB2 ...
Arduino系列之中断函数
今天我将简单记录中断函数函数分为外部中断和定时中断外部中断的定义:一般由外设发出中断请求,如:键盘中断.打印机中断.外部中断需外部中断源发出中断请求才能发中断. 定时中断的定义:是指主程序在运行一 ...
实验14：VLAN间的路由
实验11-1: 单臂路由实现VLAN 间路由 Ø 实验目的通过本实验,读者可以掌握如下技能:(1) 路由器以太网接口上的子接口(2) 单臂路由实现VLAN 间路由的配置Ø 实验拓扑实验步 ...
死磕java(7)
http://www.cnblogs.com/liunanjava/p/4296045.html 自己写的例子 package com.sougn.trynew; public abstract cl ...
LUA提取免费迅雷账号
--获取http://www.521xunlei.com/ 免费迅雷账号 function getPageid() local http = require("socket.http&quo ...
ubuntu 如何搭建svn 服务器
1.在终端中直接输入 sudo apt-get install subversion,选择安装即可来这个subversion同时包含了服务端和客户端. 2.(可选)看版本命令 svnserve - ...
List<E> 、Set<E>和Map<K,E>的简单应用
题目一: 创建两个线性表,分别存储{“chen”,“wang”,“liu”,“zhang”}和{“chen”,“hu”,“zhang”},求这两个线性表的交集和并集. 代码: List_Test.ja ...
POJ_3450_KMP
http://poj.org/problem?id=3450 直接暴力枚举第一行的每一个字串,在下面的字符串中查找就行了,注意不符合就及时break. 然后试了一下strstr,发现效率是KMP的3- ...