【CV论文阅读】：Rich feature hierarchies for accurate object detection and semantic segmentation

R-CNN总结

不总结就没有积累

R-CNN的全称是 Regions with CNN features。它的主要基础是经典的AlexNet，使用AlexNet来提取每个region特征，而不再是传统的SIFT、SURF的特征。同时，还利用了AlexNet本来的功能：分类，这时所得的分类结果相当于预分类。最后，由于每个Region是有边界的，使用SVM对其进行分类得到一个score，定位每个物体的bounding box。

预处理：

先看一看AlexNet的网络结构

可以看到，它的输入图像是一个224*224*3的3通道的图像，包含有五层的卷积层，两层的全连接层，最后输出是softmax层。

R-CNN开始对图片进行提取region，称为Region proposal，并且使用的是selective search。对每张region图片warp，可以认为是调整图片的大小，但论文上提到的图片的大小是227*227，与AlexNet有一点区别。在图片warp之前，会先扩张bounding box的大小为p=16个像素。我猜这是为了消除图像的边缘效应。

训练：

这里会先做pre-training。Pre-training的好处是可以加快训练的速度，参数可以直接从其他AlexNet迁移过来，也可以重新训练，AlexNet的类别数是1000的。从图中的结构看出，最后输出的特征向量有4096维。

AlexNet的参数训练完之后，就更改它的类别数（论文使用21维，包括20维的类别，和一维的背景）。这时使用有监督训练微调参数（fine tuning），这个fine tuning我认为是由于初始的学习率较小吧，是0.001。有监督训练会涉及到类别的问题（因为这里网络最后的结果还是分类），于是，当region proposal和人工标注的ground truth 的IOU（即交集/并集）大于等于0.5时，把相应的region标记为正的，即有类别的，否则标记为负样例即background。训练的方法使用随机梯度下降的方式，与AlexNet类似，可以参考文献《ImageNet Classification with Deep Convolutional Neural Networks》。

训练的一个batch的大小为128，其中包括38个正样例，和90个负样例。（batch代表批，训练一批又叫1 iteration，所有的批训练了一次成为epoch）。

得到region即bounding box的类别之后，使用SVM训练一个二分类的分类器。算法为每一个类别都训练一个SVM分类器，注意，SVM训练的数据是经过R-CNN提取特征的4096维特征向量。此处SVM标记为负样例的阈值为IOU小于0.3，而正样例直接取ground truth box的region。训练的过程如下图：

测试：

测试的过程相对简单，对每一张图片进行region proposal之后，一般是2000个region proposal，使用R-CNN提取每个region proposal的4096维特征向量。使用SVM分类器进行分类，对得到的每个bounding box（region proposal本身是有边界的）都有一个score，在排序前先把那些IOU低于某个阈值的bounding box去掉。然后再使用非极大值抑制的方法选出最好的bounding box，从而实现定位。

论文中还做了一个对比实验，就是如果只提取特征用于分类，对于最后一个pooling层和两个全连接层fc6、fc7，当没有fine-tuning时，发现三者的分类精度其实差不多，但是如果有fine-tuning时，加入全连接层所提取的特征所得的精度会高很多。

减少定位错误：

这里定位错误使用了一种方法叫做bounding box regression，而且使用的特征就是pooling层提取的特征向量（这里是为什么呢？）。

关于bounding box regression的内容来自

http://blog.csdn.net/u011534057/article/details/51235964，这篇文章里说的很好。

【CV论文阅读】：Rich feature hierarchies for accurate object detection and semantic segmentation的更多相关文章

论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation
在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程 ...
深度学习论文翻译解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构 ...
2 - Rich feature hierarchies for accurate object detection and semantic segmentation（阅读翻译）
Rich feature hierarchies for accurate object detection and semantic segmentation Ross Girshick Jeff ...
目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Te ...
论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进 ...
论文笔记（一）---翻译 Rich feature hierarchies for accurate object detection and semantic segmentation
论文网址: https://arxiv.org/abs/1311.2524 RCNN利用深度学习进行目标检测. 摘要可以将ImageNet上的进全图像分类而训练好的大型卷积神经网络用到PASCAL的 ...
R-CNN（Rich feature hierarchies for accurate object detection and semantic segmentation）论文理解
论文地址:https://arxiv.org/pdf/1311.2524.pdf 翻译请移步: https://www.cnblogs.com/xiaotongtt/p/6691103.html ht ...
目标检测论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation
背景在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红 ...

随机推荐

mysql之命令行导入导出
命令介绍 mysqldump:导出命令,在系统”命令提示符“窗口直接使用,如果提示没有此命令(前提是已经安装成功mysql),在环境变量中的path添加mysql,即path=D:\xxx\mysql ...
实用and常用shell命令汇编
很久没写blog了,基本都在用 github和笔记.现在将一些常用的shell并且很使用的shell用法分享一下: 分行读取,切割,计数: cat product.txt | while read l ...
Verification Mind Games---how to think like a verifier像验证工程师一样思考
1. 有效的验证需要验证工程师使用不同于设计者的思维方式思考问题.具体来说,验证更加关心在严格遵循协议的基础上发现设计里面的bug,搜索corner cases,对设计的不一致要保持零容忍的态度. m ...
好用的sublime插件以及快捷键
管理插件:使用Ctrl+`(Esc键下方)快捷键或者通过View->Show Console菜单打开命令行 import urllib.request,os,hashlib; h = '2915 ...
02Servlet
Servlet Servlet(Server Applet)是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,具有独立于平台和协议的特性,主要功能在于交互式地 ...
【转载】Java下利用Jackson进行JSON解析和序列化
参考资料: https://blog.csdn.net/sdut406/article/details/85647982 Java下常见的Json类库有Gson.JSON-lib和Jackson等,J ...
top命令的用法
top命令的用法 2018年07月15日 09:50:04 zhuoya_ 阅读数:1858 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/z ...
RC: blkio throttle 测试
本文将测试一下使用cgroup的blkio组来控制IO吞吐量 : 测试环境CentOS 7.x x64 创建一个继承组 [root@150 rg1]# cd /sys/fs/cgroup/blkio/ ...
ionic3视频播放功能
因为项目的需要,需要使用视频播放的功能,使用的是videogular2插件,但是报了一个无法识别video-player 这个标签,百度了很多,发现原来是版本不对,ionic3是以来angular5 ...
NOIP 2008 传纸条(洛谷P1006,动态规划递推,滚动数组)
题目链接:P1006 传纸条 PS:伤心,又想不出来,看了大神的题解 AC代码: #include<bits/stdc++.h> #define ll long long using na ...

【CV论文阅读】：Rich feature hierarchies for accurate object detection and semantic segmentation

【CV论文阅读】：Rich feature hierarchies for accurate object detection and semantic segmentation的更多相关文章

随机推荐

热门专题