SPP-net论文总结】的更多相关文章

论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺寸是固定的(因为全连接网络要求输入大小是固定的) crop处理,可能不包含整个物体,还会丢失上下文信息 warping处理,会导致图像变形 以上都会导致CNN对不同scale/size泛化能力不强   于是SPP做了如下改进,即将SPP层加在最后一个卷积层后面,然后再送入FC网络.  优点 不管输入…
很久之前试着写一篇深度学习的基础知识,无奈下笔之后发现这个话题确实太大,今天发一篇最近看的论文Fast RCNN.这篇文章是微软研究院的Ross Girshick大神的一篇作品,主要是对RCNN的一些改进,但是效果十分明显,paper和项目的地址都能从Ross Girshick的主页找到:http://people.eecs.berkeley.edu/~rbg/ 刚刚接触深度学习,难免纰漏很多,还请大神指教. 自己的百度云里也有一些相关内容http://pan.baidu.com/s/1o79N…
Faster R-CNN论文翻译   Faster R-CNN是互怼完了的好基友一起合作出来的巅峰之作,本文翻译的比例比较小,主要因为本paper是前述paper的一个简单改进,方法清晰,想法自然.什么想法?就是把那个一直明明应该换掉却一直被几位大神挤牙膏般地拖着不换的选择性搜索算法,即区域推荐算法.在Fast R-CNN的基础上将区域推荐换成了神经网络,而且这个神经网络和Fast R-CNN的卷积网络一起复用,大大缩短了计算时间.同时mAP又上了一个台阶,我早就说过了,他们一定是在挤牙膏. F…
本文为您解读SPP-net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Motivation 神经网络在计算机视觉方面的成功得益于卷积神经网络,然而,现有的许多成功的神经网络结构都要求输入为一个固定的尺寸(比如224x224,299x299),传入一张图像,需要对它做拉伸或者裁剪,再输入到网络中进行运算. 然而,裁剪可能会丢失信息,拉伸会使得图像变形,这些因素都提高了视觉任务的门槛,…
想直接看公式的可跳至第三节 3.公式修正 一.为什么需要SPP 首先需要知道为什么会需要SPP. 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对数据大小有要求的则是第一个全连接层,因此基本上所有的CNN都要求输入数据固定大小,例如著名的VGG模型则要求输入数据大小是 (224*224) . 固定输入数据大小有两个问题: 1.很多场景所得到数据并不是固定大小的,例如街景文字基本上其高宽比是不固定的,如下图示红色框出的文字. 2.可能你会说可以…
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/51036677 摘要 该文提出了一个快速的基于区域框的卷积网络用于目标检测任务.Fast RCNN使用深度卷积网络对proposals进行分类.相比先前的工作,Fast R-CNN在提高准确率的基础上提高了训练和测试的速度.在VGG19的网络中,Fast R-CNN训练时间比R-CNN快9倍,而测试要快2…
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…
Faster RCN已经将特征抽取(feature extraction),proposal提取,bounding box regression(rect refine),classification都整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显. 图1 Faster CNN基本结构(来自原论文) Faster RCNN其实可以分为4个主要内容: Conv layers.作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+poolin…
一直对Fast RCNN中ROI Pooling层不解,不同大小的窗口输入怎么样才能得到同样大小的窗口输出呢,今天看到一篇博文讲得挺好的,摘录一下,方便查找. Introduction 在一般的CNN结构中,在卷积层后面通常连接着全连接.而全连接层的特征数是固定的,所以在网络输入的时候,会固定输入的大小(fixed-size).但在现实中,我们的输入的图像尺寸总是不能满足输入时要求的大小.然而通常的手法就是裁剪(crop)和拉伸(warp). 这样做总是不好的:图像的纵横比(ratio aspe…
faster rcnn中的rpn网络: 特征可以看做一个尺度51*39的256通道图像,对于该图像的每一个位置,考虑9个可能的候选窗口:三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1}.这些候选窗口称为anchors.下图示出51*39个anchor中心,以及9种anchor示例. 讲解RPN网络比较好的博客:https://blog.csdn.net/sloanqin/article/details/51545125 RCNN的缺点: 1.图像wrap的问题 2.计…