1. 摘要 在使用非常小(3×3)的卷积核情况下,作者对逐渐增加网络的深度进行了全面的评估,通过设置网络层数达 16-19 层,最终效果取得了显著提升. 2. 介绍 近来,卷积神经网络在大规模图像识别领域取得了巨大的成功,这一方面归功于大规模公开数据的出现,另一方面则是计算能力的提升.在 AlexNet 的基础上大家进行了很多的尝试来进行改进,一条线是在卷积层利用更小的感知窗口和更小的步长,另一条线则是在整张图片上进行训练然后测试的时候采用多尺度.在本文中,作者则集中于卷积神经网络的另一个方面-…
Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in this task according to this metric; authors are willing to reveal the method White background = authors are willing to reveal the method Grey background…
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zisserman[§] Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 用于大规模图像识别的深度卷积网络 Karen Simonyan[‡] &am…
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun  The 13th European Conference on Computer Vision (ECCV), 2014 声明:本文所有图片均来自原始文章,自己的理解也未必正确,请查看原图并拍砖 本文的两个亮点: 1. 多尺度训练CN…
Very Deep Convolutional Networks for Large-Scale Image Recognition 转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/39736509 这篇论文是今年9月份的论文[1],比較新,当中的观点感觉对卷积神经网络的參数调整大有指导作用,特总结之.关于卷积神经网络(Convolutional Neural Network, CNN),笔者后会作文阐述之,读者若心急则或可用谷歌百度一…
2014-VGG-<Very deep convolutional networks for large-scale image recognition>翻译 原文:http://xueshu.baidu.com/s?wd=paperuri%3A%282801f41808e377a1897a3887b6758c59%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.…
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 引用: He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition." IEEE…
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度.   用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…
<DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks>研读笔记 论文标题:DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks 来源:ICCV 2017 摘要: 尽管手机中的嵌入式照相机的性能在快速地发展,但是它们所受到的物理限制——较小的感光器件,精简的镜头和缺少特定的硬件——制约着手机的相机拍出与DSLR(单反)同…
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神经网络中的空间金字塔池 论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 论文地址:https://arxiv.org/pdf/1406.4729.pdf SPP的GitHub地址:https://github.com/yueruc…
目录 摘要 一.前言 1.1直接获取3D数据的传感器 1.2为什么用3D数据 1.3目前遇到的困难 1.4现有的解决方法及存在的问题 二.本文idea 2.1 idea来源 2.2 初始思路 2.3 改进的思路 2.4 进一步创新 2.5 本文贡献 三.PointConv 3.1 2D图像与3D点云的区别 3.2 3D连续卷积 -> 点云卷积 3.2.1 原始PointConv 3.2.2 高效的PointConv 3.2.3 PointDeConv 四.实验 4.1 在ModelNet40上的…
论文原址:https://arxiv.org/abs/1409.1556 代码原址:https://github.com/machrisaa/tensorflow-vgg 摘要 本文主要分析卷积网络的深度对基于大数据集分类任务中准确率的影响,本文使用较小的卷积核(3x3), 应用至较深的网络中并进行评估,将网络中的深度增加至16至19层,可以有效改进分类效果. 介绍 卷积网络在大规模图片/视频分类任务中取得巨大成功的原因主要有,(1)大规模的图像数据,像ImageNet(2)高性能的计算资源(G…
由Andrew Zisserman 教授主导的 VGG 的 ILSVRC 的大赛中的卷积神经网络取得了很好的成绩,这篇文章详细说明了网络相关事宜. 文章主要干了点什么事呢?它就是在在用卷积神经网络下,在采用小的卷积核与小的移动步长的情况下,探索一下网络的深度对目标识别率的影响. 网络的大体结构 网络的输入为224*224的RGB图片,后面跟卷积层,卷积核的大小基本都为3*3有最小的可以保留图片空间分瓣率的卷积核,步长为1个像素,偶尔会有1*1的卷积核,这就相当于加入了一个非线性变换而已.再往后接…
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…
0 - ABSTRACT 在这个工作中,我们研究了卷积网络的深度对于它在大规模图像识别设置上的准确率的效果.我们的主要贡献是对使用非常小的卷积核(3×3)来增加深度的网络架构进行彻底评估,这说明了通过将深度增加到16-19层能够比之前最好的业界水平更好.这些发现是我们参加ImageNet Challenge 2014的基础,在这个比赛中我们团队在定位和分类追踪任务上分别获得了第一和第二的名次.我们也表明了我们的模型可以很好的扩展到其他数据集上,并都达到了最佳的水平.我们已经将我们的两个效果最好的…
VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,是ILSVRC-2014中定位任务第一名和分类任务第二名.本文的主要贡献点就是使用小的卷积核(3x3)来增加网络的深度,并且可以有效提高网络的性能,而且在其他数据集上也有很好的泛化能力. 总结本文,能为网络带来比较好的方法有: 1) 加深网络的深度(网络太深,可能造成过拟合,需要小心): 2) 将较大的卷积核替换为小的卷积核,比如3x3,效果会变好,参数也会降低: 3) 使用1x1卷积,可以为网络增加非线性,某…
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 以前的CNNs都要求输入图像尺寸固定,这种硬性要求也许会降低识别任意尺寸图像的准确度.为避免这个问题,何凯明等人在该论文中提出了一种池化策略,"spatial pyramid pooling(SSP)",即空间金字塔池化.带有该池化层的网络被称为SPPnet,对任何尺寸的输入图像都能生成固定长度的特征表示.由此可见,理论上SPPnet可以改进所有基于CNN的图像分类等方法中…
论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺寸是固定的(因为全连接网络要求输入大小是固定的) crop处理,可能不包含整个物体,还会丢失上下文信息 warping处理,会导致图像变形 以上都会导致CNN对不同scale/size泛化能力不强   于是SPP做了如下改进,即将SPP层加在最后一个卷积层后面,然后再送入FC网络.  优点 不管输入…
vggNet是从AlexNet而来,主要探索卷积神经网络的深度与性能之间的关系,通过反复堆叠3x3的卷积核(c中有1x1的卷积核,也只有c中有,c是16层)和2x2的最大池化层,vggNet构筑了16-19层深的卷积神经网络. 3x3卷积核:the smallest size to capture the notion of left/right,up/down,center 1x1卷积核:can be seen as a linear transformation of th input ch…
摘要: 在这篇论文我们主要研究卷积神级网络的深度对大范围图像识别效果的影响,我们发现增加神经网络层数增加到16-19层时我们的实验结果有很大的提高.这使得我们在2014年的ImageNet Challenge中取得了定位第一和分类第二的成绩. 动机: 卷积神经网络可能因为有了大量的公开图像库而取得了巨大的成功,一些图像识别比赛比如ILSVRC为图像识别系统提供了测试.卷积神经网络在计算机视觉领域更多的是变成了一个商品,很多提升卷积神经网络的准确性的尝试被提了出来,本文提出的一个尝试是增加神经网络…
背景 用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入. 方法 首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化:然而,后面的FC层却需要固定长度的…
1. https://www.cnblogs.com/gongxijun/p/7172134.html (SPP 原理) 2.https://www.cnblogs.com/chaofn/p/9305374.html (SPP原理) 3.https://blog.csdn.net/wait_ButterFly/article/details/81461988 (卷积核参数计算)…
Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 理解深度卷积神经网络中的有效感受野 Abstract摘要 We study characteristics of receptive fields of units in deep convolutional networks. The receptive field size is a crucial issue in many vis…
CNN综述文章 的翻译 [2019 CVPR] A Survey of the Recent Architectures of Deep Convolutional Neural Networks 翻译 综述深度卷积神经网络架构:从基本组件到结构创新 目录 摘要    1.引言    2.CNN基本组件        2.1 卷积层        2.2 池化层        2.3 激活函数        2.4 批次归一化        2.5 Dropout        2.6 全连接层…
ImageNet Classification with Deep Convolutional Neural Networks 深度卷积神经网络的ImageNet分类 Alex Krizhevsky University of Toronto 多伦多大学 kriz@cs.utoronto.ca Ilya Sutskever University of Toronto 多伦多大学 ilya@cs.utoronto.ca Geoffrey E. Hinton University of Toront…
ImageNet Classification with Deep Convolutional Neural Networks 摘要 我们训练了一个大型深度卷积神经网络来将ImageNet LSVRC-2010竞赛的120万高分辨率的图像分到1000不同的类别中.在测试数据上,我们得到了top-1 37.5%, top-5 17.0%的错误率,这个结果比目前的最好结果好很多.这个神经网络有6000万参数和650000个神经元,包含5个卷积层(某些卷积层后面带有池化层)和3个全连接层,最后是一个1…
Residual Networks Welcome to the second assignment of this week! You will learn how to build very deep convolutional networks, using Residual Networks (ResNets). In theory, very deep networks can represent very complex functions; but in practice, the…
R-FCN: Object Detection via Region-based Fully Convolutional Networks 摘要 我们提出了基于区域的全卷积网络,以实现准确和高效的目标检测.与先前的基于区域的检测器(如Fast/Faster R-CNN [6,18])相比,这些检测器应用昂贵的每个区域子网络数百次,我们的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享.为了实现这一目标,我们提出了位置敏感分数图,以解决图像分类中的平移不变性与目标检测中的平移变化之间的困…
Fully Convolutional Networks for Semantic Segmentation 译文 Abstract   Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed…
摘要 卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有效的推理和学习产生相应尺寸的输出.我们定义并指定全卷积网络的空间,解释它们在空间范围内dense prediction任务(预测每个像素所属的类别)和获取与先验模型联系的应用.我们改编当前的分类网络(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到完…