Feature Extractor[ResNet]】的更多相关文章

0. 背景 众所周知,深度学习,要的就是深度,VGG主要的工作贡献就是基于小卷积核的基础上,去探寻网络深度对结果的影响.而何恺明大神等人发现,不是随着网络深度增加,效果就好的,他们发现了一个违背直觉的现象. 图0.1 不同层数的传统网络下的结果表现 最开始,我们认为随着深度的增加,网络效果不好,那是因为存在着梯度消失和梯度爆炸的原因.不过随着大家的努力,这些问题可以通过归一化初始化(即用特定的初始化算法)和归一化层(Batch Normailzation)来极大的缓解. 可是,我们仍然能够发现随…
0. 背景 何凯明大神等人在提出了ResNet网络结构之后,对其做了进一步的分析工作,详细的分析了ResNet 构建块能起作用的本质所在.并通过一系列的实验来验证恒等映射的重要性,并由此提出了新的构建块模型使得网络能够更容易训练和更好的泛化性能(比如不同于ResNet v1中对cifar-10的学习率的谨慎,这里更加放开了). 图0.1 v1中的残差构建块和v2中建议的残差构建块 如图0.1所示,在ResNet v1中,构建块是通过将之前层的\(x\)连接到后面跳过至少2层的输出,然后将和放入激…
0.背景 随着CNN变得越来越深,人们发现会有梯度消失的现象.这个问题主要是单路径的信息和梯度的传播,其中的激活函数都是非线性的,从而特别是乘法就可以使得随着层数越深,假设将传统的神经网络的每一层看成是自动机中的一个状态.那么对于整个神经网络来说,输入到输出就是一个输入态不断的转移到输出态的一个过程.假设其中每一层都是有个变率,即缩放因子.那么: 变率大于1,层数越多,越呈现倍数放大趋势,比如爆炸: 变率小于1,层数越多,越呈现倍数缩小趋势,比如消失: 而传统以往的卷积神经网络都是单路径的,即从…
0.背景 这个模型是<Deep Learning高质量>群里的牛津大神Weidi Xie在介绍他们的VGG face2时候,看到对应的论文<VGGFace2: A dataset for recognising faces across pose and age>中对比实验涉及到的SENet,其结果比ResNet-50还好,所以也学习学习. github上的SENet CNN是通过用局部感受野,基于逐通道基础上,去融合空间信息来提取信息化的特征,对于图像这种数据来说很成功.不过,为…
0. AlexNet 1. VGG VGG网络相对来说,结构简单,通俗易懂,作者通过分析2013年imagenet的比赛的最好模型,并发现感受野还是小的好,然后再加上<network in network>中的\(1*1\)卷积核,使得全文只在卷积网络的深度上做文章,从而得出了网络还是越深越好的结论 VGG 2. Inception 与VGG同期出来的有googlenet,该网络通过关注减少模型参数,而不降低模型性能的角度出发,设计出了inception结构,提出了googlenet: 然后g…
0. 背景 Karen Simonyan等人在2014年参加Imagenet挑战赛的时候提出的深度卷积神经网络.作者通过对2013年的ILSVRC中最好的深度神经网络模型(他们最初的对应模型都是alexnet)进行研究,发现他们使用了更小的感受野,并且在第一层卷积层中使用了更小的stride,也就是这两点都有助于准确度的提升.所以本文就不去做无用功,从网络的深度去挖掘CNN模型的提升空间,并且发现当网络深度在超过16层时,有明显的提升效果,故而如果截取当前16层的网络,就被称之为VGG16. 从…
0 - 背景 在经过了inception v1的基础上,google的人员还是觉得有维度约间的空间,在<Rethinking the Inception Architecture for Computer Vision>一文中,通过卷积分解.网格约间等方式来修改inception模块.当然了在BN那篇论文的附录部分也多少涉及到v2的设计方向. 因为第一篇论文并没有详细说明设计inception v1的一些具体原理,而其主要是从如何减小模型的参数量上下手,所以v3上对这部分做了个简单的原则说明:…
0. 背景 随着何凯明等人提出的ResNet v1,google这边坐不住了,他们基于inception v3的基础上,引入了残差结构,提出了inception-resnet-v1和inception-resnet-v2,并修改inception模块提出了inception v4结构.基于inception v4的网络实验发现在不引入残差结构的基础上也能达到和inception-resnet-v2结构相似的结果,从而认为何凯明等人认为的: "要想得到深度卷积网络必须使用残差结构" 这一…
David Lowe(SIFT 的提出者) 0. 图像金字塔变换(matlab) matlab 对图像金字塔变换接口的支持(impyramid),十分简单好用. 其支持在reduce和expand两种方式的变换,分别是成比例的缩小和放大. % 加载图像数据到内存 I = imread('cameraman.tif'); size(I) % reduce ==> {2, 4, 8} I1 = impyramid(I, 'reduce'); size(I1) I2 = impyramid(I1, '…
1 - V1 google团队在模型上,更多考虑的是实用性,也就是如何能让强大的深度学习模型能够用在嵌入式或者移动设备上.传统的想增强模型的方法无非就是深度和宽度,而如果简单的增加深度和宽度,那么带来的更大参数要训练和需要更强大的计算资源去计算.所以,google团队要做的就是如何在保证模型准确度的情况下减少模型参数. 解决模型复杂和计算资源两个问题的基本方法是:将全连接转换成稀疏连接的结构,甚至在卷积层中都希望有稀疏链接的结构.除了说这是模仿生物结构的一方面,这样的好处还有更加支持了arora…