前言 懒癌翻了,这篇不想写overview了,公式也比较多,今天有(zhao)点(jie)累(kou),不想一点点写latex啦,读论文的时候感觉文章不错,虽然看似很多数学公式,其实都是比较基础的公式,文章也比较细,从网上找了两篇较好的讲解,引用连接在每篇文章前面. 文章1 https://www.cnblogs.com/guoyaohua/p/8724433.html#undefined Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性.虽然有…
这篇经典论文,甚至可以说是2015年最牛的一篇论文,早就有很多人解读,不需要自己着摸,但是看了论文原文Batch normalization: Accelerating deep network training by reducing internal covariate shift 和下面的这些解读之后,还有感觉有些不明白.比如, 是怎么推导出来的,我怎么就是没搞懂呢? 1.论文翻译:论文笔记-Batch Normalization 2.博客专家 黄锦池 的解读:深度学习(二十九)Batch…
Droupout与Batch Normalization都是深度学习常用且基础的训练技巧了.本文将从理论和实践两个角度分布其特点和细节. Droupout 2012年,Hinton在其论文中提出Dropout.当一个复杂的前馈神经网络被训练在小的数据集时,容易造成过拟合.为了防止过拟合,可以通过阻止特征检测器的共同作用来提高神经网络的性能. Droupout是一种针对深度学习广泛应用的正则化技术.在每次迭代时随机关闭一些神经单元,随着迭代的进行,由于其他神经元可能在任何时候都被关闭,因此神经元对…
神经网络中还有一些激活函数,池化函数,正则化和归一化函数等.需要详细看看,啃一啃吧.. 1. 激活函数 1.1 激活函数作用 在生物的神经传导中,神经元接受多个神经的输入电位,当电位超过一定值时,该神经元激活,输出一个变换后的神经电位值.而在神经网络的设计中引入了这一概念,来增强神经网络的非线性能力,更好的模拟自然界.所以激活函数的主要目的是为了引入非线性能力,即输出不是输入的线性组合. 假设下图中的隐藏层使用的为线性激活函数(恒等激活函数:a=g(z)),可以看出,当激活函数为线性激活函数时,…
在神经网络的训练过程中,总会遇到一个很蛋疼的问题:梯度消失/爆炸.关于这个问题的根源,我在上一篇文章的读书笔记里也稍微提了一下.原因之一在于我们的输入数据(网络中任意层的输入)分布在激活函数收敛的区域,拿 sigmoid 函数举例: 如果数据分布在 [-4, 4] 这个区间两侧,sigmoid 函数的导数就接近于 0,这样一来,BP 算法得到的梯度也就消失了. 之前的笔记虽然找到了原因,但并没有提出解决办法.最近在实战中遇到这个问题后,束手无策之际,在网上找到了这篇论文 Batch Normal…
批标准化(Bactch Normalization,BN)是为了克服神经网络加深导致难以训练而诞生的,随着神经网络深度加深,训练起来就会越来越困难,收敛速度回很慢,常常会导致梯度弥散问题(Vanishing Gradient Problem). 统计机器学习中有一个经典的假设:Source Domain 和 Target Domain的数据分布是一致的.也就是说,训练数据和测试数据是满足相同分布的.这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障. Convariate Shi…
前置阅读:http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现 前置阅读:http://www.zhihu.com/question/38102762——知乎网友 Deep Learning与Bayesian Learning在很多情况下是相通的,随着Deep Learning理论的发展, 我们看到,Deep Learning越来越像Bayesian Learning的一个子集,Deep Learni…
Inception V2网络中的代表是加入了BN(Batch Normalization)层,并且使用 2个 3*3卷积替代 1个5*5卷积的改进版,如下图所示: 其特点如下: 学习VGG用2个 3*3卷积代替 Inception V1中的 5*5大卷积.这样做在减少参数(3*3*2+2 –> 5*5+1)的同时可以建立更多的非线性变换,增强网络对特征的学习能力.如下图所示,2个 3*3卷积的效果与一个 5*5 卷积的效果类似: 在 Inception V1中加入BN层,以减少 Internal…
1 - 背景 摘要:因为随着前面层的参数的改变会导致后面层得到的输入数据的分布也会不断地改变,从而训练dnn变得麻烦.那么通过降低学习率和小心地参数初始化又会减慢训练过程,而且会使得具有饱和非线性模型的训练变得很困难.我们将这种现象叫做internal covariate shift.BN通过对输入进行归一化从而解决这个问题.在这其中,作者试图让归一化成为模型结构的一部分,并且对每个训练的mini-batch都进行归一化.最后的结果是bn方法可以让我们使用更大的学习率和不用那么小心的初始化.而且…
概述 第一,在保持原有速度的优势之下,精度上得以提升.VOC 2007数据集测试,67FPS下mAP达到76.8%,40FPS下mAP达到78.6%,可以与Faster R-CNN和SSD一战 第二,提出了一种目标分类与检测的联合训练方法.通过这种方法,YOLO9000可以同时在COCO和ImageNet数据集中进行训练,训练后的模型可以实现多达9000种物体的实时检测. 速览YOLOv1步骤 (1) 将图像划分成7 * 7的网格. (2) 每个网格预测2个bouding box(每个box包含…