Batch Normalization

Batch Normalization是深度学习领域在2015年非常热门的一个算法，许多网络应用该方法进行训练，并且取得了非常好的效果。

众所周知，深度学习是应用随机梯度下降法对网络进行训练，尽管随机梯度下降训练神经网络非常有效，但是它有一个缺点，就是需要人为的设定很多参数，比如学习率，权重衰减系数，Dropout比例等。这些参数的选择对训练结果至关重要，以至于训练的大多数精力都耗费在了调参上面。BN算法就可以完美的解决这些问题。

当我们使用了BN算法，我们可以去选择比较大的初始学习率，这样就会加快学习的速度；我们还可以不必去理会过拟合中的dropout、正则项约束问题等，因为BN算法可以提高网络的泛化能力；我们再也不需要使用局部响应归一化层，因为BN本身就是归一化的网络；还可以打乱训练数据，防止每批训练的时候，某一个样本经常被选到。

通常在训练神经网络之前，我们都会对数据进行归一化处理，为什么呢？因为神经网络训练实际是为了学习数据的分布情况，一旦训练数据与测试数据分布不同，那么网络的泛化能力也会大大降低。另外，如果每一批的训练数据都不同，那么神经网络就会去适应不同训练数据的分布，这样就会大大降低网络训练的速度。

深度学习的训练是一个复杂的过程，如果前几层的数据分布发生了变化，那么后面就会积累下去，不断放大，这样就会导致神经网络在训练过程中不断适应新的数据分布，影响网络训练的速度。

但是在网络训练的过程中，参数会不断的调整，除了输入层数据之外，后面网络每一层的输入分布在不断变化的（因为后面层的输入时前面层的输出，前面层的参数调整了，后面层的输入数据分布就会发生变化）。这样就会降低网络训练的速度。因此，BN算法就被提出。

BN的算法本质是在网络每一层的输入前增加一层BN层（也即归一化层），对数据进行归一化处理，然后再进入网络下一层，但是BN并不是简单的对数据进行求归一化，而是引入了两个参数λ和β去进行数据重构，具体公式如下：

那么为什么要引入这两个参数呢？因为网络中某一层学习到的特征本来就在S型函数两端，如果强行进行归一化处理，那么就会破坏这一层中学到的特征。而加入了这两个参数，可以将学到的特征重新映射回原来的网络所学习到的特征分布，因此不会破坏原来学到的特征。

实验表明，Batch Normalization效果惊人的好，训练速度可以达到原来的十倍以上。

Batch Normalization的算法本质是在网络每一层的输入前增加一层BN层（也即归一化层），对数据进行归一化处理，然后再进入网络下一层，但是BN并不是简单的对数据进行求归一化，而是引入了两个参数λ和β去进行数据重构的更多相关文章

【转载】详解BN（Batch Normalization）算法
原文地址: http://blog.csdn.net/hjimce/article/details/50866313 作者:hjimce ------------------------------- ...
深度学习之Batch Normalization
在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差.而在深层神经网络的训练中,当中间神经层的前一层参数 ...
Batch Normalization 学习笔记
原文:http://blog.csdn.net/happynear/article/details/44238541 今年过年之前,MSRA和Google相继在ImagenNet图像识别数据集上报告他 ...
优化深度神经网络（三）Batch Normalization
Coursera吴恩达<优化深度神经网络>课程笔记(3)-- 超参数调试.Batch正则化和编程框架 1. Tuning Process 深度神经网络需要调试的超参数(Hyperparam ...
激活函数，Batch Normalization和Dropout
神经网络中还有一些激活函数,池化函数,正则化和归一化函数等.需要详细看看,啃一啃吧.. 1. 激活函数 1.1 激活函数作用在生物的神经传导中,神经元接受多个神经的输入电位,当电位超过一定值时,该神 ...
deeplearning.ai 改善深层神经网络 week3 超参数调试、Batch Normalization和程序框架
这一周的主体是调参. 1. 超参数:No. 1最重要,No. 2其次,No. 3其次次. No. 1学习率α:最重要的参数.在log取值空间随机采样.例如取值范围是[0.001, 1],r = -4* ...
Batch Normalization原理及其TensorFlow实现——为了减少深度神经网络中的internal covariate shift，论文中提出了Batch Normalization算法，首先是对”每一层“的输入做一个Batch Normalization 变换
批标准化(Bactch Normalization,BN)是为了克服神经网络加深导致难以训练而诞生的,随着神经网络深度加深,训练起来就会越来越困难,收敛速度回很慢,常常会导致梯度弥散问题(Vanish ...
从Bayesian角度浅析Batch Normalization
前置阅读:http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现前置阅读:http://www.zhih ...
Batch Normalization
一.BN 的作用 1.具有快速训练收敛的特性:采用初始很大的学习率,然后学习率的衰减速度也很大 2.具有提高网络泛化能力的特性:不用去理会过拟合中drop out.L2正则项参数的选择问题 3.不需要 ...

随机推荐

3、Collection接口中的功能概述
package cn.itcast_01; import java.util.ArrayList; import java.util.Collection; /** * 集合: * 由于我们使用的是面 ...
guice整合struts2与jpa，guice的使用（九）
传统我们开发一般使用ssh,但是有些微服务应用的项目我们不需要这么臃肿的框架做开发,于是采用了guice+struts2+guice作为框架组合进行了开发. 先看我们项目引用的jar包: 使用的时候一 ...
size_t与size_type的使用
size_t 是为了方便系统之间的移植而定义的在32位系统上定义为 unsigned int在64位系统上定义为 unsigned long 更准确地说法是在 32位系统上是32位无符号整形在 ...
MemCached总结二：数据管理指令
管理memcached中的数据包括添加(add).修改(set).删除(delete)及获取(get)等操作. 命令格式: 1.set set userId 0 0 5 12345 STORED ge ...
继承&封装
扩展一个已有的类,并且继承该类的属性和行为这种方式成为继承. 实例 public class Polygon { public int sides; public double area; publi ...
00--Linux常用命令大全
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS ...
基于Nginx的SSL虚拟主机
通过私钥,证书对站点www.test.com的所有数据加密,实现通过https访问www.test.com 环境说明: 源码安装Nginx时必须使用--with-http_ssl_module参数,启 ...
jquery里面的选择器
jQuery 元素选择器 jQuery 使用 CSS 选择器来选取 HTML 元素. $("p") 选取 <p> 元素. $("p.intro") ...
vc++如何创建程序-构造函数02
1.若忘记了赋值,出现运行结果是很大的负值(因为我们定义的x与y这两个成员变量存储在内存中是一个随机的值) 当我们调用时,随机输出. //包含输入输出的头文件#include<iostream. ...
洛谷P1850 换教室_数学期望_Floyd
调了一下午QAQ-让我对数学期望的理解又提升了一个层次. 首先,我们发现 v<=300v<=300v<=300 , 这样我们就可以用 FloydFloydFloyd 算法来 O(n3 ...

Batch Normalization的算法本质是在网络每一层的输入前增加一层BN层（也即归一化层），对数据进行归一化处理，然后再进入网络下一层，但是BN并不是简单的对数据进行求归一化，而是引入了两个参数λ和β去进行数据重构

Batch Normalization

随机推荐

热门专题