Normalization（归一化）

写这一篇的原因是以前只知道一个Batch Normalization，自以为懂了。结果最近看文章，又发现一个Layer Normalization，一下就懵逼了。搞不懂这两者的区别。后来是不查不知道，一查吓一跳，Normalization的方法五花八门，Batch Normalization, Layer Normalization, Weight Normalization, Cosine Normalization, Instance Normalization, Group Normlization, Switchable Normlization.... 估计我没看到的还有很多。而且郁闷的是，感觉越看越不懂了...

这里简单记录一下目前的理解与问题。

白化

白化的目的是希望特征符合独立同分布i.i.d条件。包括:

去除特征之间的相关性 —> 独立；
使得所有特征具有相同的均值和方差 —> 同分布。

这里我有了第一个问题。什么叫做去除特征之间的相关性?
比如，有两个输入向量，X1=(x11,x12,x13,x14), X2=(x21,x22,x23,x24)
去除特征之间的相关性，只是去除x11,x12,x13,x14之间的相关性，还是去除x11和x21的相关性？

Normalization的好处

使得数据更加符合独立同分布条件，减少internal corvariate shift导致的偏移
使数据远离激活函数的饱和区，加快速度。(我理解是只对sigmoid这样的激活函数有效，对relu则没有加速作用了)

Normalization基本公式

\[h=f(g\frac{x-\mu}{\sigma}+b)\]

\(\mu\):均值
\(\sigma\):方差根
\(b\): 再平移参数，新数据以\(b\)为均值
\(g\): 再缩放参数，新数据以\(g^2\)为方差
归一化后的目标就是统一不同\(x\)之间的均值和方差

加入\(g\)和\(b\)的目的是使数据一定程度偏离激活函数的线性区，提高模型表达能力。因为均值是0的话正好落在sigmoid函数的线性部分。

第二个问题，g和b是根据什么确定的，是trainable的吗？

Batch Normalization

Batch Normalization是针对不同batch导致的数据偏移做归一化的方式。比如，一个batch有3个输入，每个输入是一个长度为4的向量。
\(X1=(x11,x12,x13,x14)\)
\(X2=(x21,x22,x23,x24)\)
\(X3=(x31,x32,x33,x34)\)

在上述条件下，归一化时的均值是：
\(\mu=(\frac{x11+x21+x31}{3},\frac{x12+x22+x32}{3},\frac{x13+x23+x33}{3},\frac{x14+x24+x34}{3})\)

这里主要展示一下计算时的方向，即对于每个元素位置，对不同的输入做归一化。方差同理。

第三个问题，很多文章都说batch norm需要在batch size较大，不同batch之间均值方差相差不大的情况下效果好。
即batch的均值方差跟整体的均值方差一致时效果好。
这我就不懂了，无论之前每个batch的分布是怎样的，经过归一化，都已经是相同分布了。为什么一定要原始batch之间分布相似呢？

Batch norm有个缺点，即需要记录每一个batch输入的均值和方差，对于变长的RNN网络来说计算麻烦。

第四个问题：为什么要记录每个batch的均值和方差？对RNN效果不好仅仅因为麻烦吗？
我个人理解BN在RNN上效果不好的原因是，虽然RNN训练时网络深度很深，但实际上只有一个神经元节点，相当于把所有层的神经元的均值和方差设定为相同的值了，导致效果不佳。

如果是图像，则输入是一个四维矩阵，(batch_size, channel_size, weight, height),此时batch norm是针对同一个batch的不同输入中属于同一通道的元素做归一化。如下图，是一个batch_size=2, channel_size=6, weight=5, height=3的例子。一次batch norm是对所有橙色部分元素做归一化。

Layer Normalization

Layer Normalization是针对同一个输入的不同维度特征的归一化方式。还是用上面的例子。
对于\(X1\)来说，layer norm的归一化均值是： \(\mu=\frac{x11+x12+x13+x14}{4}\)

对于图像来说，则是对一个输入的所有元素做归一化。如下图橙色部分：

Instance Norm

对一个输入图像的一个通道中的所有元素做归一化。如下图橙色部分：

Group Norm

对于一个输入图像的多个通道元素做归一化。如下图橙色部分:

Weight Norm

前面的归一化方法都是从不同维度对输入数据做归一化，而weight norm则是对权重做归一化。

Cosine Norm

抛弃了权重和输入点积的计算方式，改用其他函数。

参考文献

【算法】Normalization的更多相关文章

【转载】详解BN（Batch Normalization）算法
原文地址: http://blog.csdn.net/hjimce/article/details/50866313 作者:hjimce ------------------------------- ...
Batch Normalization原理及其TensorFlow实现——为了减少深度神经网络中的internal covariate shift，论文中提出了Batch Normalization算法，首先是对”每一层“的输入做一个Batch Normalization 变换
批标准化(Bactch Normalization,BN)是为了克服神经网络加深导致难以训练而诞生的,随着神经网络深度加深,训练起来就会越来越困难,收敛速度回很慢,常常会导致梯度弥散问题(Vanish ...
Batch Normalization的算法本质是在网络每一层的输入前增加一层BN层（也即归一化层），对数据进行归一化处理，然后再进入网络下一层，但是BN并不是简单的对数据进行求归一化，而是引入了两个参数λ和β去进行数据重构
Batch Normalization Batch Normalization是深度学习领域在2015年非常热门的一个算法,许多网络应用该方法进行训练,并且取得了非常好的效果. 众所周知,深度学习是应 ...
常见的几种 Normalization 算法
神经网络中有各种归一化算法:Batch Normalization (BN).Layer Normalization (LN).Instance Normalization (IN).Group No ...
归一化方法 Normalization Method
1. 概要数据预处理在众多深度学习算法中都起着重要作用,实际情况中,将数据做归一化和白化处理后,很多算法能够发挥最佳效果.然而除非对这些算法有丰富的使用经验,否则预处理的精确参数并非显而易见. 2. ...
从Bayesian角度浅析Batch Normalization
前置阅读:http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现前置阅读:http://www.zhih ...
一个关于AdaBoost算法的简单证明
下载本文PDF格式(Academia.edu) 本文给出了机器学习中AdaBoost算法的一个简单初等证明,需要使用的数学工具为微积分-1. Adaboost is a powerful algori ...
PCA算法
本文出处:http://blog.csdn.net/xizhibei http://www.cnblogs.com/bourneli/p/3624073.html PrincipalComponent ...
SIFT算法：DoG尺度空间生产
SIFT算法:DoG尺度空间生产 SIFT算法:KeyPoint找寻.定位与优化 SIFT算法:确定特征点方向 SIFT算法:特征描述子目录: 1.高斯尺度空间(GSS - Gauss Scal ...

随机推荐

单元测试报错NoSuchBeanDefinitionException
问题在SpringBoot项目开发时,使用单元测试来运行一个Service,发现调用的一个Bean就是找不到,报错为: org.springframework.beans.factory.NoSuc ...
mybatis-generator自动生成代码插件
mybatis自动生成代码(实体类.Dao接口等)是很成熟的了,就是使用mybatis-generator插件. 它是一个开源的插件,使用maven构建最好,可以很方便的执行插件官方简介: http ...
openstack虚拟机内核崩溃问题解决
openstack对接的kvm虚拟化环境,创建虚拟机后无法进如系统,一直卡在call Trace . 解决办法: 更改配置文件的cpu-model,libvirt_cpu_mode = custom ...
哈尔滨工程大学第十四届程序设计竞赛（同步赛）F 小帆帆走迷宫(dp)
题目描述小帆帆被困在一个 NxN 的方格矩阵迷宫,每个格子中都有一个整数 A[i][j].小帆帆从迷宫起点(左上角)格子 A[1][1]开始走,每一步可以向右或向下移动,目标是移动到迷宫的出口右下角 ...
CF1114D 【Flood Fill】
Solution 一看就是很水的区间DP \(dp[i][j]\)表示区间\([l,r]\)都涂成同色的代价. \(dp[i][j] = min( dp[i][j], dp[i][k] + dp[k] ...
Quick RF Tips for General Reference
传送门:http://www.microwavetools.com/rf-tips-to-make-you-look-smart/ 全文搬运过来的,本篇文章并未有其它意义和目的,仅作为个人参考笔记,我 ...
分享自己总结的PMP项目管理20个G的资料，本人去年过的pmp认证，过了5A
版权归作者所有,任何形式转载请联系作者. 我在去年6月拿到的pmp证书,5A的,现在来分享下自己的资料. 这些资料是从我开始学习,到问了很多朋友.老人,到后来报班学习,再到之后做项目管理中总结的很多经 ...
spring Boot 入门--为什么用spring boot
为什么用spring boot 回答这个问题不得不说下spring 假设你受命用Spring开发一个简单的Hello World Web应用程序.你该做什么? 我能想到一些基本的需要.  一个项目 ...
npm install 时出现的 EACCES: permission denied 错误的可能有效的解决方案
最近我开始接触手机 app 的编写,公司用到了 Nativescript.当我下载了公司的项目后,在配置时出现了不少的问题,其中出现概率最高的就是 EACCES: permission denied ...
解决SkyP2M工程常见问题所参考的博客汇总
工程是基于64位的 1 Error 26 error C2491: 'HUDManager::_viewport' : definition of dllimport static data memb ...

【算法】Normalization