深度学习网络层之 Batch Normalization

Batch Normalization

Ioffe 和 Szegedy 在2015年《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》论文中提出此方法来减缓网络参数初始化的难处.

Batch Norm优点

减轻过拟合
改善梯度传播（权重不会过高或过低）
容许较高的学习率，能够提高训练速度。
减轻对初始化权重的强依赖
作为一种正则化的方式，在某种程度上减少对dropout的使用。

Batch Norm层摆放位置

在激活层（如 ReLU ）之前还是之后，没有一个统一的定论。在原论文中提出在非线性层之前（CONV_BN_RELU），而在实际编程中很多人可能放在激活层之后(BN_CONV_RELU)。

Batch Norm原理

内部协转移（Internal Covariate Shift）：由于训练时网络参数的改变导致的网络层输出结果分布的不同。这正是导致网络训练困难的原因。

对输如进行白化（whiten：0均值，单位标准差，并且decorrelate去相关）已被证明能够加速收敛速度，参考Efficient backprop. （LeCun et al.1998b）和 A convergence anal-ysis of log-linear training.（Wiesler & Ney,2011）。由于白化中去除相关性类似PCA等操作，在特征维度较高时计算复杂度较高，因此提出了两种简化方式：1）对特征的每个维度进行归一化，忽略白化中的去除相关性；2）在每个mini-batch中计算均值和方差来替代整体训练集的计算.

batch normalization中即使不对每层的输入进行去相关，也能加速收敛。通俗的理解是在网络的每一层的输入都做了归一化预处理。

unit gaussian activations:
\[
\hat x^{(k)}=\frac{x^{(k)}-E[x^{(k)}]}{\sqrt{\operatorname{Var[x^{(k)}]}}}
\]

公式中k为通道channel数。

\[
\text{Batch Normalizing Transform} \\
\begin{align}
u &= \frac{1}{m}\sum_{i=1}^m x_i &\text{//mini-batch mean} \\
var &= \frac{1}{m} \sum_{i=1}^m (x_i - u)^2 &\text{//mini-batch variance} \\
\hat{x_i} &= \frac{x_i - u}{\sqrt{var + \epsilon}} &\text{//normalize} \\
y_i &= \gamma \hat{x_i} + \beta &\text{//scale and shift}
\end{align}
\]
其中ϵ是为了防止方差为0导致数值计算的不稳定而添加的一个小数，如1e−6。可以看做是在原网络中插入了一个

注意，在对每层的输入进行正则化之后会改变特征的表示，如对sigmoid输入进行正则化后将数据限制在进行线性的区域，这样改变了原始特征的分布。如下图所示：

论文中引入了两个可学习的参数\(\gamma , \beta\)来还原原始特征分布。这两个参数学习的目标即为\(\gamma=\sqrt{\text{Var}[x]}、 \beta=\mathbb E[x]\).原来的分布方差和均值由前层的各种参数weight耦合控制，而现在仅由\(\gamma , \beta\)控制，这样在保留BN层足够的学习能力的同时，我们使得其学习更加容易。因此，加速收敛并非由于计算量减少（反而由于增加了参数增加了计算量）。梯度计算如下：

在训练时计算mini-batch的均值和标准差并进行反向传播训练，而测试时并没有batch的概念，训练完毕后需要提供固定的\(\bar\mu,\bar\sigma\)供测试时使用。论文中对所有的mini-batch的\(\mu_\mathcal B,\sigma^2_\mathcal B\)取了均值(m是mini-batch的大小,\(\bar\sigma^2\)采用的是无偏估计)：
\[
\begin{align}
\bar\mu &=\mathbb E[\mu_\mathcal B] \\
\bar\sigma^2 &={m\over m-1}\mathbb E[\sigma^2_\mathcal B]
\end{align}
\]
测试阶段，同样要进行归一化和缩放平移操作，唯一不同之处是不计算均值和方差，而使用训练阶段记录下来的\(\bar\mu,\bar\sigma\)。
\[
\begin{align}
y&=γ({x-\bar\mu\over\sqrt{\bar\sigma^2+ϵ}})+ β \\
&={γ\over\sqrt{\bar\sigma^2+ϵ}}\cdot x+(β-{γ\bar\mu\over\sqrt{\bar\sigma^2+ϵ}})
\end{align}
\]

caffe框架中该层全局均值和方差的实现

与论文计算 global 均值和 global 方差的方式不同之处在于，Caffe 中的 global 均值和 global 方差采用的是滑动衰减平均的更新方式，设滑动衰减系数moving_average_fraction 为 λ，当前的 mini-batch 的均值和方差分别为 \(\mu_B,\sigma_B^2\)：
\[
\mu_{new} = \lambda \mu_{old} + \mu_B \\
\sigma_{new}^2 =
\begin{cases}
\lambda \sigma_{old}^2 + \frac{m - 1}{m} \sigma_B^2 & m > 1 \\
\lambda \sigma_{old}^2 & m = 1
\end{cases}
\]

Batch Norm在卷积层的应用

前边提到的mini-batch说的是神经元的个数，而卷积层中是堆叠的多个特征图，共享卷积参数。如果每个神经元使用一对\(\gamma , \beta\)参数，那么不仅多，而且冗余。可以在channel方向上取m个特征图作为mini-batch,对每一个特征图计算一对参数。这样减少了参数的数量。

应用举例-VGG16

为VGG16结构模型添加Batch Normalization。

重新完全训练.如果想将BN添加到卷基层，通常要重新训练整个模型，大概花费一周时间。
finetune.只将BN添加到最后的几层全连接层，这样可以在训练好的VGG16模型上进行微调。采用ImageNet的全部或部分数据按batch计算均值和方差作为BN的初始\(\beta,\gamma\)参数。