批量归一化（BatchNormalization）

对输入的标准化（浅层模型）

处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。

标准化处理输入数据使各个特征的分布相近

批量归一化（深度模型）

利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

1.对全连接层做批量归一化

位置：全连接层中的仿射变换和激活函数之间。

全连接：

x=Wu+boutput=ϕ(x)
\boldsymbol{x} = \boldsymbol{W\boldsymbol{u} + \boldsymbol{b}} \\
output =\phi(\boldsymbol{x})
x=Wu+boutput=ϕ(x)

批量归一化：

output=ϕ(BN(x))
output=\phi(\text{BN}(\boldsymbol{x}))output=ϕ(BN(x))

y(i)=BN(x(i))
\boldsymbol{y}^{(i)} = \text{BN}(\boldsymbol{x}^{(i)})
y(i)=BN(x(i))

μB←1m∑i=1mx(i),
\boldsymbol{\mu}_\mathcal{B} \leftarrow \frac{1}{m}\sum_{i = 1}^{m} \boldsymbol{x}^{(i)},
μB←m1i=1∑mx(i),

σB2←1m∑i=1m(x(i)−μB)2,
\boldsymbol{\sigma}_\mathcal{B}^2 \leftarrow \frac{1}{m} \sum_{i=1}^{m}(\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B})^2,
σB2←m1i=1∑m(x(i)−μB)2,

x^(i)←x(i)−μBσB2+ϵ,
\hat{\boldsymbol{x}}^{(i)} \leftarrow \frac{\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B}}{\sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}},
x^(i)←σB2+ϵx(i)−μB,

这⾥ϵ > 0是个很小的常数，保证分母大于0

y(i)←γ⊙x^(i)+β.
{\boldsymbol{y}}^{(i)} \leftarrow \boldsymbol{\gamma} \odot
\hat{\boldsymbol{x}}^{(i)} + \boldsymbol{\beta}.
y(i)←γ⊙x^(i)+β.

引入可学习参数：拉伸参数γ和偏移参数β。若γ=σB2+ϵ\boldsymbol{\gamma} = \sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}γ=σB2+ϵ和β=μB\boldsymbol{\beta} = \boldsymbol{\mu}_\mathcal{B}β=μB，批量归一化无效。

2.对卷积层做批量归⼀化

位置：卷积计算之后、应⽤激活函数之前。

如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数。

计算：对单通道，batchsize=m,卷积计算输出=pxq

对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。

3.预测时的批量归⼀化

训练：以batch为单位,对每个batch计算均值和方差。

预测：用移动平均估算整个训练数据集的样本均值和方差。

从零实现

#目前GPU算力资源预计17日上线，在此之前本代码只能使用CPU运行。

#考虑到本代码中的模型过大，CPU训练较慢，

#我们还将代码上传了一份到 https://www.kaggle.com/boyuai/boyu-d2l-deepcnn

#如希望提前使用gpu运行请至kaggle。

import time

import torch

from torch import nn, optim

import torch.nn.functional as F

import torchvision

import sys

sys.path.append("/home/kesci/input/")

import d2lzh1981 as d2l

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def batch_norm(is_training, X, gamma, beta, moving_mean, moving_var, eps, momentum):

    # 判断当前模式是训练模式还是预测模式

    if not is_training:

        # 如果是在预测模式下，直接使用传入的移动平均所得的均值和方差

        X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)

    else:

        assert len(X.shape) in (2, 4)

        if len(X.shape) == 2:

            # 使用全连接层的情况，计算特征维上的均值和方差

            mean = X.mean(dim=0)

            var = ((X - mean) ** 2).mean(dim=0)

        else:

            # 使用二维卷积层的情况，计算通道维上（axis=1）的均值和方差。这里我们需要保持

            # X的形状以便后面可以做广播运算

            mean = X.mean(dim=0, keepdim=True).mean(dim=2, keepdim=True).mean(dim=3, keepdim=True)

            var = ((X - mean) ** 2).mean(dim=0, keepdim=True).mean(dim=2, keepdim=True).mean(dim=3, keepdim=True)

        # 训练模式下用当前的均值和方差做标准化

        X_hat = (X - mean) / torch.sqrt(var + eps)

        # 更新移动平均的均值和方差

        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean

        moving_var = momentum * moving_var + (1.0 - momentum) * var

    Y = gamma * X_hat + beta  # 拉伸和偏移

    return Y, moving_mean, moving_var

class BatchNorm(nn.Module):

    def __init__(self, num_features, num_dims):

        super(BatchNorm, self).__init__()

        if num_dims == 2:

            shape = (1, num_features) #全连接层输出神经元

        else:

            shape = (1, num_features, 1, 1)  #通道数

        # 参与求梯度和迭代的拉伸和偏移参数，分别初始化成0和1

        self.gamma = nn.Parameter(torch.ones(shape))

        self.beta = nn.Parameter(torch.zeros(shape))

        # 不参与求梯度和迭代的变量，全在内存上初始化成0

        self.moving_mean = torch.zeros(shape)

        self.moving_var = torch.zeros(shape)

    def forward(self, X):

        # 如果X不在内存上，将moving_mean和moving_var复制到X所在显存上

        if self.moving_mean.device != X.device:

            self.moving_mean = self.moving_mean.to(X.device)

            self.moving_var = self.moving_var.to(X.device)

        # 保存更新过的moving_mean和moving_var, Module实例的traning属性默认为true, 调用.eval()后设成false

        Y, self.moving_mean, self.moving_var = batch_norm(self.training,

            X, self.gamma, self.beta, self.moving_mean,

            self.moving_var, eps=1e-5, momentum=0.9)

        return Y

基于LeNet的应用

net = nn.Sequential(

            nn.Conv2d(1, 6, 5), # in_channels, out_channels, kernel_size

            BatchNorm(6, num_dims=4),

            nn.Sigmoid(),

            nn.MaxPool2d(2, 2), # kernel_size, stride

            nn.Conv2d(6, 16, 5),

            BatchNorm(16, num_dims=4),

            nn.Sigmoid(),

            nn.MaxPool2d(2, 2),

            d2l.FlattenLayer(),

            nn.Linear(16*4*4, 120),

            BatchNorm(120, num_dims=2),

            nn.Sigmoid(),

            nn.Linear(120, 84),

            BatchNorm(84, num_dims=2),

            nn.Sigmoid(),

            nn.Linear(84, 10)

        )

print(net)

Sequential(

  (0): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))

  (1): BatchNorm()

  (2): Sigmoid()

  (3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

  (4): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))

  (5): BatchNorm()

  (6): Sigmoid()

  (7): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

  (8): FlattenLayer()

  (9): Linear(in_features=256, out_features=120, bias=True)

  (10): BatchNorm()

  (11): Sigmoid()

  (12): Linear(in_features=120, out_features=84, bias=True)

  (13): BatchNorm()

  (14): Sigmoid()

  (15): Linear(in_features=84, out_features=10, bias=True)

)

#batch_size = 256

##cpu要调小batchsize

batch_size=16

def load_data_fashion_mnist(batch_size, resize=None, root='/home/kesci/input/FashionMNIST2065'):

    """Download the fashion mnist dataset and then load into memory."""

    trans = []

    if resize:

        trans.append(torchvision.transforms.Resize(size=resize))

    trans.append(torchvision.transforms.ToTensor())

    transform = torchvision.transforms.Compose(trans)

    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True, download=True, transform=transform)

    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False, download=True, transform=transform)

    train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=2)

    test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=2)

    return train_iter, test_iter

train_iter, test_iter = load_data_fashion_mnist(batch_size)

lr, num_epochs = 0.001, 5

optimizer = torch.optim.Adam(net.parameters(), lr=lr)

d2l.train_ch5(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

简洁实现

net = nn.Sequential(

            nn.Conv2d(1, 6, 5), # in_channels, out_channels, kernel_size

            nn.BatchNorm2d(6),

            nn.Sigmoid(),

            nn.MaxPool2d(2, 2), # kernel_size, stride

            nn.Conv2d(6, 16, 5),

            nn.BatchNorm2d(16),

            nn.Sigmoid(),

            nn.MaxPool2d(2, 2),

            d2l.FlattenLayer(),

            nn.Linear(16*4*4, 120),

            nn.BatchNorm1d(120),

            nn.Sigmoid(),

            nn.Linear(120, 84),

            nn.BatchNorm1d(84),

            nn.Sigmoid(),

            nn.Linear(84, 10)

        )

optimizer = torch.optim.Adam(net.parameters(), lr=lr)

d2l.train_ch5(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

残差网络（ResNet）

深度学习的问题：深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高，反而会招致网络收敛变得更慢，准确率也变得更差。

残差块（Residual Block）

恒等映射：

左边：f(x)=x

右边：f(x)-x=0 （易于捕捉恒等映射的细微波动）

在残差块中，输⼊可通过跨层的数据线路更快地向前传播。

class Residual(nn.Module):  # 本类已保存在d2lzh_pytorch包中方便以后使用

    #可以设定输出通道数、是否使用额外的1x1卷积层来修改通道数以及卷积层的步幅。

    def __init__(self, in_channels, out_channels, use_1x1conv=False, stride=1):

        super(Residual, self).__init__()

        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1, stride=stride)

        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)

        if use_1x1conv:

            self.conv3 = nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride)

        else:

            self.conv3 = None

        self.bn1 = nn.BatchNorm2d(out_channels)

        self.bn2 = nn.BatchNorm2d(out_channels)

    def forward(self, X):

        Y = F.relu(self.bn1(self.conv1(X)))

        Y = self.bn2(self.conv2(Y))

        if self.conv3:

            X = self.conv3(X)

        return F.relu(Y + X)

blk = Residual(3, 3)

X = torch.rand((4, 3, 6, 6))

blk(X).shape # torch.Size([4, 3, 6, 6])

torch.Size([4, 3, 6, 6])

blk = Residual(3, 6, use_1x1conv=True, stride=2)

blk(X).shape # torch.Size([4, 6, 3, 3])

torch.Size([4, 6, 3, 3])

ResNet模型

卷积(64,7x7,3)

批量一体化

最大池化(3x3,2)

残差块x4 (通过步幅为2的残差块在每个模块之间减小高和宽)

全局平均池化

全连接

net = nn.Sequential(

        nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),

        nn.BatchNorm2d(64),

        nn.ReLU(),

        nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

def resnet_block(in_channels, out_channels, num_residuals, first_block=False):

    if first_block:

        assert in_channels == out_channels # 第一个模块的通道数同输入通道数一致

    blk = []

    for i in range(num_residuals):

        if i == 0 and not first_block:

            blk.append(Residual(in_channels, out_channels, use_1x1conv=True, stride=2))

        else:

            blk.append(Residual(out_channels, out_channels))

    return nn.Sequential(*blk)

net.add_module("resnet_block1", resnet_block(64, 64, 2, first_block=True))

net.add_module("resnet_block2", resnet_block(64, 128, 2))

net.add_module("resnet_block3", resnet_block(128, 256, 2))

net.add_module("resnet_block4", resnet_block(256, 512, 2))

net.add_module("global_avg_pool", d2l.GlobalAvgPool2d()) # GlobalAvgPool2d的输出: (Batch, 512, 1, 1)

net.add_module("fc", nn.Sequential(d2l.FlattenLayer(), nn.Linear(512, 10)))

X = torch.rand((1, 1, 224, 224))

for name, layer in net.named_children():

    X = layer(X)

    print(name, ' output shape:\t', X.shape)

0  output shape:	 torch.Size([1, 64, 112, 112])

1  output shape:	 torch.Size([1, 64, 112, 112])

2  output shape:	 torch.Size([1, 64, 112, 112])

3  output shape:	 torch.Size([1, 64, 56, 56])

resnet_block1  output shape:	 torch.Size([1, 64, 56, 56])

resnet_block2  output shape:	 torch.Size([1, 128, 28, 28])

resnet_block3  output shape:	 torch.Size([1, 256, 14, 14])

resnet_block4  output shape:	 torch.Size([1, 512, 7, 7])

global_avg_pool  output shape:	 torch.Size([1, 512, 1, 1])

fc  output shape:	 torch.Size([1, 10])

lr, num_epochs = 0.001, 5

optimizer = torch.optim.Adam(net.parameters(), lr=lr)

d2l.train_ch5(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

稠密连接网络（DenseNet）

###主要构建模块：

稠密块（dense block）：定义了输入和输出是如何连结的。

过渡层（transition layer）：用来控制通道数，使之不过大。

稠密块

def conv_block(in_channels, out_channels):

    blk = nn.Sequential(nn.BatchNorm2d(in_channels),

                        nn.ReLU(),

                        nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1))

    return blk

class DenseBlock(nn.Module):

    def __init__(self, num_convs, in_channels, out_channels):

        super(DenseBlock, self).__init__()

        net = []

        for i in range(num_convs):

            in_c = in_channels + i * out_channels

            net.append(conv_block(in_c, out_channels))

        self.net = nn.ModuleList(net)

        self.out_channels = in_channels + num_convs * out_channels # 计算输出通道数

    def forward(self, X):

        for blk in self.net:

            Y = blk(X)

            X = torch.cat((X, Y), dim=1)  # 在通道维上将输入和输出连结

        return X

blk = DenseBlock(2, 3, 10)

X = torch.rand(4, 3, 8, 8)

Y = blk(X)

Y.shape # torch.Size([4, 23, 8, 8])

torch.Size([4, 23, 8, 8])

过渡层

1×11\times11×1卷积层：来减小通道数

步幅为2的平均池化层：减半高和宽

def transition_block(in_channels, out_channels):

    blk = nn.Sequential(

            nn.BatchNorm2d(in_channels),

            nn.ReLU(),

            nn.Conv2d(in_channels, out_channels, kernel_size=1),

            nn.AvgPool2d(kernel_size=2, stride=2))

    return blk

blk = transition_block(23, 10)

blk(Y).shape # torch.Size([4, 10, 4, 4])

torch.Size([4, 10, 4, 4])

DenseNet模型

net = nn.Sequential(

        nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),

        nn.BatchNorm2d(64),

        nn.ReLU(),

        nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

num_channels, growth_rate = 64, 32  # num_channels为当前的通道数

num_convs_in_dense_blocks = [4, 4, 4, 4]

for i, num_convs in enumerate(num_convs_in_dense_blocks):

    DB = DenseBlock(num_convs, num_channels, growth_rate)

    net.add_module("DenseBlosk_%d" % i, DB)

    # 上一个稠密块的输出通道数

    num_channels = DB.out_channels

    # 在稠密块之间加入通道数减半的过渡层

    if i != len(num_convs_in_dense_blocks) - 1:

        net.add_module("transition_block_%d" % i, transition_block(num_channels, num_channels // 2))

        num_channels = num_channels // 2

net.add_module("BN", nn.BatchNorm2d(num_channels))

net.add_module("relu", nn.ReLU())

net.add_module("global_avg_pool", d2l.GlobalAvgPool2d()) # GlobalAvgPool2d的输出: (Batch, num_channels, 1, 1)

net.add_module("fc", nn.Sequential(d2l.FlattenLayer(), nn.Linear(num_channels, 10))) 

X = torch.rand((1, 1, 96, 96))

for name, layer in net.named_children():

    X = layer(X)

    print(name, ' output shape:\t', X.shape)

0  output shape:	 torch.Size([1, 64, 48, 48])

1  output shape:	 torch.Size([1, 64, 48, 48])

2  output shape:	 torch.Size([1, 64, 48, 48])

3  output shape:	 torch.Size([1, 64, 24, 24])

DenseBlosk_0  output shape:	 torch.Size([1, 192, 24, 24])

transition_block_0  output shape:	 torch.Size([1, 96, 12, 12])

DenseBlosk_1  output shape:	 torch.Size([1, 224, 12, 12])

transition_block_1  output shape:	 torch.Size([1, 112, 6, 6])

DenseBlosk_2  output shape:	 torch.Size([1, 240, 6, 6])

transition_block_2  output shape:	 torch.Size([1, 120, 3, 3])

DenseBlosk_3  output shape:	 torch.Size([1, 248, 3, 3])

BN  output shape:	 torch.Size([1, 248, 3, 3])

relu  output shape:	 torch.Size([1, 248, 3, 3])

global_avg_pool  output shape:	 torch.Size([1, 248, 1, 1])

fc  output shape:	 torch.Size([1, 10])

#batch_size = 256

batch_size=16

# 如出现“out of memory”的报错信息，可减小batch_size或resize

train_iter, test_iter =load_data_fashion_mnist(batch_size, resize=96)

lr, num_epochs = 0.001, 5

optimizer = torch.optim.Adam(net.parameters(), lr=lr)

d2l.train_ch5(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

L18 批量归一化和残差网络的更多相关文章

[ DLPytorch ] 批量归一化与残差网络
批量归一化通常来说,数据标准化预处理对于浅层模型就足够有效了.随着模型训练的进行,当每层中参数更新时,靠近输出层的输出较难出现剧烈变化.但对深层神经网络来说,即使输入数据已做标准化,训练中模型参数的 ...
残差网络resnet学习
Deep Residual Learning for Image Recognition 微软亚洲研究院的何凯明等人论文地址 https://arxiv.org/pdf/1512.03385v1.p ...
机器学习（ML）十三之批量归一化、RESNET、Densenet
批量归一化批量归一化(batch normalization)层,它能让较深的神经网络的训练变得更加容易.对图像处理的输入数据做了标准化处理:处理后的任意一个特征在数据集中所有样本上的均值为0.标准 ...
第十八节，TensorFlow中使用批量归一化(BN)
在深度学习章节里,已经介绍了批量归一化的概念,详情请点击这里:第九节,改善深层神经网络:超参数调试.正则化以优化(下) 神经网络在进行训练时,主要是用来学习数据的分布规律,如果数据的训练部分和测试部分 ...
跟我学算法-图像识别之图像分类（下）(GoogleNet网络, ResNet残差网络, ResNext网络， CNN设计准则）
1.GoogleNet 网络: Inception V1 - Inception V2 - Inception V3 - Inception V4 1. Inception v1 split - me ...
深度学习面试题21：批量归一化(Batch Normalization,BN)
目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用参考资料 BN的由来 BN是由Google于201 ...
Batch Normalization批量归一化
BN的深度理解:https://www.cnblogs.com/guoyaohua/p/8724433.html BN: BN的意义:在激活函数之前将输入归一化到高斯分布,控制到激活函数的敏感区域,避 ...
TensorFlow——批量归一化操作
批量归一化在对神经网络的优化方法中,有一种使用十分广泛的方法——批量归一化,使得神经网络的识别准确度得到了极大的提升. 在网络的前向计算过程中,当输出的数据不再同一分布时,可能会使得loss的值非常 ...
深度学习——手动实现残差网络ResNet 辛普森一家人物识别
深度学习--手动实现残差网络辛普森一家人物识别目标通过深度学习,训练模型识别辛普森一家人动画中的14个角色最终实现92%-94%的识别准确率. 数据 ResNet介绍论文地址 https:/ ...

随机推荐

2020kali浏览器汉化等配置
0.修改搜索引擎 1. 2. 3.点击左侧搜索,输入language因为我已经修改为中文所以没有查询到结果 4点击搜索更多语言(未汉化未英文)找到chinese后添加 5.要将chinese上移到第一 ...
drf-jwt的过滤，筛选，排序，分页组件
目录自定义drf-jwt配置案例:实现多方式登陆签发token urls.py models.py serializers.py views.py 案例:自定义认证反爬规则的认证类 urls.py ...
[IROS 2018]Semantic Mapping with Simultaneous Object Detection and Localization
论文地址:https://arxiv.org/abs/1810.11525 论文视频:https://www.youtube.com/watch?v=W-6ViSlrrZgwww.youtu ...
Python第五章-内置数据结构02-列表
Python 内置的数据结构二.列表(list) 想一想: 前面学习的字符串可以用来存储一串信息,那么想一想,怎样存储咱们班所有同学的名字呢? 定义100个变量,每个变量存放一个学生的姓名可行吗?有 ...
思考设计SQL优化方案
一.优化的哲学注:优化有风险,涉足需谨慎 1.优化可能带来的问题? 优化不总是对一个单纯的环境进行,还很可能是一个复杂的已投产的系统: 优化手段本来就有很大的风险,只不过你没能力意识到和预见到: 任 ...
LeetCode46 回溯算法求全排列，这次是真全排列
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是LeetCode的26篇文章,我们来实战一下全排列问题. 在之前的文章当中,我们讲过八皇后.回溯法,也提到了全排列,但是毕竟没有真正写 ...
Unity 阴影淡入淡出效果中Shader常量 unity_ShadowFadeCenterAndType和_LightShadowData的问题
由于Universal Render Pipeline目前(2020年4月1日)把阴影淡入淡出这个功能竟然给取消了…我自己拿片元位置到相机位置的距离进行了一个淡化,但是阴影边缘老是被裁切…后来研究了一 ...
牛客挑战赛38 (A - D)
A - 多边形与圆题目链接题意给出一个多边形的坐标和圆的半径, 多边形可以在圆内滚动, 问点 1 在成为转动中心到下一次成为转动中心的过程中经过的路程长度. 题解枚举点 2 - n 成为转动中 ...
Linux学习第10天-命令执行顺序控制与管道
学习重点: cut,grep,wc,sort命令的使用管道的理解一.顺序执行多条命令当我们需要使用apt-get安装一个软件,然后安装完成后立即运行安装的软件(或命令工具),又恰巧你的主机才更换 ...
Mysql索引、explain执行计划
1.索引的使用场景哪些情况使用索引: 1.主键自动建立唯一索引 2.频繁作为查询条件的字段应该创建索引 where 3.多表关联查询中,关联字段应该创建索引on两边都要创建索引 select * f ...

L18 批量归一化和残差网络