Batch Normalization的解释

输入的标准化处理是对图片等输入信息进行标准化处理，使得所有输入的均值为0，方差为1

normalize = T.Normalize([0.485, 0.456, 0.406],[0.229, 0.224, 0.225])

而Batch Normalization的目的是使各隐藏层输入的均值和方差为任意值

Batch Norm经常使用在mini-batch上，这也是其名称的由来

Batch Normalization是对下面隐藏层进行激活函数操作前的输入Z^[l]进行标准层处理

$Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$

进行的操作有：

1）对输入进行归一化操作

m是单个mini-batch包含样本个数
$\varepsilon$ 是为了防止分母为零，可取值 $10^{-8}$

$\mu=\frac1m\sum_iz^{(i)}$

$\sigma^2=\frac1m\sum_i(z_i-\mu)^2$

$z^{(i)}_{norm}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\varepsilon}}$

此时的输入Z^[i]变为了均值为0，方差为1的Z_norm^[i]

2）对归一化的结果进行缩放和平移

但是大部分情况下我们其实并不希望输入均值为0，方差为1，而是希望其根据训练的需要而设置为任意值

这个时候就需要进一步处理：

$\tilde z^{(i)}=\gamma\cdot z^{(i)}_{norm}+\beta$

$\gamma$ 和 $\beta$ 是可以学习的参数，类似于W和b一样，可以通过梯度下降等算法求得

当两者的值为 $\gamma=\sqrt{\sigma^2+\varepsilon},\ \ \beta=u$ ，那么 $\tilde z^{(i)}=z^{(i)}$ ，实现恒等映射

为什么需要进行这一步的处理：

从激活函数的角度来说，如果各隐藏层的输入均值在靠近0的区域即处于激活函数的线性区域，这样不利于训练好的非线性神经网络，得到的模型效果也不会太好

如resnet网络中的使用：

#这个实现的是两层的残差块，用于resnet18/

class BasicBlock(nn.Module):

    expansion = 

    def __init__(self, inplanes, planes, stride=, downsample=None):

        super(BasicBlock, self).__init__()

        self.conv1 = conv3x3(inplanes, planes, stride)

        self.bn1 = nn.BatchNorm2d(planes)

        self.relu = nn.ReLU(inplace=True)

        self.conv2 = conv3x3(planes, planes)

        self.bn2 = nn.BatchNorm2d(planes)

        self.downsample = downsample

        self.stride = stride

    def forward(self, x):

        identity = x

        out = self.conv1(x)

        out = self.bn1(out)

        out = self.relu(out)

        out = self.conv2(out)

        out = self.bn2(out)

        if self.downsample is not None: #当连接的维度不同时，使用1*1的卷积核将低维转成高维，然后才能进行相加

            identity = self.downsample(x)

        out += identity

        out = self.relu(out)

        return out

Batch Normalization的解释的更多相关文章

从Bayesian角度浅析Batch Normalization
前置阅读:http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现前置阅读:http://www.zhih ...
[CS231n-CNN] Training Neural Networks Part 1 : activation functions, weight initialization, gradient flow, batch normalization | babysitting the learning process, hyperparameter optimization
课程主页:http://cs231n.stanford.edu/ Introduction to neural networks -Training Neural Network ________ ...
使用TensorFlow中的Batch Normalization
问题训练神经网络是一个很复杂的过程,在前面提到了深度学习中常用的激活函数,例如ELU或者Relu的变体能够在开始训练的时候很大程度上减少梯度消失或者爆炸问题.但是却不能保证在训练过程中不出现该问题, ...
【深度学习】深入理解Batch Normalization批标准化
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出. Batch Normaliz ...
Batch Normalization原理
Batch Normalization导读博客转载自:https://blog.csdn.net/malefactor/article/details/51476961 作者: 张俊林为什么深度神 ...
Feature Extractor[batch normalization]
1 - 背景摘要:因为随着前面层的参数的改变会导致后面层得到的输入数据的分布也会不断地改变,从而训练dnn变得麻烦.那么通过降低学习率和小心地参数初始化又会减慢训练过程,而且会使得具有饱和非线性模型 ...
[转] 深入理解Batch Normalization批标准化
转自:https://www.cnblogs.com/guoyaohua/p/8724433.html 郭耀华's Blog 欲穷千里目,更上一层楼项目主页:https://github.com/gu ...
论文笔记：Batch Normalization
在神经网络的训练过程中,总会遇到一个很蛋疼的问题:梯度消失/爆炸.关于这个问题的根源,我在上一篇文章的读书笔记里也稍微提了一下.原因之一在于我们的输入数据(网络中任意层的输入)分布在激活函数收敛的区域 ...
tensorflow中batch normalization的用法
网上找了下tensorflow中使用batch normalization的博客,发现写的都不是很好,在此总结下: 1.原理公式如下: y=γ(x-μ)/σ+β 其中x是输入,y是输出,μ是均值,σ ...

随机推荐

Linux 开启和关闭 Ping 操作
Linux 默认是开启 ping 操作的,通过以下两种方式可以开启和关闭 ping 操作 . 1.修改内核参数通过内核参数设置也有两种方式,一种是临时修改,一种是永久修改. 1.1 临时设置 PIN ...
GROUP BY你都不会！ROLLUP，CUBE，GROUPPING详解
Group By Group By 谁不会啊?这不是最简单的吗?越是简单的东西,我们越会忽略掉他,因为我们不愿意再去深入了解它. 1 小时 SQL 极速入门(一) 1 小时 SQL 极速入门(二) 1 ...
Oracle权限授予
一.用户 sys;//系统管理员,拥有最高权限 system;//本地管理员,次高权限 scott;//普通用户,密码默认为tiger,默认未解锁二.登陆 sqlplus / as sysdba;/ ...
ArrayBlockQueue源码解析
清明节和朋友去被抖音带火的一个餐厅,下午两点钟取晚上的号,前面已经有十几桌了,四点半餐厅开始正式营业,等轮到我们已经近八点了.餐厅分为几个区域,只有最火的区域(在小船上)需要排号,其他区域基本上是随到 ...
【视频】ASP.NET Core MVC 2.* 入门
比较初级的入门教程,网址在B站:https://www.bilibili.com/video/av33728783/ 内容如下: 1. ASP.NET Core 简介和开发工具 2. ASP.NET ...
一次 HashSet 所引起的并发问题
背景上午刚到公司,准备开始一天的摸鱼之旅时突然收到了一封监控中心的邮件. 心中暗道不好,因为监控系统从来不会告诉我应用完美无 bug,其实系统挺猥琐. 打开邮件一看,果然告知我有一个应用的线程池队列 ...
写给 Android 开发的小程序布局指南，Flex 布局！
一.序 Hi,大家好,我是承香墨影! 最近在做小程序,验证一些方向,开发效率确实很快,就是各种微信的审核有点费劲,但是总归是有办法解决的. 想要开发一款小程序,其实和我们正常写一款 App 类似,你需 ...
Android-PickerView【仿iOS的PickerView控件，并封装了时间选择和选项选择这两种选择器】使用
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言本文主要演示Android-PickerView的选项选择器.时间选择器的简单运用.由于每一个版本略有不用,所以实际使用方式以git ...
总结http get和post的区别
这个问题几乎面试的时候都会问到,是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎. 什么是http? get.post常见的区别 ge ...
Python自省
自省就是通过一定机制查询到对象的内部结构,也就是运行时获取对象内部的属性以及类型,在Python中dir(),type(), hasattr(), isinstance()都是很好的自省例子 #!/u ...

Batch Normalization的解释

Batch Normalization的解释的更多相关文章

随机推荐

热门专题