吴恩达深度学习笔记（七） —

主要内容：

一.Batch Norm简介

二.归一化网络的激活函数

三.Batch Norm拟合进神经网络

四.测试时的Batch Norm

一.Batch Norm简介

1.在机器学习中，我们一般会对输入数据进行归一化处理，使得各个特征的数值规模处于同一个量级，有助于加速梯度下降的收敛过程。

2.在深层神经网络中，容易出现梯度小时或者梯度爆炸的情况，导致训练速度慢。那么，除了对输入数据X进行归一化之外，我们是否还可以对隐藏层的输出值进行归一化，从而加速梯度下降的收敛速度呢？答案是可以的。

3.Batch Norm，即基于mini-batch gradient descent的归一化，将其应用于深层神经网络。

二..归一化网络的激活函数

1.一般地，我们并非对a[0]（a[0]即输入值X）、a[1]、a[2]……等进行归一化，而是对z[1]、z[2]……等进行归一化（没有z[0]）。

2.对于第l层的某个batch数据，计算出z[l]的均值和方差，然后对其进行归一化，使其均值为0，方差为1：

（注意，z的上标i表示数据，而非层数。在课程中层数使用中括号[]，这里不标示层数是为了简便。）

3.但是，我们不总希望隐藏单元总是含有均值为0，方差为1，也许隐藏单元有了不同的分布会有意义。（这里没能想明白，大概的意思是：如果总是“均值为0，方差为1”，那么深层神经网络的表示能力就减弱。）所以就再对其进行缩放和平移：

其中，β、γ是需要学习的参数。所以总的来说，需要学习四类参数：w、b、β、γ。

三.Batch Norm拟合进神经网络

1.在一次梯度下降中（用的batch可能不同），z[1]、z[2]……的均值和方差可能一直在变化，所以对于第l层，需要重新计算z[l]的均值和方差，然后再对其归一化

2.当进行了一次梯度下降之后，就利用下一个batch继续梯度下降（大括号标示batch）：

四.测试时的Batch Norm

由于每一层中z的均值和方差在每一次梯度下降时都是变化的（与平常的机器学习的不同，机器学习中只需对输入数据X进行归一化，X的均值和方差是恒定的），所以在测试时，用哪个均值和方差进行归一化就成了一个问题。

解决方法是：在训练的过程中，利用指数加权平均去追踪和计算，最终得到用于测试数据的均值和方差。

吴恩达深度学习笔记（七） —— Batch Normalization的更多相关文章

【Deeplearning.ai 】吴恩达深度学习笔记及课后作业目录
吴恩达深度学习课程的课堂笔记以及课后作业代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weix ...
吴恩达深度学习笔记（八） —— ResNets残差网络
(很好的博客:残差网络ResNet笔记) 主要内容: 一.深层神经网络的优点和缺陷二.残差网络的引入三.残差网络的可行性四.identity block 和 convolutional bloc ...
吴恩达深度学习笔记（十二）—— Batch Normalization
主要内容: 一.Normalizing activations in a network 二.Fitting Batch Norm in a neural network 三.Why does ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（二）
经典网络 LeNet-5 AlexNet VGG Ng介绍了上述三个在计算机视觉中的经典网络.网络深度逐渐增加,训练的参数数量也骤增.AlexNet大约6000万参数,VGG大约上亿参数. 从中我们可 ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）
作者:szx_spark 1. Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十 ...
吴恩达深度学习笔记（deeplearning.ai）之循环神经网络（RNN）（三）
1. 导读本节内容介绍普通RNN的弊端,从而引入各种变体RNN,主要讲述GRU与LSTM的工作原理. 事先声明,本人采用ng在课堂上所使用的符号系统,与某些学术文献上的命名有所不同,不过核心思想都是 ...
吴恩达深度学习笔记（五） —— 优化算法：Mini-Batch GD、Momentum、RMSprop、Adam、学习率衰减
主要内容: 一.Mini-Batch Gradient descent 二.Momentum 四.RMSprop 五.Adam 六.优化算法性能比较七.学习率衰减一.Mini-Batch Grad ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（一）
Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十分方便,便于指出过滤器的位置. ...
吴恩达深度学习笔记1-神经网络的编程基础(Basics of Neural Network programming)
一:二分类(Binary Classification) 逻辑回归是一个用于二分类(binary classification)的算法.在二分类问题中,我们的目标就是习得一个分类器,它以对象的特征向量 ...

随机推荐

视觉SLAM之词袋（bag of words）模型与K-means聚类算法浅析（2）
聚类概念: 聚类:简单地说就是把相似的东西分到一组.同 Classification (分类)不同,分类应属于监督学习.而在聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到 ...
python3----函数(join)
今天写python 100例时,有个题目是大致是这样的:已知输入形式是1+3+2+1,要求输出形式为1+1+2+3 一开始思路是将输入的字符串用split()函数划分成数组,在对数组进行排序,再用fo ...
EasyNVR无插件直播流媒体服务器云端集中管控的EasyNVS云管理平台安装使用文档
EasyNVS - EasyNVR云端集中管理服务 EasyNVS云管理平台是一套专门用于集中化管理EasyNVR 的解决方案. EasyNVR 采用主动注册的方式接入到 EasyNVS, 再由 Ea ...
JS HTML DOM 事件对象(onclick、onmouseenter)
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序. 事件通常与函数结合使用,函数不会在事件发生前被执行! (如用户点击按钮). HTML DOM 事件 DOM: ...
解决CSS3多列样式column-width布局时内容被截断、错乱
一.问题使用CSS3的column-width: auto | <length>属性时,出现排列的内容被截断,出现错位的现象. 二.原因需要为图片容器设置高度,不然会崩掉. 三.解决方 ...
Python3 面向对象（1）
面向.概述面向过程: 根据业务逻辑从上到下写垒代码面向过程的设计的核心是过程,过程即解决问题的步骤, 面向过程的设计就好比精心设计好一条流水线,考虑周全什么时候处理什么东西优点: 极大降低了程序的 ...
Kafka配置参数说明
配置文件目录:/usr/local/kafka/config配置文件server.propertis参数说明:broker.id=0每一个broker在集群中的唯一标识,要求是正数,当该服务器的IP地 ...
hadoop学习第二天-了解HDFS的基本概念&&分布式集群的搭建&&HDFS基本命令的使用
一.HDFS的相关基本概念 1.数据块 1.在HDFS中,文件诶切分成固定大小的数据块,默认大小为64MB(hadoop2.x以后是128M),也可以自己配置. 2.为何数据块如此大,因为数据传输时间 ...
selenium模块控制浏览器
利用selenium模块控制浏览器导入selenium模块:from selenium import webdriver browserFirefox = webdriver.Firefox()#打 ...
bfc (收集的）
一些基本概念 viewport: 展现网页的媒体,比如窗口或者某个区域,它的大小是有限制的,为了不被平台术语所束缚,我们给他起名viewport,中文意思就是视口. canvas: 而我们在渲染网页的 ...

吴恩达深度学习笔记（七） —— Batch Normalization

吴恩达深度学习笔记（七） —— Batch Normalization的更多相关文章

随机推荐

热门专题