觉得有用的话,欢迎一起讨论相互学习~Follow Me

1.9 归一化Normaliation

训练神经网络,其中一个加速训练的方法就是归一化输入(normalize inputs).

假设我们有一个训练集,它有两个输入特征,所以输入特征x是二维的,这是数据集的散点图.

归一化输入需要两个步骤

第一步-零均值化

subtract out or to zero out the mean 计算出u即x(i)的均值

\[u=\frac{1}{m}\sum^{m}_{i=1}x^{(i)}\]

u是一个向量,\(x=x-u\)每个训练数据\(x\)都是\(x-u\)的新值

意思是移动训练集,直到它完成零均值化

第二步-归一化方差

如上图所示:特征x1的方差比特征x2的方差要大得多,我们要做的是给\(\sigma\)赋值.\(\sigma\)是一个方差,它的每个特征都是方差.其中\(\sigma^2=\frac{1}{m}\sum^{m}_{i=1}x^{(i)}\).元素\(x^{(i)}\)表示每个特征的方差.我们已经对数据完成了零均值化,现在只需要将所有数据都除以向量\(\sigma^{2}\)

经过方差的归一化,数据分布变为:

特征x1和特征x2的方差都等于1

注意:如果你要用它来调整数据,那么要用相同的\(u和\sigma^2\)来归一化测试集和训练集.这个数据集都是通过相同的\(u和\sigma定义的相同的数据转换\)其中\(u和\sigma都是通过训练数据集得来的\)

为什么要归一化输入特征

如果不使用归一化,则这是个非常细长狭窄的代价函数,你要找的代价函数的最小值点应该在这里.(如图中箭头标示)

但是特征值在不同的取值范围内,例如x1取值范围从1到1000,特征x2的取值范围从0到1,结果是参数w1和w2值的范围或者比率完全不同,这些数据轴应该是w1和w2,为了直观理解,我标记为w和b,该函数的轮廓十分狭窄.

如果使用了归一化方法,代价函数更加对称

如果在不使用归一化方法且特征分布十分不均匀的数据集上的代价函数上运行梯度下降法,必须使用一个非常小的学习比率,因为如果是在这个位置,梯度下降法可能需要更多次迭代过程.

直到最后找到最小值.

但是如果函数是经过归一化的特征分布,那么会是一个更圆的轮廓,那么无论从哪个位置开始,梯度下降法都能够更直接地找到最小值,并且可以使用较大步长,而不是需要以较小步长反复执行.

这只是一个二维特征的例子,实际上w是一个高维向量,因此用二维绘制w并不能正确的传达直观理解,但总的直观理解是代价函数会更圆一些,并且更加荣艺油画,前提是特征都在相似范围内,而不是从1到1000,0到1的差别很大的范围内,而是都在-1到1的范围内,或者相似偏差,这使得优化代价函数变的更简单更快捷.

实际上,如果特征x1范围在0~1之间,x2在-1~1之间,x3在1~2之间,它们是相似范围,所以会表现的很好,如果在不同的取值范围内,如其中一个从1到1000,另一个从0到1,这对优化算法十分不利,但是仅将它们设置为均化零值,假设方差为1,确保特征都在相似范围内,通常可以使算法运算得更快.

如果数据的不同特征值取值范围差异很大,那么归一化就很重要了,如果特征值处于相似范围,那么归一化就变得不那么重要了.

[DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.9_归一化normalization的更多相关文章

[DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.10_1.12/梯度消失/梯度爆炸/权重初始化
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10 梯度消失和梯度爆炸当训练神经网络,尤其是深度神经网络时,经常会出现的问题是梯度消失或者梯度爆炸,也就是说当你训练深度网络时,导数或坡 ...
deeplearning.ai 改善深层神经网络 week1 深度学习的实用层面听课笔记
1. 应用机器学习是高度依赖迭代尝试的,不要指望一蹴而就,必须不断调参数看结果,根据结果再继续调参数. 2. 数据集分成训练集(training set).验证集(validation/develop ...
deeplearning.ai 改善深层神经网络 week1 深度学习的实用层面
1. 应用机器学习是高度依赖迭代尝试的,不要指望一蹴而就,必须不断调参数看结果,根据结果再继续调参数. 2. 数据集分成训练集(training set).验证集(validation/develop ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.3_2.5_带修正偏差的指数加权平均
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3 指数加权平均举个例子,对于图中英国的温度数据计算移动平均值或者说是移动平均值( ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.6_2.9Momentum/RMSprop/Adam优化算法
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.6 动量梯度下降法(Momentum) 另一种成本函数优化算法,优化速度一般快于标准 ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.1_2.2_mini-batch梯度下降法
觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.1 mini-batch gradient descent mini-batch梯度下降法我们将训练数据组合到一个大的矩阵中 \(X=\b ...
[DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习使用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1 训练/开发/测试集对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验 ...
[DeeplearningAI笔记]改善深层神经网络1.4_1.8深度学习实用层面_正则化Regularization与改善过拟合
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.4 正则化(regularization) 如果你的神经网络出现了过拟合(训练集与验证集得到的结果方差较大),最先想到的方法就是正则化(re ...
改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减
1.mini-batch梯度下降在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练 ...

随机推荐

django[post与get测试]
首先先看一下代码:↓ 后台: 前端展示: 测试结果:
Java与算法之(9) - 直接插入排序
直接插入排序是最简单的排序算法,也比较符合人的思维习惯.想像一下玩扑克牌抓牌的过程.第一张抓到5,放在手里:第二张抓到3,习惯性的会把它放在5的前面:第三张抓到7,放在5的后面:第四张抓到4,那么我们 ...
Python之排序算法：快速排序与冒泡排序
Python之排序算法:快速排序与冒泡排序转载请注明源地址:http://www.cnblogs.com/funnyzpc/p/7828610.html 入坑(简称IT)这一行也有些年头了,但自老师 ...
CTF---隐写术入门第二题小苹果
小苹果分值:10 来源: hanyuhang 难度:易参与人数:2159人 Get Flag:862人答题人数:996人解题通过率:87% flag格式: CTF{} 解题链接: http:// ...
【批处理学习笔记】第十四课：常用DOS命令（4）
系统管理at 安排在特定日期和时间运行命令和程序shutdown立即或定时关机或重启taskkill结束进程(WinXPHome版中无该命令)tasklist显示进程列表(Windows XP Hom ...
BZOJ:4031: [HEOI2015]小Z的房间
Time Limit: 10 Sec Memory Limit: 256 MBSubmit: 1103 Solved: 536[Submit][Status][Discuss] Descripti ...
stl总结精简版
STL 精简版 vetor #include<vector> #include<cstdio> #include<algorithm> #include<io ...
c语言sizeof用法（32位机）
安装win8+Ubuntu14.04双系统的经验总结
当时查资料,很多人推荐了easyBCD直接安装ubuntu,但是在我的笔记本上行不通.我的笔记本是Lenovo V480+win8正版系统.这是因为我的笔记本的引导结构是EFI,而不是MBR.我的方法 ...
Python数据类型一：数字与运算符
数字一.数值类型 python中支持的数值类型有以下几种: 1.整型(Int) - 通常被称为是整型或整数,是正或负整数,不带小数点.Python3 整型是没有限制大小的,可以当作 Long 类型使 ...

[DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.9_归一化normalization