deeplearning.ai 改善深层神经网络 week2 优化算法听课笔记

这一周的主题是优化算法。

1. Mini-batch：

　　上一门课讨论的向量化的目的是去掉for循环加速优化计算，X = [x⁽¹⁾ x⁽²⁾ x⁽³⁾ ... x^(m)]，X的每一个列向量x⁽ⁱ⁾是一个样本，m是样本个数。但当样本很多时（比如m=500万），向量化依然不能解决问题。所以提出了mini-batch的概念（Batch是指对整个样本都操作，mini-batch指只对所有样本的子集进行操作）。把若干样本合并成一个mini-batch，比如这里选择1000，X^{1} = [x⁽¹⁾ x⁽²⁾ ... x⁽¹⁰⁰⁰⁾]，X^{2} = [x⁽¹⁰⁰¹⁾ x⁽¹⁰⁰²⁾ ... x⁽²⁰⁰⁰⁾]，等等。则我们一共有5000个mini-batch，此时 X = [X^{1} X^{2} ... X^{5000}]。同样的，把输出Y也做这样的操作，得到 Y = [Y^{1} Y^{2} ... Y^{5000}] 。

　　Notation：x⁽ⁱ⁾表示第i个样本，z^[l]表示第l层的z值，X^{t}表示第t个mini-batch。

　　具体算法：

repeat { #不断重复迭代优化

    for t = 1, ..., 5000 { #对于普通的batch处理手段，遍历一次样本更新一次参数。而在mini-batch的方法中，遍历一次样本更新了5000次参数。

        Forward prop on X{t} #用向量化的手段依次处理每一个mini-batch

            Z[1] = W[1]X{t} + b[1]

            A[1] = g[1](Z[1])

                .

                .

                .

            A[l] = g[l](Z[l])

        Compute cost J = 1/1000*(∑L(y_hat(i), y(i))）+ 正则化项

        Back prop to compute gradients with respect to J{t} (using X{t}, Y{t})

        W[l] = W[l] - αdW[l], b[l] = b[l] - αdb[l]

    }

}

　　对于batch处理方式来说，cost function J随着优化的进行是越来越小的，单调递减。而对于mini-batch的处理方式来说，则是震荡着下降，或者说下降的曲线夹杂了噪音。

　　一个超参数是mini-batch的大小，size。如果size = m，则意味着就是batch gradient descent，用整个数据集训练。如果size = 1，则是stochastic gradient descent，每个样本都是独立的mini-batch。前者的问题是每次迭代的计算太费时，后者的问题是随机性太严重，效率过于低下，失去了向量化带来的加速计算效果。mini-batch的大小介于两者之间，能获得平衡的效果，一方面有向量化的加速效果，另一方面又不需要计算全部样本。关于mini-batch的大小，NG的建议：1）如果小数据集（少于2000），直接使用batch方法；2）一般的mini-batch大小是64~512，考虑到CPU/GPU的内存存储方式，2的幂的大小算得更快。不用担心mini-batch的大小不能整除样本数的问题，最后一个样本就少一点没事。也有人用1024，但不常见。这是一个超参数，所以NG建议多尝试几个不同的2的幂，找个最好的。mini-batch越大，减少了噪音，也减少了正则化效果。

def random_mini_batches(X, Y, mini_batch_size = 64, seed = 0):

    """

    Creates a list of random minibatches from (X, Y)

    Arguments:

    X -- input data, of shape (input size, number of examples)

    Y -- true "label" vector (1 for blue dot / 0 for red dot), of shape (1, number of examples)

    mini_batch_size -- size of the mini-batches, integer

    Returns:

    mini_batches -- list of synchronous (mini_batch_X, mini_batch_Y)

    """

    np.random.seed(seed)            # To make your "random" minibatches the same as ours

    m = X.shape[1]                  # number of training examples

    mini_batches = []

    # Step 1: Shuffle (X, Y)

    permutation = list(np.random.permutation(m))

    shuffled_X = X[:, permutation]

    shuffled_Y = Y[:, permutation].reshape((1,m))

    # Step 2: Partition (shuffled_X, shuffled_Y). Minus the end case.

    num_complete_minibatches = math.floor(m/mini_batch_size) # number of mini batches of size mini_batch_size in your partitionning

    for k in range(0, num_complete_minibatches):

        mini_batch_X = shuffled_X[:, k*mini_batch_size : (k+1)*mini_batch_size]

        mini_batch_Y = shuffled_Y[:, k*mini_batch_size : (k+1)*mini_batch_size]

        mini_batch = (mini_batch_X, mini_batch_Y)

        mini_batches.append(mini_batch)

    # Handling the end case (last mini-batch < mini_batch_size)

    if m % mini_batch_size != 0:

        mini_batch_X = shuffled_X[:, (k+1)*mini_batch_size : m-1]

        mini_batch_Y = shuffled_Y[:, (k+1)*mini_batch_size : m-1]

        mini_batch = (mini_batch_X, mini_batch_Y)

        mini_batches.append(mini_batch)

    return mini_batches

2. 指数加权平均（指数加权移动平均）：

　　v_t = βv_t-1 + (1-β)θ_t 。这个公式可以看成 v_t近似等于 1/(1-β) 个数据的平均值，比如β = 0.9，则近似可以看成是10个数据的平均值。展开来看，v_t = (1-β)*θ_t + (1-β)*β*θ_t-1 + (1-β)*β²*θ_t + ...(1-β)*βⁿ*θ_t ，权重指数衰减。（为什么近似等于1/(1-β) 个数据的平均值？NG解释说，如果β接近1，β^1/(1-β)≈1/e=0.37，0.37的权重已经很小了，所以说近似等于 1/(1-β) 个数据的平均值。）

　　指数加权平均的一大好处是可以迭代计算，占内存很小。相比之下，如果记录过去n个数值，然后算平均数，显然耗内存很多。

　　偏差矫正：偏差产生的原因是头部缺数据，造成求得的指数加权平均比较小。偏差矫正的公式是 v_t/ (1 - β^t)，注意这里是计算完v_t后矫正，而不是在迭代过程中实时矫正。直观地说，如果β大，比如0.98，则需要平均更多的数据，于是1 - β^t更小，从而把 v_t放大。

3. Momentum (Gradient descent with momentum)

　　这种方法几乎总是比标准的梯度下降快。基本想法是：用梯度的指数加权平均数来更新权重。如果优化的问题有大的condition number，则优化过程中，会在一个方向剧烈震荡。这导致我们只能选用小的学习率，降低了优化的速度。如果学习率大，很容易就发散了。我们希望的是在震荡的方向上迭代步长小一点，而在没有震荡的方向上迭代步长大一点。指数加权平均的做法在震荡方向上把数据正负抵消了，所以得到很小的数，而在没有震荡的方向上则持续增加。物理的直观解释是想象一个小球从碗的边沿滚下去，梯度是它的加速度，momentum是它的速度，β是和摩擦力相关的量。相比于标准的梯度下降，当前迭代只与当前梯度相关，而momentum的方法把当前迭代和过往梯度也联系起来。

　　具体算法：

　　v_{dW = 0,}v_db = 0

　　对于每一步的迭代：

　　　　计算当前mini-batch的梯度dW, db。

　　　　v_dW = βv_dW + (1-β)dW # NG解释说也有的教材写成 v_dW = βv_dW + dW，他自己不喜欢这种，因为更难调参数，调β的时候，会再需要调α。

　　　　v_db = βv_db + (1-β)db

　　　　W = W - αv_dW, b = b- αv_db

　　α和β是超参数，不过经验上看β取0.9是非常不错的。一般人们不用偏差矫正，因为通过初始阶段后就无偏了。

4. RMSprop(Root mean square prop): NG说这个方法最开始是Geoffrey Hinton在coursera的课上提出来的。

　　具体算法：

　　S_{dW = 0,}S_db = 0

　　对于每一步的迭代：

　　　　计算当前mini-batch的梯度dW, db。

　　　　S_dW = βS_dW + (1-β)dW² # dW²是把向量的每个元素各自平方。

　　　　S_db = βv_db + (1-β)db²

　　　　W = W - αdW/(sqrt(S_dW)+ε), b = b- αdb/(sqrt(S_db)+ε) # 分母加上ε为了防止除以0的情况，ε可以随便设一个很小的数，比如e-8

　　直观地解释：对于震荡的优化方向，S值会比较大，从而更新参数时步长会比较小，从而消除震荡。

5. Adam(Adaptive moment estimation)：将Momentum和RMSprop结合起来。

　　具体算法：　

　　v_{dW = 0}，S_{dW = 0}, v_db = 0，S_db = 0

　　对于每一步的迭代：

　　　　计算当前mini-batch的梯度dW, db。

　　　　v_dW = β₁v_dW + (1-β₁)dW，v_db = β₁v_db + (1-β₁)db # β₁对应Momentum。

　　　　S_dW = β₂S_dW + (1-β₂)dW² ， S_db = β₂v_db + (1-β₂)db² # β₂对应RMSprop。

　　　　v_{dW_corrected} = v_dW / (1 - β₁^t)，v_{db_corrected} = v_db / (1 - β₁^t)，

　　　　S_{dW_corrected} = S_dW / (1 - β₂^t)，S_{db_corrected} = S_db / (1 - β₂^t)，

　　　　W = W - αv_{dW_corrected}/ (sqrt(S_{dW_corrected})+ε), b = b - αv_{db_corrected}/ (sqrt(S_{db_corrected})+ε)

　　超参数：α需要调试，β₁可以设为0.9，β₂可以设为0.999，ε可以设为e-8。一般大家都只调α，另外几个就按照默认值。

　　Adam非常非常牛逼，默认选项。

6. 学习率衰减(Learning rate decay)：

　　1 epoch的意思是遍历一次数据集。

　　一种典型的decay方法：α = α₀ / (1+decay_rate*epoch_num)，decay_rate是另一个需要调的超参数。

　　其他decay方法：α = 0.95^epoch_numα_0；α = k*α₀/ sqrt(epoch_num)；α = k*α₀/ sqrt(t)，t是迭代次数；还有分段离散衰减的。

　　NG说学习率衰减并不是他优先考虑的东西，他优先还是选一个好一些的固定的α。

7. 深度学习中的局部最优：

　　传统的理解中，局部最优是要避免的。但是在深度学习优化的问题里（比如有2万个参数，或者说在2万维的空间），梯度为0的点往往并不是局部最优，而是鞍点。NG说：我们对低纬度空间的大部分直觉不能应用到高纬度空间中。所以深度学习的优化中，并不担心陷入局部最优，而是担心在平稳段（导数在很大的区域都接近0）优化变慢。Momentum、RMSprop、Adam等算法可以加速对平稳段的优化。

deeplearning.ai 改善深层神经网络 week2 优化算法听课笔记的更多相关文章

deeplearning.ai 改善深层神经网络 week2 优化算法
这一周的主题是优化算法. 1. Mini-batch: 上一门课讨论的向量化的目的是去掉for循环加速优化计算,X = [x(1) x(2) x(3) ... x(m)],X的每一个列向量x(i)是 ...
改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减
1.mini-batch梯度下降在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练 ...
Coursera Deep Learning笔记改善深层神经网络：优化算法
笔记:Andrew Ng's Deeping Learning视频摘抄:https://xienaoban.github.io/posts/58457.html 本章介绍了优化算法,让神经网络运行的 ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.6_2.9Momentum/RMSprop/Adam优化算法
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.6 动量梯度下降法(Momentum) 另一种成本函数优化算法,优化速度一般快于标准 ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.3_2.5_带修正偏差的指数加权平均
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3 指数加权平均举个例子,对于图中英国的温度数据计算移动平均值或者说是移动平均值( ...
deeplearning.ai 改善深层神经网络 week3 超参数调试、Batch正则化和程序框架听课笔记
这一周的主体是调参. 1. 超参数:No. 1最重要,No. 2其次,No. 3其次次. No. 1学习率α:最重要的参数.在log取值空间随机采样.例如取值范围是[0.001, 1],r = -4* ...
deeplearning.ai 改善深层神经网络 week1 深度学习的实用层面听课笔记
1. 应用机器学习是高度依赖迭代尝试的,不要指望一蹴而就,必须不断调参数看结果,根据结果再继续调参数. 2. 数据集分成训练集(training set).验证集(validation/develop ...
deeplearning.ai 改善深层神经网络 week3 超参数调试、Batch Normalization和程序框架
这一周的主体是调参. 1. 超参数:No. 1最重要,No. 2其次,No. 3其次次. No. 1学习率α:最重要的参数.在log取值空间随机采样.例如取值范围是[0.001, 1],r = -4* ...
deeplearning.ai 改善深层神经网络 week1 深度学习的实用层面
1. 应用机器学习是高度依赖迭代尝试的,不要指望一蹴而就,必须不断调参数看结果,根据结果再继续调参数. 2. 数据集分成训练集(training set).验证集(validation/develop ...

随机推荐

Microsoft Visual Studio 2012旗舰版(VS2012中文版下载)官方中文版
Microsoft Visual Studio 2012 Ultimate旗舰版(VS2012中文版下载)是一个最先进的开发解决方案,它使各种规模的团队能够设计和创建出使用户欣喜的引人注目的应用程序. ...
C++ 头文件系列(ostream)
1. 简介头文件ostream主要定义了一个输出流类模版basic_ostream,该模版继承自basic_ios模版. 2. basic_ostream模版 2.1 sentry类与basic_ ...
wait/notify 实现多线程交叉备份
一.任务创建20个线程,其中10个线程是将数据备份到 A 数据库中,另外10 个线程将数据备份到 B 数据库中,并且备份 A 数据库和备份 B 数据库的是交叉运行的. 二.实现 1.实现备份 A ...
Asp.net常用开发方法之DataTable/DataReader转Json格式代码
public static string JsonParse(OleDbDataReader dataReader) //DataRead转json { StringBuilder jsonStrin ...
使用CSS画图之三角形(一)
简单的画一个三角形,代码如下: <!DOCTYPE html> <html lang="en"> <head> <meta charset ...
centos7 部署dns服务器
=============================================== 2017/12/6_第2次修改 ccb_warlock 20 ...
三十天学不会TCP,UDP/IP网络编程-TraceRoute的哲学
新年快乐,继续来部分粘贴复制我的这一系列文章啦,如果对和程序员有关的计算机网络知识,和对计算机网络方面的编程有兴趣,欢迎去gitbook(https://www.gitbook.com/@rogerz ...
JQ 为未来元素添加事件处理器—事件委托
随着DOM结构的复杂化和Ajax等动态脚本技术的运用,有了较多的动态添加进来的元素,直接用JQ添加click事件会发现新添加进来的元素并不能直接选取到,在这里就需要用到事件委托方法,JQ为事件委托提供 ...
Jupyter Notebook使用小技巧
在 C:\Windows\Fonts目录下找到Mircosoft YaHei UI字体,然后复制到[你的Python安装路径]/Lib/site-packages/matplotlib/mpl-dat ...
Node.js 蚕食计划（二）—— 使用 http 模块搭建 Web 服务器
Node.js 开发的目的就是为了用 JavaScript 编写 Web 服务器程序这次就来介绍用 http 模块搭建服务器一.项目构建每个 Node 程序都可以看作一个模块,而每个模块都应该有 ...

deeplearning.ai 改善深层神经网络 week2 优化算法 听课笔记

deeplearning.ai 改善深层神经网络 week2 优化算法 听课笔记的更多相关文章

随机推荐

热门专题

deeplearning.ai 改善深层神经网络 week2 优化算法听课笔记

deeplearning.ai 改善深层神经网络 week2 优化算法听课笔记的更多相关文章