梯度下降:SGD vs Momentum vs NAG vs Adagrad vs Adadelta vs RMSprop vs Adam
原文地址:https://www.jianshu.com/p/7a049ae73f56
梯度下降优化基本公式:\({\theta\leftarrow\theta-\eta\cdot\nabla_\theta{J(\theta)}}\)
一、三种梯度下降优化框架
这三种梯度下降优化框架的区别在于每次更新模型参数时使用不同的样本数。
(一)Batch Gradient Descent
批/全量梯度下降每次更新模型参数时使用全部的训练样本。
\({\theta\leftarrow\theta-\eta\cdot\frac{1}{N}\sum_{i=1}^{N}\nabla_\theta{J({\theta};x_i,y_i)}}\),\(N\)为训练样本数
- 优点:每次更新都会朝着正确的方向进行,最终能够保证收敛于极值点,因此更新比较稳定。
- 缺点:每次的学习时间过长,训练集很大时会消耗大量内存,且不能进行在线模型参数更新。
(二)Stochastic Gradient Descent
随机梯度下降每次更新参数时从训练样本中随机选择一个样本。
\({\theta\leftarrow\theta-\eta\cdot\nabla_\theta{J({\theta};x_i,y_i)}}\)
- 优点:每次的学习很快速,且可以进行在线更新。
- 缺点:每次的更新可能并不会完全朝着正确的方向进行,高频率的参数更新导致了高方差,因此带来了优化波动。
关于优化波动,带来的好处是在有很多local minima的区域,优化波动可能会使得优化的方向从当前的local minima跳到另一个更好的local minima,甚至是global minima,最终收敛于一个较好的minima。由于波动,迭代次数增多,收敛速度下降,不过最终会和批梯度下降一样具有收敛性。
(三)Mini-batch Gradient Descent
小批量梯度下降每次更新模型参数时从训练样本中随机选择\(M\)个样本,\(M<N\),\(M\)常取32~256。
\({\theta\leftarrow\theta-\eta\cdot\frac{1}{M}\sum_{i取M个不同值}\nabla_\theta{J({\theta};x_i,y_i)}}\)
- 优点:结合了批梯度下降的稳定性和随机梯度下降的随机性。相对于随机梯度下降,小批量梯度下降降低了收敛波动性,即降低了参数更新的方差,使得参数更新更加稳定;相对于批梯度下降,小批量梯度下降提高了每次的更新速度,不用担心内存瓶颈,可利用矩阵运算进行高效计算,在GPU的帮助下,小批量梯度下降和随机梯度下降更新一次参数的时间差不多,并且批梯度下降容易卡在较浅的local minima处或不那么麻烦的saddle point处,这时候给它随机梯度下降的随机性就能够逃脱出来。
一般,SGD指小批量梯度下降。SGD存在的问题:
- 对于非凸函数,常卡在次优的local minima处以及较为麻烦的如周围都是plateau的saddle point处。
- 选择一个合理的\({\eta}\)很困难。太小,收敛太慢;太大,loss变大或在local minima附近振荡。
- 手动调整\({\eta}\)时,无论是哪种调整方式,都需要事先进行固定设置,无法自适应学习的训练数据的特点。
- 模型所有参数每次更新时都是使用相同的\(\eta\)。如果数据特征是稀疏的或者每个特征有着不同的取值统计特征与空间,便不能在每次更新中对每个特征使用相同的\(\eta\)。如对那些很少出现的特征应该使用较大的\({\eta}\)。
二、梯度下降优化策略
以下,将\({\frac{1}{m}\sum_{i取m个不同值}\nabla_\theta{J({\theta};x_i,y_i)}}\)记作\({\nabla_\theta{J(\theta)}}\)。
(一)Momentum
\({m\leftarrow\gamma\cdot{m}+\eta\cdot\nabla_\theta{J(\theta)}}\),\(m\)为动量项
\({\theta\leftarrow\theta-m}\)
其中,动量项超参数\({\gamma}\)越大,之前梯度方向对当前方向的影响也越大。
- 优点:更新模型参数时,对那些当前梯度方向与之前方向一致的参数梯度进行加强,使得在当前方向上更快了;对那些当前梯度方向与之前方向不一致的参数梯度进行减弱,使得在当前方向上更慢了。因此在更新中可以获得更快的收敛速度与减少振荡。下降中后期,在local minima处来回振荡时,当前梯度趋于0,动量项的存在使得更新幅度增大,有助于跳出较浅的local minima。
(二)Nesterov Accelerated Gradient
NAG计算“超前梯度”更新动量项。
\({m\leftarrow\gamma\cdot{m}+\eta\cdot\nabla_\theta{J(\theta-\gamma\cdot{m})}}\)
\({\theta\leftarrow\theta-m}\)
既然参数要沿着\({\gamma\cdot{m}}\)方向更新(蓝线),不妨计算下未来位置\({\theta-\gamma\cdot{m}}\)处的梯度(红线),再将动量项与其合并作为最终的更新项(绿线)。
- 优点:阻止过快更新来提高响应性。
可以在梯度下降的过程中自动调节\(\eta\)。大原则是\(\eta\)随更新次数的增大而减小,同时也要针对不同的参数设置不同的\(\eta\)。有很多这样的自动调节\(\eta\)的梯度下降方法,名称常以"Ada"开头。
(三)Adagrad
\({s\leftarrow{s}+\nabla_\theta{J(\theta)}\odot\nabla_\theta{J(\theta)}}\),\(s\)为过去到当前时刻的参数梯度平方和
\({\theta\leftarrow\theta-\frac{\eta}{\sqrt{s+\epsilon}}\cdot\nabla_\theta{J(\theta)}}\),\(\epsilon\)为平滑参数,常为1e-8
\({\frac{1}{\sqrt{s+\epsilon}}}\)作为regularizer项,其分母部分使用1阶导数的函数计算近似了2阶导数的计算,没有增加额外的花费来估计2阶导数。训练前期,梯度较小,regularizer项较大,放大梯度;训练后期,梯度较大,regularizer项较小,约束梯度。
- 优点:能够对每个参数自适应不同的学习速率。对于稀疏特征,能得到较大的学习更新;对于非稀疏特征,能得到较小的学习更新。因此适合处理稀疏数据。
- 缺点:学习速率单调递减,最终会趋于0,学习停止过快。
(四)Adadelta
\({s\leftarrow\gamma\cdot{s}+(1-\gamma)\cdot\nabla_\theta{J(\theta)}\odot\nabla_\theta{J(\theta)}}\),\(s\)为过去到当前时刻的参数梯度值平方的加权平均
\({\Delta\theta=\frac{\sqrt{r}}{\sqrt{s+\epsilon}}\cdot\nabla_\theta{J(\theta)}}\)
\({\theta\leftarrow\theta-\Delta\theta}\)
\({r\leftarrow\gamma\cdot{r}+(1-\gamma)\cdot\Delta\theta\odot\Delta\theta}\),\(r\)为过去到前一时刻的参数更新值平方的加权平均
Adadelta作者用2个反复近似的式子来说明一阶方法比起二阶方法到底差在哪里。
一阶方法如SGD中:\({\Delta\theta\propto{g}\propto\frac{\delta{J}}{\delta\theta}\propto\frac{1}{\theta}}\)。
二阶方法如牛顿法中:\({\Delta\theta\propto{H^{-1}}\cdot{g}\propto\frac{\frac{\delta{J}}{\delta\theta}}{\frac{\delta^2{J}}{\delta\theta^2}}\propto\frac{\frac{1}{\theta}}{\frac{1}{\theta}\cdot\frac{1}{\theta}}\propto\theta}\)。
注:用矩阵对角线近似逆矩阵:\({\Delta\theta=H^{-1}\cdot{g}=\frac{1}{|diag(H)|+\epsilon}}\);对\(\theta\)的一阶导数取log正比于\(\frac{1}{\theta}\)。
一阶方法与参数成逆相关,二阶方法与参数成正相关。
基于一阶梯度近似代替二阶梯度的思想,有\({\Delta\theta\approx\frac{\frac{\delta{J}}{\delta\theta}}{\frac{\delta^2{J}}{\delta\theta^2}}\approx\frac{1}{\frac{\delta^2{J}}{\delta\theta^2}}\cdot{g}\approx\frac{\Delta\theta}{\frac{\delta{J}}{\delta\theta}}\cdot{g}\approx\frac{RMS[\Delta\theta]_{t-1}}{RMS[g]_t}\cdot{g}}\),RMS指Root Mean Square。
- 优点:缓解了Adagrad中学习速率衰减过快的问题。不依赖于全局\(\eta\)。
(五)RMSprop
是Adadelta的特例,无\(r\)有\(s\)。
\({s\leftarrow\gamma\cdot{s}+(1-\gamma)\cdot\nabla_\theta{J(\theta)}\odot\nabla_\theta{J(\theta)}}\)
\({\theta\leftarrow\theta-\frac{\eta}{\sqrt{s+\epsilon}}\cdot\nabla_\theta{J(\theta)}}\)
(六)Adam
\({m\leftarrow\beta_1\cdot{m}+(1-\beta_1)\cdot\nabla_{\theta}J(\theta)}\),\(m\)为梯度的加权平均,一阶矩变量,有偏
\({s\leftarrow\beta_2\cdot{s}+(1-\beta_2)\cdot\nabla_\theta{J(\theta)}\odot\nabla_\theta{J(\theta)}}\),\(s\)为梯度平方的加权平均,二阶矩变量,有偏,梯度的加权有偏方差
\(m\)和\(s\)均初始化为\({\vec{0}}\),Adam作者发现它们会倾向于为\({\vec{0}}\),特别是在\(\beta_1\)和\(\beta_2\)趋于1时。
为了改进这个问题,对\(m\)和\(s\)进行偏差修正,近似于期望的无偏估计。
\({m\leftarrow\frac{m}{1-\beta_1}}\)
\({s\leftarrow\frac{s}{1-\beta_2}}\)
\({\theta\leftarrow\theta-\frac{\eta}{\sqrt{s+\epsilon}}\cdot{m}}\)
经过偏置校正后,每一次迭代的学习率都有个确定的范围,使得参数比较平稳。
三、梯度下降策略的选择
Adagrad、Adadelta、RMSprop在loss surface上能够立刻转移到正确的移动方向上达到快速的收敛,而Momentum、NAG会导致偏离,相较于Momentum,NAG能够在偏移之后更加迅速地修正其路线。
在saddle point处,SGD、Momentum、NAG一直在鞍点梯度为0的方向上振荡,Adagrad、Adadelta、RMSprop能够很快地向梯度不为0的方向上转移。
如果数据特征是稀疏的,最好使用自适应的梯度优化策略。
实验中,SGD常能够收敛到更好的minima,但是相对于其他的GD,可能花费的时间更长,并且依赖于初始值以及学习速率退火策略,并且容易陷入local minima以及鞍点。
四、一些建议
(一)调整学习速率
\(\eta\)恰好,可以走到局部最小值点;\(\eta\)太小,走得太慢,也可以走到局部最小值点;\(\eta\)太大,很可能走不到局部最小值点,卡在某处上;\(\eta\)太太大,很可能走出去。
(二)特征缩放
\(w1\)变化,\(y\)变化小,\(w1\)对loss影响小;\(w2\)变化,\(y\)变化大,\(w2\)对loss影响大。
一般来说,椭圆形中不同方向的\(\eta\)需求不一样,需要使用如"Ada"的自适应梯度下降方法;圆形中更新次数较少。因为无论椭圆形还是圆形,更新时都是沿着等高线的法线方向,而圆形直接向着圆心走。
通过将特征归一化,使得特征各个维度上的均值为0、方差为1来实现特征缩放.
梯度下降:SGD vs Momentum vs NAG vs Adagrad vs Adadelta vs RMSprop vs Adam的更多相关文章
- SGD vs Momentum vs NAG vs Adagrad vs Adadelta vs RMSprop vs Adam
梯度下降优化基本公式:\({\theta\leftarrow\theta-\eta\cdot\nabla_\theta{J(\theta)}}\) 三种梯度下降优化框架 这三种梯度下降优化框架的区别在 ...
- 深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...
- 【深度学习】深入理解优化器Optimizer算法(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...
- 深度学习(九) 深度学习最全优化方法总结比较(SGD,Momentum,Nesterov Momentum,Adagrad,Adadelta,RMSprop,Adam)
前言 这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x(权重),使得f(x)的值最小. 本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理. SGD SGD指stoc ...
- 【python实现卷积神经网络】优化器的实现(SGD、Nesterov、Adagrad、Adadelta、RMSprop、Adam)
代码来源:https://github.com/eriklindernoren/ML-From-Scratch 卷积神经网络中卷积层Conv2D(带stride.padding)的具体实现:https ...
- 优化-最小化损失函数的三种主要方法:梯度下降(BGD)、随机梯度下降(SGD)、mini-batch SGD
优化函数 损失函数 BGD 我们平时说的梯度现将也叫做最速梯度下降,也叫做批量梯度下降(Batch Gradient Descent). 对目标(损失)函数求导 沿导数相反方向移动参数 在梯度下降中, ...
- 批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
- [sklearn] 实现随即梯度下降(SGD)&分类器评价参数查看
直接贴代码吧: 1 # -*- coding:UTF-8 -*- 2 from sklearn import datasets 3 from sklearn.cross_validation impo ...
- 梯度下降GD,随机梯度下降SGD,小批量梯度下降MBGD
阅读过程中的其他解释: Batch和miniBatch:(广义)离线和在线的不同
随机推荐
- C++11中vector的几种遍历方法
假设有这样的一个vector: vector<int> line={1,2,3,4,5,6,7,8,9}; 需要输出vector里的每个元素,主函数如下: void showvec(con ...
- C++ Compiling… Error spawning cl.exe
转自VC错误:http://www.vcerror.com/?p=500 解决方法: 方法(一): 启动VC时不要用图形界面,通过在命令提示符下输入:Msdev /useenv运行(注意啦/前面有个空 ...
- appium 环境搭建(不推荐安装此版本appium,推荐安装appium desktop)
一:安装node.js 1.双击这个软件 2.一键安装,全都下一步,不要私自更改安装路径 3.打开cmd,输入npm,出现如下截图表示成功 二:安装appium 1.双击appium-installe ...
- upc组队赛3 T-net【贪心】
T-net 题目描述 T-net which is a new telecommunications company, plans to install its base stations in th ...
- 前端学习笔记——引入css文件、样式优先级
CSS样式的引用方式有三种:行间样式表>内部样式表>外部样式表. 如果只有一种样式,那么优先级“由内到外 由近到远” 1.行间样式表--内联方式 内联方式指的是直接在 HTML 标签中的 ...
- Java finally块
try块也可以有零个或一个finally块. finally块总是与try块一起使用. 语法 finally块的语法是: 1 2 3 finally { // Code for finall ...
- docker volume持久化存储与数据分享
第一种 指定volume文件mysql存储,存储的位置为/var/lib/mysql -v mysql:/var/lib/mysql 第二种 同步文件,将容器中的skeleton文件夹的内容同步到宿主 ...
- moment.js 快捷查询
格式化日期 当前时间: moment().format('YYYY-MM-DD HH:mm:ss'); //2014-09-24 23:36:09 今天是星期几: moment().format('d ...
- java实现单链表逆置
class LNode { public LNode next; public int data; } /*逆置链表*/ class Nizhi { private static LNode head ...
- hbase报错: hbase.PleaseHoldException: Master is initializing
查看hbase服务状态报错: hbase(main)::> status ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master ...