随机梯度下降

几乎所有的深度学习算法都用到了一个非常重要的算法：随机梯度下降（stochastic gradient descent,SGD)
随机梯度下降是梯度下降算法的一个扩展

机器学习中一个反复出现的问题：

好的泛化需要大的训练集，但是大的训练集的计算代价也更大

机器学习算法中的代价函数通常可以分解成每个样本的代价函数的总和。

训练数据的负条件对数似然函数可以写成：
\[
J(\theta)=E_{x,y}L(x,y,\theta)=\frac1m\sum_{i=1}^{m}L(x^{(i)},y^{(i)},\theta)
\]
其中\(L\)是每个样本的损失\(L(x,y,\theta)=-log\ p(y|x;\theta)\)

对于这些相加的代价函数，梯度下降需要计算
\[
\bigtriangledown_{\theta}J(\theta)=\frac1m\sum_{i=1}^{m}\bigtriangledown_{\theta}L(x^{(i)},y^{(i)},\theta)
\]
这个运算的计算代价是\(O(m)\)

随机梯度下降的核心：梯度是期望

期望可以使用小规模的样本近似估计

具体操作步骤

在算法的每一步，我们从训练样本集中均匀抽出一小批量（minibatch）样本\(B=\{x^{(1)},x^{(2)},x^{(3)},...,x^{(m^{'})}\}\)。小样本批量的数目\(m^{’}\)通常是一个相对较小的数，从一到几百。重要的是，当训练集大小\(m\)增长时，\(m^{’}\)通常是固定的。我们可能在拟合几十亿的样本时，每次更新计算只用到几百个样本。

梯度的估计可以表示成：
\[
g = \frac{1}{m^{'}}\sum_{i=1}^{m^{'}}\bigtriangledown_{\theta}L(x^{(i)},y^{(i)},\theta)
\]
使用来自小批量\(B\)的样本。然后，随机梯度下降算法使用如下的梯度下降估计：
\[
\theta \leftarrow \theta-\varepsilon g
\]
其中，\(\varepsilon\)是学习率。

梯度下降往往被认为很慢或不可靠。以前，将梯度下降应用到非凸优化问题被认为很鲁莽或没有原则。优化算法不一定能保证在合理的时间内达到一个局部最小值，但它通常能及时地找到代价函数一个很小的值，并且是有用的。

随机梯度下降在深度学习之外有很多重要的应用。它是在大规模数据上训练大型线性模型的主要方法。对于规定大小的模型，每一步随机梯度下降更新的计算量不取决于训练集的大小\(m\)。在实践中，当训练集大小增长时，我们通常会随训练集规模增大而增加。然而，当m趋向于无穷大时，该模型最终会在随机梯度下降抽样完训练集上的所有样本之前收敛到可能的最优测试误差。继续增加\(m\)不会延长达到模型可能的最优测试误差的时间。从这点来看，我们可以认为用SGD训练模型的渐进代价是关于\(m\)的函数的\(O(1)\)级别。

在深度学习兴起之前，学习非线性模型的主要方法是结合核技巧的线性模型。很多核学习算法需要构建一个\(m\times m\)的矩阵\(G_{i,j}=k(x^{(i)},x^{(j)})\)。构建这个矩阵的计算量是\(O(m^2)\)。当数据集是几十亿个样本时，这个计算量是不能接受的。在学术界，深度学习从2006年开始受到关注的原因是，在数以万计样本的中等规模数据集上，深度学习在新样本上比当时很多热门算法泛化得更好。不久后，深度学习在工业界收到了更多的关注，因为其提供了一种训练大数据集上的非线性模型的可扩展方式。

深度学习笔记之【随机梯度下降（SGD）】的更多相关文章

深度学习必备：随机梯度下降（SGD）优化算法及可视化
补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...
Pytorch_第七篇_深度学习 (DeepLearning) 基础 [3]---梯度下降
深度学习 (DeepLearning) 基础 [3]---梯度下降法 Introduce 在上一篇"深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数" ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
优化-最小化损失函数的三种主要方法：梯度下降(BGD)、随机梯度下降(SGD)、mini-batch SGD
优化函数损失函数 BGD 我们平时说的梯度现将也叫做最速梯度下降,也叫做批量梯度下降(Batch Gradient Descent). 对目标(损失)函数求导沿导数相反方向移动参数在梯度下降中, ...
吴恩达深度学习：2.3梯度下降Gradient Descent
1.用梯度下降算法来训练或者学习训练集上的参数w和b,如下所示,第一行是logistic回归算法,第二行是成本函数J,它被定义为1/m的损失函数之和,损失函数可以衡量你的算法的效果,每一个训练样例都输 ...
梯度下降GD，随机梯度下降SGD，小批量梯度下降MBGD
阅读过程中的其他解释: Batch和miniBatch:(广义)离线和在线的不同
【深度学习】线性回归（Linear Regression）——原理、均方损失、小批量随机梯度下降
1. 线性回归回归(regression)问题指一类为一个或多个自变量与因变量之间关系建模的方法,通常用来表示输入和输出之间的关系. 机器学习领域中多数问题都与预测相关,当我们想预测一个数值时,就会 ...
深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
AI 随机梯度下降（SGD）
随机梯度下降(stochastic gradient descent) 梯度是期望计算梯度耗时太长

随机推荐

1.java内存区域与内存溢出异常
1.java运行时数据区如图所示: 2.每个区域的功能 (1)程序计数器(寄存器) 当前线程所执行的字节码的行号指示器为了线程切换后能够恢复到正确的执行位置,因此每个线程拥有自己独立的程序计数器如 ...
816B. Karen and Coffee 前缀和思维或线段树
LINK 题意:给出n个[l,r],q个询问a,b,问被包含于[a,b]且这样的区间数大于k个的方案数有多少思路:预处理所有的区间,对于一个区间我们标记其(左边界)++,(右边界+1)--这样就能通 ...
web开发之Servlet 三
昨天我们学习了Servlet的运行过程和生命周期,那么今天我们学习下Servlet中非常重要的两个类:ServletConfig ServletContext 我们可以看到,与顶层Servlet主动 ...
Stat1—浅谈协方差矩阵
今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差 ...
【Project Euler】530 GCD of Divisors 莫比乌斯反演
[题目]GCD of Divisors [题意]给定f(n)=Σd|n gcd(d,n/d)的前缀和F(n),n=10^15. [算法]莫比乌斯反演 [题解]参考:任之洲数论函数.pdf 这个范围显然 ...
旅游（CSUST省赛选拔赛2+状压dp+最短路）
题目链接:http://csustacm.com:4803/problem/1016 题目: 思路:状压dp+最短路,比赛的时候有想到状压dp,但是最短路部分写挫了,然后就卡死了,对不起出题人~dis ...
LintCode题解之子树
思路: 最简单的方法,依次遍历比较就可以了. AC代码: /** * Definition of TreeNode: * public class TreeNode { * public int va ...
bzoj 3083 树链剖分
首先我们先将树提出一个根变成有根树,那么我们可以通过树链剖分来实现对于子树的最小值求解,那么按照当前的根和询问的点的相对位置关系我们可以将询问变成某个子树和或者除去某颗子树之后其余的和,前者直接询问区 ...
Python作业选课系统（第六周）
作业需求: 角色:学校.学员.课程.讲师.完成下面的要求 1. 创建北京.上海 2 所学校 2. 创建linux , python , go 3个课程 , linux\py 在北京开, go 在上海开 ...
iphone6设置企业qq
1.首先要确定foxmail的账户服务器信息,右上角-账户账户管理-服务器设置 2.iphone端:

深度学习笔记之【随机梯度下降（SGD）】

随机梯度下降

深度学习笔记之【随机梯度下降（SGD）】的更多相关文章

随机推荐

热门专题