如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）

梯度下降算法的任务是寻找参数θ，使之能够最小化损失函数。

那么梯度下降法中的学习速率α应该如何选择呢？通常我们画出损失函数随迭代次数增加而变化的曲线。

可能会得到如下的一条曲线，x轴表示迭代次数，y轴表示梯度下降算法迭代相应次数之后算出的损失函数值。

可以看到，当迭代300次之后，损失函数的值并没有下降多少，也就是说在这里梯度下降算法基本上已经收敛了。因此，这条曲线还可以帮助你判断梯度下降算法是否已经收敛。（对于某一个特定的问题，梯度下降算法所需要的迭代次数相差很大，可能对于某一个问题只需要30步，但是对于另一个问题则需要30000步，我们没有办法提前进行判断。）

如果梯度下降算法工作正常，那么每一步迭代之后，损失函数的值都应该下降。

如下图左上角所示，如果你发现随着迭代次数的增加，损失函数的值在变大，这通常是因为学习速率α选择的太大，需要将它调小。（如下图右面所示，我们从初始θ出发，但是由于学习速率α太大，一下子跑到了最低点的左边，然后下一次迭代又一下子跑到了最低点的右边，如此往复，损失函数就会越来越大。）

如下图左下角所示，你也会遇到这样的一种情况：随着迭代次数的增加，损失函数的值一会上升，一会下降，这通常也是因为学习速率α太大，需要使用较小的学习速率。

总结来说，如果学习速率α太小，梯度下降收敛速度会很慢；如果学习速率α太大，损失函数的值在每次迭代后不一定能下降，算法最后可能会发散。对于学习速率α，可以先选择0.001，然后按10倍来进行调整。

如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）的更多相关文章

几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
NLR：利用非线性回归，梯度下降法求出学习参数θ，进而求得Cost函数最优值——Jason niu
import numpy as np import random def genData(numPoints,bias,variance): x = np.zeros(shape=(numPoints ...
斯坦福大学公开课机器学习：梯度下降运算的学习率a（gradient descent in practice 2：learning rate alpha）
本章节主要讲怎么确定梯度下降的工作是正确的,第二是怎么选择学习率α,如下图所示: 上图显示的是梯度下降算法迭代过程中的代价函数j(θ)的值,横轴是迭代步数,纵轴是j(θ)的值如果梯度算法正常工作,那 ...
机器学习---用python实现最小二乘线性回归算法并用随机梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）
在<机器学习---线性回归(Machine Learning Linear Regression)>一文中,我们主要介绍了最小二乘线性回归算法以及简单地介绍了梯度下降法.现在,让我们来实践 ...
RFC2889MAC地址学习速率——网络测试仪实操
一.简介 RFC 2889为LAN交换设备的基准测试提供了方法学,它将RFC 2544中为网络互联设备基准测试所定义的方法学扩展到了交换设备,提供了交换机转发性能(Forwarding Perform ...
梯度下降算法实现原理(Gradient Descent)
概述梯度下降法(Gradient Descent)是一个算法,但不是像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法求解出最优解的,所谓的通用就是很 ...
Coursera在线学习---第一节.梯度下降法与正规方程法求解模型参数比较
一.梯度下降法优点:即使特征变量的维度n很大,该方法依然很有效缺点:1)需要选择学习速率α 2)需要多次迭代二.正规方程法(Normal Equation) 该方法可以一次性求解参数Θ 优点:1 ...
机器学习算法中怎样选取超參数：学习速率、正则项系数、minibatch size
本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习算法中,怎样选取初始的超參数的值.(本文会不断补充) 学习速率(learnin ...

随机推荐

[LOJ3086] [GXOI2019] 逼死强迫症
题目链接 LOJ:https://loj.ac/problem/3086 洛谷:https://www.luogu.org/problemnew/show/P5303 Solution 显然不考虑\( ...
缓存的设计及PHP实现LFU
1. 恒定缓存性能有哪些因素? 命中率.缓存更新策略.缓存最大数据量. 命中率:指请求缓存次数和缓存返回正确结果次数的比例.比例越高,缓存的使用率越高,用来衡量缓存机智的好坏和效率.如果数据频繁更新, ...
ubuntu classicmenu-indicator
sudo add-apt-repository ppa:diesch/testing sudo apt-get update sudo apt-get install classicmenu-in ...
Mycat分布式数据库架构解决方案--schema.xml详解
echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.--这才是真正的堪称强大!!! 该文件 ...
Mycat分布式数据库架构解决方案--rule.xml详解
echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.--这才是真正的堪称强大!!! 该文件 ...
ASP.NET MVC+Entity Framework code first 迁移
再来一张,选择 MVC 模版,其他的没选过,不会用 =_=!! 身份验证用个人用户账户,这个是为了偷懒,话说 ASP.NET Identity 还是很给力的,不用白不用 ^_^~ 点击确定之后,会看 ...
MySql注释的写法
每一种语言都有它的注释方式,代码量少的时候还可以,随着代码量越来越多,代码注释的重要性也越发凸显. 在mysql中主要有三种方式: 1.常用的方式,跟在css中那些注释一样 :/* 内容 */ /* ...
Oracle表数据转换为XML格式数据
转自:https://blog.csdn.net/smile_caijx/article/details/83352927 使用DBMS_XMLGEN可以解决问题 SELECT DBMS_XMLGEN ...
Redis主从同步之主库挂死解决方案
Redis实现了主从同步,但是主库挂死了,如何处理方案:切换主库的身份 # 连接从库 [root@localhost redis-]# redis-cli -p # 取消从库身份 > slav ...
gitlab及jenkins
1.安装配置gitlab服务,在gitlab新建一个仓库,配置本地密钥,并通过ssh方式拉取gitlab仓库代码 https://packages.gitlab.com/gitlab/gitlab-c ...

如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）

如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）的更多相关文章

随机推荐

热门专题