学习率 Learning Rate

本文从梯度学习算法的角度中看学习率对于学习算法性能的影响，以及介绍如何调整学习率的一般经验和技巧。

在机器学习中，监督式学习（Supervised Learning）通过定义一个模型，并根据训练集上的数据估计最优参数。梯度下降法（Gradient Descent）是一个广泛被用来最小化模型误差的参数优化算法。梯度下降法通过多次迭代，并在每一步中最小化成本函数（cost function）来估计模型的参数（weights）。

梯度下降的伪代码如下：

　　重复已下过程，直到收敛为止{

　　　　ω_j = ω_j - λ ∂F(ω_j) / ∂ω_j

　　}

说明：（1） ω_j是模型参数， F()是成本函数， ∂F(ω_j) / ∂ω_j 是ω_j 的一阶导数，λ 是学习率

　　　（2）如果F()是单调函数，经过多次迭代会得到最小的成本函数；如果F()非单调，那么我们有可能陷入局部最优，一个简单的解决办法是通过多次尝试不同的ω_j初始值，对比不同估计参数下的成本函数的值是否一致，来发现是否陷入局部最优。

　　　（3）梯度下降法未必是最优的计算权重参数的方法，但是作为一种简单快速的方法，常常被使用。参照Andrew Ng的Stanford公开课程。

梯度下降过程的图示如下：

学习率的调整

为了能够使得梯度下降法有较好的性能，我们需要把学习率的值设定在合适的范围内。学习率决定了参数移动到最优值的速度快慢。如果学习率过大，很可能会越过最优值；反而如果学习率过小，优化的效率可能过低，长时间算法无法收敛。所以学习率对于算法性能的表现至关重要。

对于不同大小的数据集，调节不同的学习率

根据我们选择的成本函数F()不同，问题会有区别。当平方误差和（Sum of Squared Errors）作为成本函数时， ∂F(ω_j) / ∂ω_j 会随着训练集数据的增多变得越来越大，因此学习率需要被设定在相应更小的值上。

解决此类问题的一个方法是将学习率λ 乘上1/N，N是训练集中数据量。这样每部更新的公式变成下面的形式：

ω_j = ω_j - (λ/N) * ∂F(ω_j) / ∂ω_j

相关内容可参考： Wilson et al. paper “The general inefﬁciency of batch training for gradient descent learning”

另外一种解决方法是：选择一个不被训练集样本个数影响的成本函数，如均值平方差（Mean Squared Errors）。

在每次迭代中调节不同的学习率

在每次迭代中去调整学习率的值是另一种很好的学习率自适应方法。此类方法的基本思路是当你离最优值越远，你需要朝最优值移动的就越多，即学习率就应该越大；反之亦反。

但是这里有一个问题，就是我们并不知道实际上的最优值在哪里，我们也不知道每一步迭代中我们离最优值有多远。

解决办法是，我们在每次迭代的最后，使用估计的模型参数检查误差函数（error function）的值。如果相对于上一次迭代，错误率减少了，就可以增大学习率，以5%的幅度；如果相对于上一次迭代，错误率增大了（意味着跳过了最优值），那么应该重新设置上一轮迭代ω_j 的值，并且减少学习率到之前的50%。这种方法叫做 Bold Driver.

建议：归一化输入向量

归一化输入向量在机器学习问题中是一个通用的方法。在一些应用中，由于使用距离或者特征方差，要求必须归一化输入向量，因为如果不归一化将导致结果会严重被具有大方差的特征和不同的尺度影响。归一化输入能够帮助数值最优方法（例如，梯度下降法）更快，更准确地收敛。

尽管有一些不同的归一化变量的方法，[0,1]归一化（也叫做min-max）和z-score归一化是两种最为广泛应用的。

XminmaxNorm = (X - min(X)) / (max(X) - min(X));

XzscoreNorm = (X - mean(X)) / std(X);

说明：本文为http://blog.datumbox.com/tuning-the-learning-rate-in-gradient-descent/ 的译文版，原文作者 Vasilis Vryniotis.

希望有助于大家理解与使用！

学习率 Learning Rate的更多相关文章

学习率(Learning rate)的理解以及如何调整学习率
1. 什么是学习率(Learning rate)? 学习率(Learning rate)作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值.合适的学习率 ...
深度学习: 学习率 (learning rate)
Introduction 学习率 (learning rate),控制模型的学习进度 : lr 即 stride (步长) ,即反向传播算法中的 ηη : ωn←ωn−η∂L∂ωnωn←ωn−η∂ ...
mxnet设置动态学习率（learning rate）
https://blog.csdn.net/xiaotao_1/article/details/78874336 如果learning rate很大,算法会在局部最优点附近来回跳动,不会收敛: 如果l ...
权重衰减（weight decay）与学习率衰减（learning rate decay）
本文链接:https://blog.csdn.net/program_developer/article/details/80867468“微信公众号” 1. 权重衰减(weight decay)L2 ...
Dynamic learning rate in training - 培训中的动态学习率
I'm using keras 2.1.* and want to change the learning rate during training. I know about the schedul ...
跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)
1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间当 ...
Keras 自适应Learning Rate (LearningRateScheduler)
When training deep neural networks, it is often useful to reduce learning rate as the training progr ...
TensorFlow使用记录 (三）： Learning Rate Scheduling
file: tensorflow/python/training/learning_rate_decay.py 参考:tensorflow中常用学习率更新策略神经网络中通过超参数 learning ...
Batchsize与learning rate
https://www.zhihu.com/question/64134994 1.增加batch size会使得梯度更准确,但也会导致variance变小,可能会使模型陷入局部最优: 2.因此增大b ...

随机推荐

【浅谈web安全】大企业安全：从员工下手
目前所有的企业都存在这方面的问题,比如员工把服务器和后台密码直接明文保存在云笔记和网盘中,员工企业邮箱密码跟外部个人密码一致等等,通常我们在入侵的时候只要在微博搜索一个目标公司的员工,拿到常用密码后登 ...
我的acm vim 备忘
一.從命令到編輯模式 a :当前单词后面插入Appendi :当前位置插入Inserto :当前行下新开一行插入Open new lineA :当前行尾插入AppendI :当前行首插入InsertO ...
Java并发编程-阻塞队列
Java concurrent 包中BlockingQueue接口有ArrayBlockingqueue.LinkedBlockingQueue.PriorityBlockingQueue.Synch ...
RestTemplate post如何传递参数
背景今天跟同事接口联调,使用RestTemplate请求服务端的post接口(使用python开发).诡异的是,post请求,返回500 Internal Server Error,而使用get请求 ...
[WPF]如何调试Data Binding
前言在WPF开发中,将ViewModel中对象绑定到UI上时,会出现明明已经将数据对象Binding到UI,但是UI上就是不显示等等的问题.这篇博客将介绍WPF Data Binding相关的内容, ...
Android项目实战（三十四）：蓝牙4.0 BLE 多设备连接
最近项目有个需求,手机设备连接多个蓝牙4.0 设备并获取这些设备的数据. 查询了很多资料终于实现,现进行总结. ------------------------------------------- ...
Visual Studio2017 远程调试 Remote Debugger
前言大家在使用vs打包后的文件部署到服务器后,有时候我们需要对线网的后台进行调试.但是它不像在VS中.这个时候我们该怎么调试呢? 微软想到了这一点,他们在 VS 中给我们提供了一个功能: Remot ...
sqlserver优化
有些程序员在撰写数据库应用程序时,常专注于 OOP 及各种 framework 的使用,却忽略了基本的 SQL 语句及其「性能 (performance)优化」问题.版工曾听过台湾某半导体大厂的新进程 ...
Node.js之eventproxy详解
安装 npm install eventproxy --save 调用 var EventProxy = require('eventproxy'); 异步协作多类型异步协作此处以页面渲染为场景, ...
Swing-setOpaque()用法-入门
先看API: public void setOpaque(boolean isOpaque) 如果为 true,则该组件绘制其边界内的所有像素.否则该组件可能不绘制部分或所有像素,从而允许其底层像素透 ...

学习率 Learning Rate

学习率 Learning Rate的更多相关文章

随机推荐

热门专题