学习率衰减

加快学习算法的一个办法就是随时间慢慢减少学习率，将之称为学习率衰减，来看看如何做到，首先通过一个例子看看，为什么要计算学习率衰减。

假设要使用mini-batch梯度下降法，mini-batch数量不大，大概64或者128个样本，在迭代过程中会有噪音（蓝色线），下降朝向这里的最小值，但是不会精确地收敛，所以的算法最后在附近摆动，并不会真正收敛，因为用的\(a\)是固定值，不同的mini-batch中有噪音。

但要慢慢减少学习率\(a\)的话，在初期的时候，\(a\)学习率还较大，的学习还是相对较快，但随着\(a\)变小，的步伐也会变慢变小，所以最后的曲线（绿色线）会在最小值附近的一小块区域里摆动，而不是在训练过程中，大幅度在最小值附近摆动。

所以慢慢减少\(a\)的本质在于，在学习初期，能承受较大的步伐，但当开始收敛的时候，小一些的学习率能让步伐小一些。

可以这样做到学习率衰减，记得一代要遍历一次数据，如果有以下这样的训练集，

应该拆分成不同的mini-batch，第一次遍历训练集叫做第一代。第二次就是第二代，依此类推，可以将\(a\)学习率设为\(a= \frac{1}{1 + decayrate * \text{epoch}\text{-num}}a_{0}\)（decay-rate称为衰减率，epoch-num为代数，\(\alpha_{0}\)为初始学习率），注意这个衰减率是另一个需要调整的超参数。

这里有一个具体例子，如果计算了几代，也就是遍历了几次，如果\(a_{0}\)为0.2，衰减率decay-rate为1，那么在第一代中，\(a = \frac{1}{1 + 1}a_{0} = 0.1\)，这是在代入这个公式计算（\(a= \frac{1}{1 + decayrate * \text{epoch}\text{-num}}a_{0}\)），此时衰减率是1而代数是1。在第二代学习率为0.67，第三代变成0.5，第四代为0.4等等，可以自己多计算几个数据。要理解，作为代数函数，根据上述公式，的学习率呈递减趋势。如果想用学习率衰减，要做的是要去尝试不同的值，包括超参数\(a_{0}\)，以及超参数衰退率，找到合适的值，除了这个学习率衰减的公式，人们还会用其它的公式。

比如，这个叫做指数衰减，其中\(a\)相当于一个小于1的值，如\(a ={0.95}^{\text{epoch-num}} a_{0}\)，所以的学习率呈指数下降。

人们用到的其它公式有\(a =\frac{k}{\sqrt{\text{epoch-num}}}a_{0}\)或者\(a =\frac{k}{\sqrt{t}}a_{0}\)（\(t\)为mini-batch的数字）。

有时人们也会用一个离散下降的学习率，也就是某个步骤有某个学习率，一会之后，学习率减少了一半，一会儿减少一半，一会儿又一半，这就是离散下降（discrete stair cease）的意思。

到现在，讲了一些公式，看学习率\(a\)究竟如何随时间变化。人们有时候还会做一件事，手动衰减。如果一次只训练一个模型，如果要花上数小时或数天来训练，有些人的确会这么做，看看自己的模型训练，耗上数日，然后他们觉得，学习速率变慢了，把\(a\)调小一点。手动控制\(a\)当然有用，时复一时，日复一日地手动调整\(a\)，只有模型数量小的时候有用，但有时候人们也会这么做。

所以现在有了多个选择来控制学习率\(a\)。可能会想，好多超参数，究竟应该做哪一个选择，觉得，现在担心为时过早。下一周，会讲到，如何系统选择超参数。对而言，学习率衰减并不是尝试的要点，设定一个固定的\(a\)，然后好好调整，会有很大的影响，学习率衰减的确大有裨益，有时候可以加快训练，但它并不是会率先尝试的内容。

这就是学习率衰减，最后还要讲讲神经网络中的局部最优以及鞍点，所以能更好理解在训练神经网络过程中，的算法正在解决的优化问题。

神经网络优化篇：详解学习率衰减(Learning rate decay)的更多相关文章

ubuntu之路——day8.5 学习率衰减learning rate decay
在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练 ...
PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
PHP函数篇详解十进制.二进制.八进制和十六进制转换函数说明作者: 字体:[增加减小] 类型:转载中文字符编码研究系列第一期,PHP函数篇详解十进制.二进制.八进制和十六进制互相转换函数说明 ...
走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
Scala进阶之路-Scala函数篇详解
Scala进阶之路-Scala函数篇详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.传值调用和传名调用 /* @author :yinzhengjie Blog:http: ...
权重衰减（weight decay）与学习率衰减（learning rate decay）
本文链接:https://blog.csdn.net/program_developer/article/details/80867468“微信公众号” 1. 权重衰减(weight decay)L2 ...
跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)
1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间当 ...
pytorch learning rate decay
关于learning rate decay的问题,pytorch 0.2以上的版本已经提供了torch.optim.lr_scheduler的一些函数来解决这个问题. 我在迭代的时候使用的是下面的方法 ...
PyTorch 计算机视觉的迁移学习教程代码详解（TRANSFER LEARNING FOR COMPUTER VISION TUTORIAL ）
PyTorch 原文: https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html 参考文章: https://www ...
mxnet设置动态学习率（learning rate）
https://blog.csdn.net/xiaotao_1/article/details/78874336 如果learning rate很大,算法会在局部最优点附近来回跳动,不会收敛: 如果l ...
CentOS 7 下编译安装lnmp之PHP篇详解
一.安装环境宿主机=> win7,虚拟机 centos => 系统版本:centos-release-7-5.1804.el7.centos.x86_64 二.PHP下载官网 http ...

随机推荐

ElasticSearch之Index stats API
获取指定索引的统计数据. 获取指定索引的全部统计数据,命令样例如下: curl -X GET "https://localhost:9200/testindex_001/_stats?pre ...
Rust实现线段树和懒标记
参考各家代码,用Rust实现了线段树和懒标记. 由于使用了泛型,很多操作都要用闭包自定义实现. 看代码. // 线段树定义 pub struct SegmentTree<T: Clone> ...
Harbor私有镜像仓库搭建
为什么选择Harbor 你可能会问既然我们已经有了 Docker 镜像仓库为什么还需要 Harbor 呢?嗯,Harbor 是 Docker 镜像仓库的企业级扩展,用途更广泛.这些新的企业级功能包括: ...
Java并发(二十二)----wait notify的正确姿势
开始之前先看看,sleep(long n) 和 wait(long n) 的区别: 1) sleep 是 Thread 的静态方法,而 wait 是 Object 的方法 2) sleep 不需要强制 ...
Programming Abstractions in C阅读笔记：p235-p241
<Programming Abstractions in C>学习第66天,p235-p241总结. 一.技术总结 1.backtracking algorithm(回溯算法) (1)定义 ...
C#有望成为2023年的编程语言之王
前言 TIOBE 2023年12月编程语言指数头条新闻:C#有望成为2023年的编程语言之王. TIOBE是什么? 访问地址:https://www.tiobe.com/tiobe-index/ TI ...
【DevCloud · 敏捷智库】暴走在发布前夜的开发，你怕不怕？
摘要:每个月都有2天开发团队要通宵熬夜,大家苦不堪言.有个别的开发同学,骂完公司骂同事,骂完同事骂客户的,甚至连自己都不放过-- 来自一个CEO的叙述在一次企业交流会上,一个公司的CEO提道,&qu ...
诸多老牌数据仓库厂商当前，Snowflake如何创近12年最大IPO金额
摘要:在数据仓库/分析领域,有传统厂商Oracle,Teradata,开源软件Hadoop,云厂商AWS Redshift,Google Bigquery,Snowflake成功的技术原因是什么? 1 ...
解读知识蒸馏模型TinyBert
摘要:本篇文章的重点在于改进信息瓶颈的优化机制,并且围绕着高纬空间中互信息难以估计,以及信息瓶颈优化机制中的权衡难题这两个点进行讲解. 本文分享自华为云社区<[云驻共创]美文赏析:大佬对变分蒸馏 ...
实用指南：手把手搭建坚若磐石的DevSecOps框架
长期以来,安全问题一直被当作软件开发流程中的最后一步.开发者贡献可以实现软件特性的代码,但只在开发生命周期的测试和部署阶段考虑安全问题.随着盗版.恶意软件及网络犯罪事件飙升,开发流程需要做出改变. 开 ...

神经网络优化篇：详解学习率衰减(Learning rate decay)

学习率衰减

神经网络优化篇：详解学习率衰减(Learning rate decay)的更多相关文章

随机推荐

热门专题