机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

2024-11-02 02:36:42 原文

有关各种优化算法的详细算法流程和公式可以参考【这篇blog】，讲解比较清晰，这里说一下自己对他们之间关系的理解。

BGD 与 SGD

首先，最简单的 BGD 以整个训练集的梯度和作为更新方向，缺点是速度慢，一个 epoch 只能更新一次模型参数。

SGD 就是用来解决这个问题的，以每个样本的梯度作为更新方向，更新次数更频繁。但有两个缺点：

更新方向不稳定、波动很大。因为单个样本有很大的随机性，单样本的梯度不能指示参数优化的大方向。
所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，而有些参数则需要频繁学习改进。

第一个问题

Mini-batch SGD 和 Momentum 算法做出的改进主要是用来解决第一个问题。

Mini-batch SGD 算法使用一小批样本的梯度和作为更新方向，有效地稳定了更新方向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度小幅影响优化方向，而不是完全决定优化方向。也起到了减小波动的效果。

第二个问题

AdaGrad 算法做出的改进用来解决第二个问题，其记录了每个参数的历史梯度平方和（平方是 element-wise 的），并以此表征每个参数变化的剧烈程度，继而自适应地为变化剧烈的参数选择更小的学习率。

但 AdaGrad 有一个缺点，即随着时间的累积每个参数的历史梯度平方和都会变得巨大，使得所有参数的学习率都急剧缩小。

RMSProp 算法解决了这个问题，其采用了一种递推递减的形式来记录历史梯度平方和，可以观察其表达式：早期的历史梯度平方和会逐渐失去影响力，系数逐渐衰减。

Adam

简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的一种算法，其既记录了历史梯度均值作为动量，又考虑了历史梯度平方和实现各个参数的学习率自适应调整，解决了 SGD 的上述两个问题。

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）的更多相关文章

优化深度神经网络（二）优化算法 SGD Momentum RMSprop Adam
Coursera吴恩达<优化深度神经网络>课程笔记(2)-- 优化算法深度机器学习中的batch的大小深度机器学习中的batch的大小对学习效果有何影响? 1. Mini-batch ...
详解Oracle数据货场中三种优化：分区、维度和物化视图
转 xiewmang 新浪博客本文主要介绍了Oracle数据货场中的三种优化:对分区的优化.维度优化和物化视图的优化,并给出了详细的优化代码,希望对您有所帮助. 我们在做数据库的项目时,对数据货场的 ...
zz：一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
首先定义:待优化参数: ,目标函数: ,初始学习率 . 而后,开始进行迭代优化.在每个epoch : 计算目标函数关于当前参数的梯度: 根据历史梯度计算一阶动量和二阶动量:, 计算当前时刻的下降 ...
一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着 ...
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW，LazyAdam)
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam) 2019年05月29日 01:07:50 糖葫芦君阅读数 455更多 ...
深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
java开发过程中几种常用算法
排序算法排序算法中包括:简单排序.高级排序简单排序简单排序常用的有:冒泡排序.选择排序.插入排序冒泡排序代码如下: private static void bubbleSrot(int[] a ...
Caffe源码-几种优化算法
SGD简介 caffe中的SGDSolver类中实现了带动量的梯度下降法,其原理如下,\(lr\)为学习率,\(m\)为动量参数. 计算新的动量:history_data = local_rate * ...
各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)
前言这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小. 本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理. Batch gradient d ...

随机推荐

CSS 居中大全（转）
引用:http://jinlong.github.io/blog/2013/08/13/centering-all-the-directions/ CSS 居中大全 AUG 13TH, 2013 | ...
SDN 期末作业验收
前言 SDN 期末作业验收我们是采用的参考场景一,我们在此场景的基础上来做负载均衡,下面是我们搭建的拓扑图演示视频 https://pan.baidu.com/s/1htkKLPM 负载均衡程序相 ...
rhel7.6上安装Oracle 19.2.0.0 RAC
1. 软硬件检查 2. 安装前环境配置 3. 安装GI su - grid -- 解压软件包 unzip -q /ups/soft/V981627-01.zip -d ${ORACLE_HOME} - ...
Docker技术入门与实战第二版-学习笔记-7-数据管理(volume)
Docker 数据管理为什么要进行数据管理呢?因为当我们在使用container时,可能会在里面创建一些数据或文件,但是当我们停掉或删除这个容器时,这些数据或文件也会同样被删除,这是我们并不想看见的 ...
MP实战系列(十三)之批量修改操作(前后台异步交互)
MyBatis的批量操作其实同MyBatis基本是一样的.并无多大区别,要说区别,除了封装的方法之外,主要就是注解方面的区别,比如@TableId.@TableField.@TableName等等区别 ...
oracle查询父节点及其下所有子节点
1.我们的组织机构就是这种树形菜单的格式. . 2.执行sql: select ( select organization_name from SYS_ORGANIZATION where organ ...
Linux下jdk&tomcat的安装
unbantu: 1.下载相应版本的jdk及tomcat:sudo wget ${url} 2.解压: tar zxvf jdk-7u79-linux-x64.tar.gz tar zxvf apa ...
Kubernetes1.91（K8s）安装部署过程（五）--安装flannel网络插件
node节点需要安装flannel网络插件才能保证所有的pod在一个局域网内通信,直接使用yum安装即可,版本是0.7.1. 1.安装flannel插件: 注意是2个node节点都需要安装,都需要修改 ...
Working With JSON
JavaScript对象表示法(JSON)是用于将结构化数据表示为JavaScript对象的标准格式,通常用于在网站上表示和传输数据(例如从服务器向客户端发送一些数据,因此可以将其显示在网页上). J ...
【hdu4405】AeroplaneChess
题目大意:问从0到n所花费时间平均时间.每次有投骰子,投到几就走几步.原题还有坐飞机 #include<iostream> #include<cmath> #include&l ...