李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent

leogoforit 2024-10-08 21:52:47 原文

引言：

这个系列的笔记是台大李宏毅老师机器学习的课程笔记

视频链接（bilibili）：李宏毅机器学习(2017)

另外已经有有心的同学做了速记并更新在github上：李宏毅机器学习笔记(LeeML-Notes)

很久都没有用高数及线性代数的知识，很多都生疏了，这节课有很多的数学公式及概念，建议先看一下简书上的这篇介绍梯度及梯度下降法的文章深入浅出--梯度下降法及其实现，真的是深入浅出，好评如潮。

这里需要知道的是：

什么是梯度？
为什么要用梯度下降法？

一、什么是梯度

梯度是微积分中一个很重要的概念，梯度的意义在于：

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

二、为什么要用梯度下降法？

机器学习的目的是根据现有数据集，预测未知数据的解。首先制定预测函数f*, 其次根据预测函数制定出合理的损失函数，损失函数的意义在于如果它的值取得最小值，那么认为原来的预测函数拟合训练集数据拟合的最好。所以求出损失函数的最小值就很关键。而根据上面梯度的概念，梯度的负方向是函数值下降的方向，沿着梯度下降的方向就可以找到损失函数取最小值的解。

三、学习率的设定

学习率设置分以下几种情况：

非常大：导致损失突然变得非常大，无法收敛
较大：损失收敛在比较的值上
较小：损失虽然一直在减小，但速度很慢
正好：损失逐渐减小，最终收敛在一个比较小的值上

调节学习率的一般思想：

在一开始学习率取较大值，这样便于更加快速到达最低点
慢慢地学习率取值逐渐缩小，这样会避免学习率取值过大从而错过最低点

自适应调节学习率的方法：

Adagrad

四、Stochastic gradient decent（SGD）随机梯度下降

相比梯度下降法遍历所有数据，SGD可以随机选取某一个样本计算损失后然后更新梯度，提高训练速度，但不一定可以得到全局最优解。

博客园上一篇文章写得比较清楚 [Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD

五、Feature scaling 特征缩放/归一化

为什么要进行特征缩放？

如果样本的取值范围过大，在应用梯度下降算法寻找全局最小值的时候，损失函数需要花费巨大的代价。进行缩放后，多维特征将具有相近的尺度，这将帮助梯度下降算法更快地收敛。

很多文章都拿吴恩达的课程中图来举例：

图2 归一化之前的等高线图

图3 归一化之后的等高线图

李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent的更多相关文章

李宏毅老师机器学习课程笔记_ML Lecture 2: Where does the error come from?
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 1: ML Lecture 1: Regression - Demo
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 1: 回归案例研究
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 0-2: Why we need to learn machine learning?
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 0-1: Introduction of Machine Learning
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
斯坦福机器学习视频笔记 Week1 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
Andrew 机器学习课程笔记
Andrew 机器学习课程笔记完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...
Andrew Ng机器学习课程笔记（四）之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
【读书笔记与思考】Andrew 机器学习课程笔记
Andrew 机器学习课程笔记完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...

随机推荐

LISTAGG函数
官网进入该函数作用是可以实现对列值得拼接: 根据官网介绍,可以对列值排序进行拼接,也可以分组拼接 1.1运行结果 1.2运行结果 2运行结果注意该函数提供的 over( partition by ...
mysql 分表实现方法详解
如果你需要进行mysql分表了我们就证明你数据库比较大了,就是把一张表分成N多个小表,分表后,单表的并发能力提高了,磁盘I/O性能也提高了.并发能力为什么提高了呢,因为查寻一次所花的时间变短了,如果出 ...
Sublime Text3 旧版本下载以及破解激活方式
前言当前Sublime Text3 出到了32**版本,以前直接输入激活码的方法已经不能使用. 而官网又不提供旧版本的下载链接,因此在此分享旧版本下载方式以及激活方式. 下载方法通过下面这个链接下 ...
Samtec大数据技术解决方案
序言:众所周知,大数据将在AI时代扮演重要角色,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟. Samtec和Molex 是获得许可从而提供 M ...
这么香的Chrome插件，你都安装了吗？
工欲善其事必先利其器,今天长话短说,介绍13个敏捷.高效的Chrome插件根据使用方式,本人将其划分为三大类: 开发者工具日常效率工具类浏览器管理类开发者工具 1. Web Developer ...
Arthas 实战，助你解决同名类依赖冲突问题
上篇文章中,小黑哥分析 Maven 依赖冲突分为两类: 项目同一依赖应用,存在多版本,每个版本同一个类,可能存在差异. 项目不同依赖应用,存在包名,类名完全一样的类. 第二种情况,往往是这个场景,本地 ...
OCR场景文本识别：文字检测+文字识别
一. 应用背景 OCR(Optical Character Recognition)文字识别技术的应用领域主要包括:证件识别.车牌识别.智慧医疗.pdf文档转换为Word.拍照识别.截图识别.网络图片 ...
前端每日实战：119# 视频演示如何用纯 CSS 创作一个接扎啤的动画（内含2个视频）
效果预览按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以全屏预览. https://codepen.io/comehope/pen/rZeOQp 可交互视频此视频是可 ...
Jsp页面中动态的引入另一个jsp，jsp:include路径是变量的实现
1 问题描述在页面搭建时,会有这样的需求,希望局部页面动态的引用另一个jsp.这里的"动态"的意思引用的jsp的路径是个变量.举个例子,我们希望局部页面可能是page1.jsp或 ...
C# 简单地使用下音频解码器Bass.Net
在C#中有许多音频播放的方案,例如WinForm里调用系统自带MediaPlayer的COM组件和WPF的MediaPlayer(实质上还是WindowsMediaPlayer) 以及一堆API播放和 ...