关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html


根据前面所为,当我们得到Loss方程的时候,我们希望求得最优的Loss方程。为此,我们可以采用了一种方法----Gradien Descent
为什么可以使用这种方法呢,我们先保留这个疑问,先看一下什么是Gradien Descent。

如下图,我们假定某个Loss方程有两个参数,同时我们假定了一个learning rate。每次update 参数与其偏微分learning rate的差

那么这样做会有什么问题呢?如何优化这种做法呢?


Tuning your learning rates

如下图,当我们取的learning rate太大或者太小都会出现:梯度下降的效果达不到我们预期的目标。所以我们必须仔细考虑好learning rate

所以我们希望可以做到以下两点:

  • At the beginning, we are far from the destination, so we use larger learning rate
  • After several epochs, we are close to the destination, so we reduce the learning rate

Learning rate cannot be one-size-fits-all
所以我们是否能够给不同的参数以不同的learning rate以达到我们的目的?

为此:我们可以使用一种叫 Adagrad 的方法。
我们最开始参数更新的方法如下图:

其中:

为了使得learning rate的变化达到我们理想的效果,Adagrad在每次参数update的时候将变换后的learning rate除以所有前面参数偏微分的均方根,如下图所示:

其中:

这样化简可以得到Adagrad后的式子:

那么是如何想到用Adagrad这样一个方法的呢?

  • 看看课程就了解了……

Stochastic Gradient Descent

我们每次从样本中随机选出一个,求得其Loss方程,然后再不断进行迭代。

这样因为部分样本跨度较大,使得迭代过程中,我们更快接近最优的Loss方程,如下图所示:


Feature Scaling

Feature Scaling的做法是让特征值的分布都比较接近,如下图所示:

这样就会加速我们接近最优解:

而我们的做法就是,求得某个特征值在所有样本下的平均值和标准差,然后update特征值:


回到最初:

Gradien Descent从哪里来?

我们在Loss方程中位于某个点,为了达到最优的Loss方程,我们可以每次往前跨出一步。所以我们可以在该点附近画一个圈圈,然后选择圈圈内最优的点,然后再迭代。

利用泰勒公式,将当前的Loss方程化简:

此时我们为了是Loss方程最优(即最小),我们就要选取适当的值。

由于S为常量,我们不用考虑,则只需要考虑:

根据数学知识,我们知道两个向量相乘,值要最小,那么这两个向量应该为相反向量,即为(u,v)向量的相反向量

同时,在满足:的条件下,我们很容易得到:

而这个式子就是gradient descent,其中的系数n就决定了这个相反向量的长度,也就是learning rate,也就是和步长;负号则是表示(u,v)向量的相反。

现在让我们回到泰勒公式成立的条件,当我们的半径d足够小的时候,泰勒公式的一阶展开式:

才会足够准确。

所以如果我们只是一阶展开,我们的步子就不能太大。如果我们的模型足够复杂,我们的步子就可以往前多迈一些。

因此,learning rate便决定着整个推导的条件是否足够准确,当我们的learning rate太离谱的时候,我们很难得到所期望的结果

END

找个女孩子跨年有没有啊???

# ML学习小笔记—Gradien Descent的更多相关文章

  1. # ML学习小笔记—Linear Regression

    Regression Output a scalar Model:a set of function 以Linear model为例 y = b+w * $x_cp$ parameters:b,W f ...

  2. # ML学习小笔记—Classification

    关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 通过模型可以分类输入,此时根据分类结果的正确与否会有一个Loss函数.找 ...

  3. # ML学习小笔记—Where does the error come from?

    关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 错误来自哪里? error due to "bias" ...

  4. English - 英语学习小笔记

    1.It is...to do sth:做某事是.... 解析:It 是形式主语,后面一半接形容词做表语,to do sth是不定式短语作真正主语. 2.make do和make doing是两种表达 ...

  5. WEB学习小笔记

    环境基于WIN10.IDEA最新版.JDK1.8.TOMCAT9 下面说的有错的地方希望指出,谢谢. STRUT2 1.在maven下的时候系统会系统创建一个叫做log4j的配置文件,但是到了这个版本 ...

  6. SQL 学习小笔记

    1.FOUND_ROWS() 题目: ,; 在上边sql中使用什么选项可以使 SELECT FOUND_ROWS()忽略LIMIT子句,返回总数? *答案* : SQL_CALC_FOUND_ROWS ...

  7. java学习小笔记(三.socket通信)【转】

    三,socket通信1.http://blog.csdn.net/kongxx/article/details/7288896这个人写的关于socket通信不错,循序渐进式的讲解,用代码示例说明,运用 ...

  8. MongoDB 学习小笔记

    1.配置:mongod --dbpath=D:\MongoDB\data mongo2.基本的增删查改 find() update()-- 整体更新,局部更新. 修改器: $inc db.person ...

  9. vue 的个人学习小笔记

    一.vite2.0+vue3.0+ts 创建.配置 个人公众号文章地址 个人github仓库地址 1.Vite 创建 vue3 项目: 1.1.npm 常用命令 1.npm 查看版本号 npm vie ...

随机推荐

  1. 面试遇到的select into 但是在PL/SQL developer ORA-00905:缺失关键字"错误。

    select into 是什么意思. 1.INSERT INTO SELECT语句 语句形式为:Insert into Table2(field1,field2,...) select value1, ...

  2. 一站式学习Redis 从入门到高可用分布式实践(慕课)第六章 Redis开发运维常见问题

    fork操作 1.同步操作 2.与内存量息息相关:内存越大,耗时越长(与机器类型有关) 3.info:latest_fork_usec 进程外开销 AOF追加阻塞 不知道哪个命令??? 单机多实例部署 ...

  3. JetBrains 授权服务器(License Server):

    JetBrains 授权服务器(License Server): https://www.imsxm.com/jetbrains-license-server.html

  4. 清除.svn文件

    清除以.svn结尾的文件: 新建一文本,然后复制以下代码进去,然后保存成clean.bat即可,它会把当前文件夹以及以下的所有匹配文件都给删除了 @echo on color 2f mode con: ...

  5. 洛谷P2052 [NOI2011]道路修建(树形DP)

    题目描述 在 W 星球上有 n 个国家.为了各自国家的经济发展,他们决定在各个国家 之间建设双向道路使得国家之间连通.但是每个国家的国王都很吝啬,他们只愿 意修建恰好 n – 1 条双向道路. 每条道 ...

  6. HTTP状态保持的原理

    a)在用户登录之后,浏览器返回响应的时候会在响应中添加上cookieb)浏览器接收到cookie之后会自动保存c)当用户再次请求同一服务器中的其他网页的时候,浏览器会自动带上之前保存的cookied) ...

  7. linux命令之磁盘和文件系统操作

    1.   fdisk:磁盘分区命令 语法:fdisk [选项][参数] 命令说明:fdisk是linux系统里常用的一种磁盘管理工具,可以创建和管理系统分区 常用命令选项: -l:列出指定的并退出,没 ...

  8. python的元组数据类型及常用操作

    Python的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可. 如下实例: tup1 = ('physi ...

  9. 微信小程序图片上传

    uploadImage : function (){ wx.chooseImage({ count: 9, // 默认9 sizeType: ['original', 'compressed'], / ...

  10. ELK 分布式日志实战

    一.  ELK 分布式日志实战介绍 此实战方案以 Elk 5.5.2 版本为准,分布式日志将以下图分布进行安装部署以及配置. 当Elk需监控应用日志时,需在应用部署所在的服务器中,安装Filebeat ...