关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

根据前面所为，当我们得到Loss方程的时候，我们希望求得最优的Loss方程。为此，我们可以采用了一种方法----Gradien Descent。
为什么可以使用这种方法呢，我们先保留这个疑问，先看一下什么是Gradien Descent。

如下图，我们假定某个Loss方程有两个参数，同时我们假定了一个learning rate。每次update 参数与其偏微分learning rate的差

那么这样做会有什么问题呢？如何优化这种做法呢？

Tuning your learning rates

如下图,当我们取的learning rate太大或者太小都会出现：梯度下降的效果达不到我们预期的目标。所以我们必须仔细考虑好learning rate

所以我们希望可以做到以下两点：

At the beginning, we are far from the destination, so we use larger learning rate
After several epochs, we are close to the destination, so we reduce the learning rate

Learning rate cannot be one-size-fits-all
所以我们是否能够给不同的参数以不同的learning rate以达到我们的目的？

为此：我们可以使用一种叫 Adagrad 的方法。
我们最开始参数更新的方法如下图：

其中：

为了使得learning rate的变化达到我们理想的效果，Adagrad在每次参数update的时候将变换后的learning rate除以所有前面参数偏微分的均方根，如下图所示：

其中：

这样化简可以得到Adagrad后的式子：

那么是如何想到用Adagrad这样一个方法的呢？

看看课程就了解了……

Stochastic Gradient Descent

我们每次从样本中随机选出一个，求得其Loss方程，然后再不断进行迭代。

这样因为部分样本跨度较大，使得迭代过程中，我们更快接近最优的Loss方程，如下图所示：

Feature Scaling

Feature Scaling的做法是让特征值的分布都比较接近，如下图所示：

这样就会加速我们接近最优解：

而我们的做法就是，求得某个特征值在所有样本下的平均值和标准差，然后update特征值：

回到最初：

Gradien Descent从哪里来？

我们在Loss方程中位于某个点，为了达到最优的Loss方程，我们可以每次往前跨出一步。所以我们可以在该点附近画一个圈圈，然后选择圈圈内最优的点，然后再迭代。

利用泰勒公式，将当前的Loss方程化简：

此时我们为了是Loss方程最优（即最小),我们就要选取适当的值。

由于S为常量，我们不用考虑，则只需要考虑：

根据数学知识，我们知道两个向量相乘，值要最小，那么这两个向量应该为相反向量，即为（u，v）向量的相反向量：

同时，在满足：的条件下，我们很容易得到：

而这个式子就是gradient descent，其中的系数n就决定了这个相反向量的长度，也就是learning rate，也就是和步长；负号则是表示（u，v）向量的相反。

现在让我们回到泰勒公式成立的条件，当我们的半径d足够小的时候，泰勒公式的一阶展开式：

才会足够准确。

所以如果我们只是一阶展开，我们的步子就不能太大。如果我们的模型足够复杂，我们的步子就可以往前多迈一些。

因此，learning rate便决定着整个推导的条件是否足够准确，当我们的learning rate太离谱的时候，我们很难得到所期望的结果

END

找个女孩子跨年有没有啊？？？

# ML学习小笔记—Gradien Descent的更多相关文章

# ML学习小笔记—Linear Regression
Regression Output a scalar Model:a set of function 以Linear model为例 y = b+w * $x_cp$ parameters:b,W f ...
# ML学习小笔记—Classification
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 通过模型可以分类输入,此时根据分类结果的正确与否会有一个Loss函数.找 ...
# ML学习小笔记—Where does the error come from?
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 错误来自哪里? error due to "bias" ...
English - 英语学习小笔记
1.It is...to do sth:做某事是.... 解析:It 是形式主语,后面一半接形容词做表语,to do sth是不定式短语作真正主语. 2.make do和make doing是两种表达 ...
WEB学习小笔记
环境基于WIN10.IDEA最新版.JDK1.8.TOMCAT9 下面说的有错的地方希望指出,谢谢. STRUT2 1.在maven下的时候系统会系统创建一个叫做log4j的配置文件,但是到了这个版本 ...
SQL 学习小笔记
1.FOUND_ROWS() 题目: ,; 在上边sql中使用什么选项可以使 SELECT FOUND_ROWS()忽略LIMIT子句,返回总数? *答案* : SQL_CALC_FOUND_ROWS ...
java学习小笔记（三.socket通信）【转】
三,socket通信1.http://blog.csdn.net/kongxx/article/details/7288896这个人写的关于socket通信不错,循序渐进式的讲解,用代码示例说明,运用 ...
MongoDB 学习小笔记
1.配置:mongod --dbpath=D:\MongoDB\data mongo2.基本的增删查改 find() update()-- 整体更新,局部更新. 修改器: $inc db.person ...
vue 的个人学习小笔记
一.vite2.0+vue3.0+ts 创建.配置个人公众号文章地址个人github仓库地址 1.Vite 创建 vue3 项目: 1.1.npm 常用命令 1.npm 查看版本号 npm vie ...

随机推荐

面试遇到的select into 但是在PL/SQL developer ORA-00905:缺失关键字"错误。
select into 是什么意思. 1.INSERT INTO SELECT语句语句形式为:Insert into Table2(field1,field2,...) select value1, ...
一站式学习Redis 从入门到高可用分布式实践（慕课）第六章 Redis开发运维常见问题
fork操作 1.同步操作 2.与内存量息息相关:内存越大,耗时越长(与机器类型有关) 3.info:latest_fork_usec 进程外开销 AOF追加阻塞不知道哪个命令??? 单机多实例部署 ...
JetBrains 授权服务器(License Server):
JetBrains 授权服务器(License Server): https://www.imsxm.com/jetbrains-license-server.html
清除.svn文件
清除以.svn结尾的文件: 新建一文本,然后复制以下代码进去,然后保存成clean.bat即可,它会把当前文件夹以及以下的所有匹配文件都给删除了 @echo on color 2f mode con: ...
洛谷P2052 [NOI2011]道路修建(树形DP)
题目描述在 W 星球上有 n 个国家.为了各自国家的经济发展,他们决定在各个国家之间建设双向道路使得国家之间连通.但是每个国家的国王都很吝啬,他们只愿意修建恰好 n – 1 条双向道路. 每条道 ...
HTTP状态保持的原理
a)在用户登录之后,浏览器返回响应的时候会在响应中添加上cookieb)浏览器接收到cookie之后会自动保存c)当用户再次请求同一服务器中的其他网页的时候,浏览器会自动带上之前保存的cookied) ...
linux命令之磁盘和文件系统操作
1. fdisk:磁盘分区命令语法:fdisk [选项][参数] 命令说明:fdisk是linux系统里常用的一种磁盘管理工具,可以创建和管理系统分区常用命令选项: -l:列出指定的并退出,没 ...
python的元组数据类型及常用操作
Python的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可. 如下实例: tup1 = ('physi ...
微信小程序图片上传
uploadImage : function (){ wx.chooseImage({ count: 9, // 默认9 sizeType: ['original', 'compressed'], / ...
ELK 分布式日志实战
一. ELK 分布式日志实战介绍此实战方案以 Elk 5.5.2 版本为准,分布式日志将以下图分布进行安装部署以及配置. 当Elk需监控应用日志时,需在应用部署所在的服务器中,安装Filebeat ...

# ML学习小笔记—Gradien Descent