[LNU.Machine Learning.Question.1]梯度下降方法的一些理解

曾经学习machine learning,在regression这一节,对求解最优化问题的梯度下降方法，理解总是处于字面意义上的生吞活剥。

对梯度的概念感觉费解?到底是标量还是矢量?为什么沿着负梯度方向函数下降最快?想清楚的回答这些问题。还真须要点探究精神。

我查阅了一些经典的资料(包含wiki百科),另一些个人的博客,比方

p=2573">http://www.codelast.com/?p=2573,http://blog.csdn.net/xmu_jupiter/article/details/22220987,都对梯度下降概念有个大概的直观解释,參照这些资料中的内容，再结合个人的体会，姑且谈谈.

1.为什么在多元函数自变量的研究中引入方向?

在自变量为一维的情况下，也就是自变量能够视为一个标量，此时，一个实数就能够代表它了。这个时候，假设要改变自变量的值，则其要么减小，要么添加。也就是“非左即右“。

所以，说到“自变量在某个方向上移动”这个概念的时候，它并非十分明显；而在自变量为n（n≥2）维的情况下。这个概念就实用了起来：假设自变量X为3维的，即每个X是（x1, x2, x3）这种一个点，当中x1，x2和x3各自是一个实数，即标量。

那么，假设要改变X。即将一个点移动到还有一个点，你怎么移动？能够选择的方法太多了，比如。我们能够令x1。x2不变，仅使x3改变，也能够令x1，x3不变。仅使x2改变。等等。这些做法也就使得我们有了”方向“的概念。由于在3维空间中，一个点移动到还有一个点，并非像一维情况下那样“非左即右”的。而是有“方向”的。在这种情况下，找到一个合适的”方向“，使得从一个点移动到还有一个点的时候。函数值的改变最符合我们预定的要求（比如。函数值要减小到什么程度），就变得十分有必要了。

2.为什么是梯度下降（Gradient Descent）

依据维基百科的定义，假设实值函数在点处可微且有定义，那么函数在点沿着梯度相反（什么是梯度？这也要问？）的方向下降最快。因而我们在回归所导出的优化问题中採用梯度下降的方法来寻找最长处问题

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl1NnRvdA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

3.那么。为什么方向下降最快？

爱问为什么的学生死得快（）.解释这一问题，还须要用到Taylor展开，回顾：

在梯度的概念下。这个式子能够进一步化为：

（a）

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl1NnRvdA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">：代表第k个点的自变量（一个向量）。

d：单位方向（一个向量）。即 |d|=1。

：步长（一个实数）。

：目标函数在X_k这一点的梯度（一个向量）。

：α的高阶无穷小。

在(a)式中，能够忽略不计。

所谓最速下降，即意味着

也就是说希望（a）式取最小，即觉得最小，而是向量内积的形式(如果向量d与负梯度的夹角为θ):

(b)

(b)式取最小当且仅当\theta=0,此时方向向量d（自变量的变化方向）取负梯度方向，这个方向就是梯度变化最大的方向（负变化最小，始终要求方向的概念在脑海中）。

4.几何解释

以下图片演示样例了这一过程，这里如果 F 定义在平面上，而且函数图像是一个碗形。

蓝色的曲线是等高线(水平集)。即函数 F 为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向。（一点处的梯度方向与通过该点的等高线垂直）。

沿着梯度下降方向，将终于到达碗底，即函数 F 值最小的点

梯度下降法几何解释：

因为我们的任务是求得经验损失函数的最小值。所以上图的过程实际上是一个“下坡”的过程。

在每个点上。我们希望往下走一步（如果一步为固定值0.5米），使得下降的高度最大，那么我们就要选择坡度变化率最大的方向往下走。这个方向就是经验损失函数在这一点梯度的反方向。

每走一步，我们都要又一次计算函数在当前点的梯度，然后选择梯度的反方向作为走下去的方向。随着每一步迭代，梯度不断地减小，到最后减小为零。

这就是为什么叫“梯度下降法”。

先讲到这里。敲符号、磊代码太累......

在此，向Orange先生、learnhard、wiki表示由衷的感谢

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解的更多相关文章

几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式.用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适. 随机梯度下降是一种对参数随着样本训练,一个一个的及时updat ...
[Hinton] Neural Networks for Machine Learning - Basic
Link: Neural Networks for Machine Learning - 多伦多大学 Link: Hinton的CSC321课程笔记1 Link: Hinton的CSC321课程笔记2 ...
[Hinton] Neural Networks for Machine Learning - RNN
Link: Neural Networks for Machine Learning - 多伦多大学 Link: Hinton的CSC321课程笔记补充: 参见cs231n 2017版本,ppt写得 ...
Machine Learning in Action(4) Logistic Regression
从这节算是开始进入“正规”的机器学习了吧,之所以“正规”因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证.这整套的流程是机器学习必经环节.今天要学习的话题 ...
Federated Machine Learning: Concept and Applications
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2019. Federate ...
Machine Learning - 第5周（Neural Networks: Learning）
The Neural Network is one of the most powerful learning algorithms (when a linear classifier doesn't ...
采用梯度下降优化器(Gradient Descent optimizer)结合禁忌搜索(Tabu Search)求解矩阵的全部特征值和特征向量
[前言] 对于矩阵(Matrix)的特征值(Eigens)求解,采用数值分析(Number Analysis)的方法有一些,我熟知的是针对实对称矩阵(Real Symmetric Matrix)的特征 ...
今天开始学Pattern Recognition and Machine Learning (PRML)，章节5.2-5.3，Neural Networks神经网络训练（BP算法）
转载请注明出处:http://www.cnblogs.com/xbinworld/p/4265530.html 这一篇是整个第五章的精华了,会重点介绍一下Neural Networks的训练方法——反 ...

随机推荐

Java中final关键字概述
使用final修饰过的变量都不可以改变: 1.final修饰变量恒定不变的属性,可以用final关键字来修饰: 变量名建议全部使用大写 final修饰的变量不能改变,如果程序中重新赋值,编译报错例 ...
绘图: matplotlib核心剖析
参考:http://www.cnblogs.com/vamei/archive/2013/01/30/2879700.html http://blog.csdn.net/ywjun0919/artic ...
AC自动机算法学习
KMP+TRIE int val[1000100][31],tot; int tr[1000100]; int fail[1000100]; struct AC_Trie{ void clean(){ ...
为K8S集群建立只读权限帐号
参考URL: https://www.jianshu.com/p/a1a0d64f1245 https://mritd.me/2018/03/20/use-rbac-to-control-kubect ...
homestead实现外部局域网络其他主机的访问
转载自:https://blog.csdn.net/u013659696/article/details/78455362 homestead 2.0 MAC环境修改Homestead目录下的Vag ...
003 RequestMapping——Ant路径
一: 1.介绍 Ant风格资源地址支持3中配配符 ?:匹配文件名中的一个字符 * :匹配文件名中的任意字符 **:匹配多层路径 2.RequestMapping支持的Ant风格的路径二:程序说明 ...
java轻松实现无锁队列
1.什么是无锁(Lock-Free)编程当谈及 Lock-Free 编程时,我们常将其概念与 Mutex(互斥) 或 Lock(锁) 联系在一起,描述要在编程中尽量少使用这些锁结构,降低线程间互相阻 ...
IT常用单词
recursion 递归enable 使能够two-dimensional 二维failover 故障恢复.转移.切换broker 经济人代理人Component Gallery 组件库Config ...
P1757 通天之分组背包
P1757 通天之分组背包背包中的经典问题,我竟然不知道.分组背包就是每个物品有一个所属的小组,小组内的物品会冲突.就是把01背包中的两个for换一下位置01:for(i,1,kind) for(j, ...
001.NFS简介
一简介 NFS 是Network File System的缩写,即网络文件系统.一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布.功能是通过网络让不同的机器.不同的操作系统能够 ...

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解的更多相关文章

随机推荐

热门专题