GBDT中损失函数的负梯度用来拟合的一些理解

将\(L(y_i,f(x_i))\)在\(f(x_i)=f_{m-1}(x_i)\)处泰勒展开到一阶（舍去余项，故为近似）

\[L(y_i,f(x_i))\approx L(y_i,f_{m-1}(x_i))+\left. \frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right|_{f(x_i)=f_{m-1}(x_i)}\cdot (f(x_i)-f_{m-1}(x_i))
\]

令\(f(x_i) = f_{m-1}(x_i)\)且\(f_m(x_i) = f_{m-1}(x_i)+T_m(x_i;\theta _m)\)带入上式并移项

\[L(y_i,f_m(x_i))-L(y_i,f_{m-1}(x_i))\approx \left. \frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right|_{f(x_i)=f_{m-1}(x_i)}\cdot T_m(x_i;\theta _m)
\]

左式需小于0（每轮得到的强学习器需要比上一轮强学习器在损失函数更小，不然优化无意义），故令\(T_m(x_i;\theta _m)\)去拟合\(-\left. \frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right|_{f(x_i)=f_{m-1}(x_i)}\)使得右式小于0。

混淆点：\(f(x_i)\)是一个变量，代表最终求得的强学习器在第\(i\)个样本\(x_i\)上的预测，\(f_{m-1}(x_i)\)和\(f_m(x_i)\)是常量，即\((m-1)\)轮和\(m\)轮得到的强学习器在样本\(x_i\)上的预测

GBDT中损失函数的负梯度用来拟合的一些理解的更多相关文章

DOM中元素节点、属性节点、文本节点的理解
DOM中元素节点.属性节点.文本节点的理解节点信息每个节点都拥有包含着关于节点某些信息的属性.这些属性是:nodeName(节点名称) nodeValue(节点值) nodeType(节点类型) ...
Gradient Boost Decision Tree（GBDT）中损失函数为什么是对数形式
由于最近要经常用到XGBOOST的包,不免对相关的GBDT的原理又重新学习了一遍, 发现其中在考虑损失函数的时候,是以对数log进行度量的,囿于误差平方和函数的印象那么为什么是对数呢?可能是下面的原 ...
[AI]神经网络章2　神经网络中反向传播与梯度下降的基本概念
反向传播和梯度下降这两个词,第一眼看上去似懂非懂,不明觉厉.这两个概念是整个神经网络中的重要组成部分,是和误差函数/损失函数的概念分不开的. 神经网络训练的最基本的思想就是:先“蒙”一个结果,我们叫预 ...
bp算法中为什么会产生梯度消失？
作者:维吉特伯链接:https://www.zhihu.com/question/49812013/answer/148825073来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...
深度学习中损失函数之RMS和MES
学校给我们一人赞助了100美元购买英文原版图书,几方打听后选择了PRML 即Pattern Recognition and Machine Learning.自从拆封这本书开始慢慢的品读,经常会有相见 ...
[饭后算法系列] 数组中"和非负"的最长子数组
1. 问题给定一列数字数组 a[n], 求这个数组中最长的 "和>=0" 的子数组. (注: "子数组"表示下标必须是连续的. 另一个概念"子 ...
line search中的重要定理 - 梯度与方向的点积为零
转载请注明出处:http://www.codelast.com/ 对精确的line search(线搜索),有一个重要的定理: ∇f(xk+αkdk)Tdk=0 这个定理表明,当前点在dk方向上移动到 ...
Pytorch中的自动求梯度机制和Variable类
自动求导机制是每一个深度学习框架中重要的性质,免去了手动计算导数,下面用代码介绍并举例说明Pytorch的自动求导机制. 首先介绍Variable,Variable是对Tensor的一个封装,操作和T ...
C语言中数组使用负数值的标记
·引对数组的认知在c语言中,我们经常使用的一个结构便是数组,在最开始学习数组的时候,它被描述成这样(以一维二维数组为例):一维数组是若干个数连续排列在一起的集合,我们可以通过0-N的标记(N为数组 ...
梯度下降取负梯度的简单证明，挺有意思的mark一下
本文转载自:http://blog.csdn.net/itplus/article/details/9337515

随机推荐

redis 缓存穿透和缓存击穿，缓存雪崩的原因及解决方案
缓存穿透缓存穿透是指查询缓存中没有,数据库中也没有的数据 .从系统层面来看,请求像是穿透了缓存,直接访问数据库.这种情况会给系统带来潜在的风险,如果有大量的请求访问系统数据库中不存在的数据,会直接请 ...
查找大文件-清理linux磁盘
https://www.cnblogs.com/kerrycode/p/4391859.html find . -type f -size +800M -print0 | xargs -0 du - ...
已知内存BUF单元开始的区域中存放有一组无符号字节数据，要求将这些数据按从小到大的顺序排列，排序后的数据依然放在原来的存储区中。
设计要求: 已知内存BUF单元开始的区域中存放有一组无符号字节数据,要求将这些数据按从小到大的顺序排列,排序后的数据依然放在原来的存储区中.(10分) #make_BIN# BUF DB 22,21, ...
django项目初创建报错TypeError: unsupported operand type(s) for /: 'str' and 'str'
解决办法: 'DIRS': [os.path.join(BASE_DIR, 'templates')],
学习C语言哟
之前一直用的vs,感觉还不错,现在新发现了一个Lightly工具,非常好用,各种环境自动配置好看着新奇,比codeblocks好多了,各种玩意儿一大堆,不过也都行,只是这个安装轻松点开始我的第二 ...
Unity 凹多边形三角剖分
游戏中需要实现一个小功能,显示一个玩家的能力图,这个图是一个有6个顶点任意摆放组合的多边形.而绘制多边形主要用到的知识就是Mesh构建,mesh的构建主要需要顶点列表,三角形列表,法线列表.uv列表等 ...
【godis】skiplist
skiplist 前言:在看代码时看到 ZSKIPLIST_MAXLEVEL = 32,当时并不了解 ZSKIPLIST_P 的作用,想着用 2 分法不应该层数是 64 吗?书上和他人的代码都是基于 ...
js中常用的运算符
1. ?. 链接运算符特性: 一旦遇到空置就会终止例子: let name = obj?.name persion.getTip?.() // 没有getTip 方法则不会执行 2. ?? 空值合 ...
C语言经典100例【1、2】
[1]三位数字重组问题题目:有 1.2.3.4 四个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? 分析:分别把1,2,3,4放在个位.十位和百位,用嵌套循环即可解决.注意要求无重复数字 ...
spring Security 使用
1.pom文件引入 <dependency> <groupId>org.springframework.boot</groupId> <artifactId& ...

GBDT中损失函数的负梯度用来拟合的一些理解

GBDT中损失函数的负梯度用来拟合的一些理解的更多相关文章

随机推荐

热门专题