GBDT理解

一、提升树

提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树，boosting tree。对分类问题的决策树是二叉分类树，对回归问题的决策树是二叉回归树。提升树算法是AdaBoost算法的特殊情况。我的理解提升树分为普通提升树与梯度提升树，普通提升树每次拟合的是真实残差值，而梯度提升树拟合的是损失函数在当前模型的的负梯度。

普通提升树解决回归问题算法如下：

输入：训练数据集T={(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}

输出：提升树f_M(x)

1) 初始化f₀(x)=0

2) 对m=1,2,...,M

　　a)计算残差 r_mi=y_i-f_m-1(x_i),i=1,2,..,n

　　b)拟合残差r_mi学习一个回归树，得到T(x;θ_m)

　　c)更新f_m(x)=f_m-1(x)+T(x;θ_m)

3) 得到回归问题提升树 f_M(x)=∑T(x;θ_m), m=1,2,...,M

二、梯度提升树GBDT(Gradient Boosting Decision Tree)

普通提升树利用加法模型与前向分布算法实现学习的优化过程，这个时候损失函数可能是平方损失(如上例子)或者指数损失函数(AdaBoost就是指数损失函数，L=exp(-yf(x))),像平方损失函数，每棵树拟合的都是之前的残差值，这个能够直观去解释，但是如果是其它更一般的损失函数呢，如何去明确无误的一步步优化呢，有什么方法论去指引优化呢，优化的合理方向在哪呢？针对这一问题，Friedman于论文” Greedy Function Approximation…”中提出GBDT模型，为更一般形式的损失函数指明了优化方向。

其模型F定义为加法模型，x为输入样本，f为单棵树，w为每棵树的参数。

通过最小化损失函数求解最优模型：

也就是我们要找到一个使损失函数L最小的F，这里的损失函数跟构建单棵树所使用的损失函数不一样，是两码事，这里面的损失指的是所有树合并起来的整体损失。

与普通提升树不同的是，GBDT每次拟合的是损失函数L在当前模型F上的负梯度值，以此作为一个近似的残差值，拟合成一个新的回归树：

从上面几个公式我们就可以看到，梯度提升就是提升树的一种，也是前向分布算法实现的，所谓分布就是逐步提升，构建多棵树。

为什么GBDT每次拟合的是负梯度呢？

从我们的优化目标着手，我们的优化目标是让损失函数L越来越小，直到求解出一个最优的F，使得L到达最小值。那么我们可以把F整体做为一个变量去理解，跟我们之前的梯度下降法求解思路一样，让损失函数L对F进行求导，得到一个负梯度值，然后根据这个负梯度值作为新的值去拟合成一棵树，有n个样本，就会有n个负梯度值产生作为新的目标值y去拟合。F的初始值为F₀，每构造一棵树f，F=F_m-1+f，就相当于模型F在负梯度方向又向前走了一步，直到走到最优解。这就是GBDT的核心思路，跟我们平时利用梯度下降法求解最优参数θ思路其实一样。

GBDT具体算法流程如下：

其中的步长就是对应了xgboost中常说的shinkage技术，对应调参参数就是eta，是通过减少每棵树的学习输出值，削弱每棵树的影响，让后面的树有更大的学习空间，理论上是增加了树的个数，能够防止过拟合。比如：如果原始目标值是y=1，假如第一颗树就学到了0.9，那后面树学的信息就很少了，而且几棵树可能就让模型收敛了，这样模型整体的精确度很大程度上都依赖于第一颗树了，容易过拟合；如果将每棵树都乘以0.1，这样第一颗树输出就为0.09，后面还有很多信息可以学习，同时构造的树也多了，多方承担，有效了防止过拟合。

三、树模型的梯度提升算法与传统的梯度下降求参数区别

传统梯度下降法是在参数空间进行搜索，找到最优参数：

树模型的梯度提升算法，是在函数空间进行搜索，找到最优的函数，也是梯度下降，所谓的提升指的是模型整体精度提升：

四、树模型优缺点

优点：

　　可解释性强
　　可处理混合类型特征
　　具体伸缩不变性（不用归一化特征）
　　有特征组合的作用
　　可自然地处理缺失值
　　对异常点鲁棒
　　有特征选择作用

　　可扩展性强，容易并行

缺点：

　　缺乏平滑性（回归预测时输出值只能输出有限的若干种数值）
　　不适合处理高维稀疏数据

GBDT理解的更多相关文章

一步一步理解GB、GBDT、xgboost
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
（转）GBDT迭代决策树理解
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Re ...
gbdt xgboost 贼难理解！
https://www.zybuluo.com/yxd/note/611571 https://zhuanlan.zhihu.com/p/29765582 gbdt 在看统计学习方法的时候理解很吃力 ...
大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程
目录 1.前述 2.向量空间的梯度下降: 3.函数空间的梯度下降: 4.梯度下降的流程: 5.在向量空间的梯度下降和在函数空间的梯度下降有什么区别呢? 6.我们看下GBDT的流程图解: 7.我们看一个 ...
GB、GBDT、XGboost理解
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
GBDT的理解和总结
2015/11/21 16:29:29 by guhaohit 导语: GBDT是非常有用的机器学习的其中一个算法,目前广泛应用于各个领域中(regression,classification,ran ...
Adaboost\GBDT\GBRT\组合算法
Adaboost\GBDT\GBRT\组合算法(龙心尘老师上课笔记) 一.Bagging (并行bootstrap)& Boosting(串行) 随机森林实际上是bagging的思路,而GBD ...
LightGBM中GBDT的实现
现在LightGBM开源了,这里将之前的一个文档发布出来供大家参考,帮助更快理解LightGBM的实现,整体思路应该是类似的. LightGBM优雅,快速,效果好,希望LightGBM越来越好:) L ...
决策树和基于决策树的集成方法（DT,RF,GBDT,XGBT）复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-the ...

随机推荐

【Beta阶段】第四次Scrum Meeting！
每日任务内容: 本次会议为第四次Scrum Meeting会议~ 由于本次会议女生今日因身体不适未参与会议,故在宿舍楼开会,大家集会15分钟. 队员昨日完成任务明日要完成任务刘乾 #130 学习 ...
[2017BUAA软工助教]结对项目小结
2017BUAA结对项目小结一.作业链接 http://www.cnblogs.com/jiel/p/7604111.html 二.评分细则 1.注意事项按时间完成并提交--正常评分晚交一周以内 ...
20135337朱荟潼 Linux第六周学习总结——进程的描述和进程的创建
朱荟潼 + 原创作品转载请注明出处 + <Linux内核分析>MOOC课http://mooc.study.163.com/course/USTC 1000029000 第六周进程的描述 ...
冲刺Two之站立会议7
今天我们把软件的基本功能完成之后,又对所有的界面进行了统一规范化并进行了相应的优化.
SDN交换机迁移2
关于迁移过程中迁移目标(被迁移的交换机和目标控制器)的选择 SDN中基于过程优化的交换机竞争迁移算法通信学报交换机:请求速率大于域内平均请求速率的交换机集合: 控制器:综合网络中时延.流量和控制器 ...
第一个spring，总结！
陈志棚:界面跳转与框架李天麟:游戏界面ui 徐侃:算法代码的设计经过五天的时间,开会时候分配的任务,已经全部完成,在这期间中,我们遇到了一些问题.但是,经过android老师的指导后,app成功的 ...
解决eclipse中mybatis的xml配置文件无代码提示问题
https://blog.csdn.net/IRainReally/article/details/81743506
[转帖] 学习 Linux 大页的内存知识
一.在解释什么情况下需要开启大页和为啥需要开启大页前先了解下Linux下页的相关的知识:以下的内容是基于32位的系统,4K的内存页大小做出的计算1)目录表,用来存放页表的位置,共包含1024个目录en ...
ESXi 系统管理员命令 [转帖]
来源 https://blog.csdn.net/zy_strive_2012/article/details/53336000 正如所有的虚拟化管理员都知道,要应对VMware基础设施上需要的更多虚 ...
JAVA的垃圾回收机制（GC）
1.什么是垃圾回收? 垃圾回收(Garbage Collection)是Java虚拟机(JVM)垃圾回收器提供的一种用于在空闲时间不定时回收无任何对象引用的对象占据的内存空间的一种机制. 2.什么时候 ...

GBDT理解

GBDT理解的更多相关文章

随机推荐

热门专题