机器学习之梯度提升树GBDT

1、基本知识点简介
2、梯度提升树GBDT算法
- 2.1 思路和原理
- 2.2 梯度代替残差建立CART回归树

1、基本知识点简介

在集成学习的Boosting提升算法中，有两大家族：第一是AdaBoost提升学习方法，另一种是GBDT梯度提升树。
传统的AdaBoost算法：利用前一轮迭代弱学习器的误差来更新训练集的权重，一轮轮迭代下去。
梯度提升树GBDT：也是通过迭代的算法，使用前向分布算法，但是其弱分类器限定了只能使用CART回归树模型。
GBDT算法原理：指通过在残差减小的梯度方向建立boosting tree（提升树），即gradient boosting tree（梯度提升树）。每次建立新模型都是为了使之前模型的残差往梯度方向下降。

2、梯度提升树GBDT算法

2.1 思路和原理

基本思路：假设前一轮迭代得到的强学习器是$f_{t-1}(x)$，损失函数是$L(y, f_{t-1}(x))$，则本轮迭代的目标是找到一个CART回归树模型的弱学习器$h_{t}(x)$，让本轮的损失函数$L(y,f_{t}(x)) = L(y,f_{t-1}(x)) - h_{t}(x)$最小。即本轮迭代找到的损失函数要使样本的损失比上一轮更小。
大牛Freidman提出用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树，第 t 轮的第 i 个样本的损失函数的负梯度表示为：
\[r_{ti} = - [\frac{\partial L(y_{i}, f(x_{i})) }{\partial f(x_{i}) }]_{f(x)=f_{t-1}(x)}\]

2.2 梯度代替残差建立CART回归树

利用$(x_{i}, r_{ti}), (i=1,2,...,m)$（此处损失函数的负梯度代替了一般提升树的残差），我们可以拟合一棵CART回归树，得到第 t 棵回归树，其对应的叶结点区域$R_{tj}, j=1,2,...,J$。其中J为叶子结点的个数。

对于每一个叶子结点的样本，通过使平方误差损失函数最小，输出拟合叶子结点最好的输出值$C_{tj}$（CART回归树中采取的公式是每一个样本的划分单元上的所有实例$x_{i}$的所有输入实例对应的输出平均值，即$\hat{c}_{m} = ave(y_{i} | x_{i} \in R_{m})$），此处输出值为：
\[c_{tj} = arg \min\limits_{c} \sum\limits_{x_{i} \in R_{tj}} L(y_{i}, f_{t-1}(x_{i}) + c)\]
因此本轮决策树的拟合函数为：
\[h_{t}(x) = \sum\limits_{j=1}^{J} c_{tj} I(x \in R_{tj})\]
从而得到本轮的强学习器表达式为：
\[f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J} c_{tj} I(x \in R_{tj})\]
如果是GBDT分类算法，则需要改变损失函数为指数损失函数（类似为AdaBoost算法），或者对数似然损失函数（逻辑回归）。——暂时不作分析。
指数损失函数：$L(y, f(x)) = exp(-Y(f(x)))$
对数损失函数：$L(Y,P(Y|X)) = -log P(Y|X)$

参考：
1、GBDT：https://www.cnblogs.com/pinard/p/6140514.html

机器学习之梯度提升树GBDT的更多相关文章

梯度提升树(GBDT)原理小结(转载)
在集成学习值Adaboost算法原理和代码小结(转载)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boos ...
机器学习之梯度提升决策树GBDT
集成学习总结简单易学的机器学习算法——梯度提升决策树GBDT GBDT(Gradient Boosting Decision Tree) Boosted Tree:一篇很有见识的文章 https:/ ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
scikit-learn 梯度提升树(GBDT)调参笔记
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
梯度提升树(GBDT)原理小结
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...
笔记︱决策树族——梯度提升树(GBDT）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记来源于CDA DSC,L2-R语言课程所 ...
梯度提升树GBDT算法
转自https://zhuanlan.zhihu.com/p/29802325 本文对Boosting家族中一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 简 ...
梯度提升树GBDT总结
提升树的学习优化过程中,损失函数平方损失和指数损失时候,每一步优化相对简单,但对于一般损失函数优化的问题,Freidman提出了Gradient Boosting算法,其利用了损失函数的负梯度在当前模 ...
机器学习（七）—Adaboost 和梯度提升树GBDT
1.Adaboost算法原理,优缺点: 理论上任何学习器都可以用于Adaboost.但一般来说,使用最广泛的Adaboost弱学习器是决策树和神经网络.对于决策树,Adaboost分类用了CART分类 ...

随机推荐

poj3278
#include<iostream> #define MAX 100001 int john,cow; int queue[MAX]; int vis[MAX]; int ans; voi ...
php-memcache基本用法
//create a memcache object $mem = new Memcache(); //create connection $mem->connect ...
20.0-uC/OS-III移植
1.CPU移植要求: 1) 处理器有对应的能产生可重入代码的C编译器2) 处理器支持中断且能提供周期性的中断(通常介于10到1000Hz之间). 3) 可以关中断和开中断4) 处理器支持存储和载入堆栈 ...
小学生都能看懂的FFT！！！
小学生都能看懂的FFT!!! 前言在创新实践重心偷偷看了一天FFT资料后,我终于看懂了一点.为了给大家提供一份简单易懂的学习资料,同时也方便自己以后复习,我决定动手写这份学习笔记. 食用指南: 本篇 ...
JAVA微信支付代码（WeChatPay.java 才是调用类）
微信官方文档:https://pay.weixin.qq.com/wiki/doc/api/index.html MD5Util.java package weixin; import java.se ...
DelayQueue源码解析
DelayQueue是一个支持延时获取元素的无界阻塞队列.里面的元素全部都是“可延期”的元素,列头的元素是最先“到期”的元素,如果队列里面没有元素到期,是不能从列头获取元素的,哪怕有元素也不行.也就是 ...
从数据库取出两个同样的字符串用equals比较返回false
1. 从网上搜索原因,大概总结为三点 1.1 取数据的两个数据库编码不一样,需要统一编码 1.2 字符类型不一样,可能一个为nchar一个为varchar 1.3 从数据库取出的数据有空格,需要tri ...
C#中抽象类和接口的区别与使用
一.抽象类: 抽象类是特殊的类,只是不能被实例化:除此以外,具有类的其他特性:重要的是抽象类可以包括抽象方法,这是普通类所不能的.抽象方法只能声明于抽象类中,且不包含任何实现,派生类必须覆盖它们.另外 ...
Filter中request对象强转问题
以下为过滤器doFIlter方法的源代码: public void doFilter(ServletRequest request, ServletResponse response, FilterC ...
Django常见问题集
django2.0发行文档说,django2.0最后一个支持的是python3.4+... 所以,还在用python2.7的同学只能手动指定版本下载了 pip2 install django==1.8 ...

机器学习 之梯度提升树GBDT

1、基本知识点简介

2、梯度提升树GBDT算法

2.1 思路和原理

2.2 梯度代替残差建立CART回归树

机器学习 之梯度提升树GBDT的更多相关文章

随机推荐

热门专题

机器学习之梯度提升树GBDT

机器学习之梯度提升树GBDT的更多相关文章