【CART与GBDT】

一、CART（分类回归树）

1.思想：

一种采用基尼信息增益作为划分属性的二叉决策树。基尼指数越小，表示纯度越高。

2.回归：

每个节点都有一个预测值，预测值等于属于该节点的所有样例的平均值，分支时，选择每个属性的每个阈值的最好分割点，衡量的标准是最小化均方差。

训练：对训练样本的第i（1<=i<=n）个属性,穷举每个分割点，找到均方差最小的分割点进行分割，该节点的值设为落到该节点的训练样本的平均值，直到不可分或者到一定高度或者属性使用完或者均方差不下降。

测试：对测试样本按照训练时的分割点进行下落，落到叶节点，叶节点的平均值即为预测值。

二、GBDT（梯度提升决策树）

1.原理：

用多棵回归树（或多个弱分类器）进行集成，其中的多棵树不是独立的，而是后面的树在前者的基础上学习误差，所有树的结果加起来是预测得到的结果。弱分类器一般采用CART。

2.过程：

原始回归树：

GBDT：

3.依据：

防止过拟合；

残差计算变相增大了分错样本的权重，分对的趋于0，这样后续的树就能专注于学习分错的样本；

每一步都用残差作为全局最优的梯度方向，并没有真实计算梯度；

每一次都走一小步，逐渐逼近目标，比每次都走一大步逼近目标更能防止过拟合。

4.优缺点：

优点：鲁棒性比较好，准确率比较高。

缺点：弱分类器间存在依赖关系，无法并行训练。

5.问题：

（1）训练过程：

gbdt通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练，通过降低偏差来不断提高最终分类器的精度。

（2）如何选择特征：

如CART，对每个节点的每个切分点进行遍历，选择基尼指数最小的。

（3）如何构建特征：

利用gbdt去产生特征的组合，以叶子结点为基，在基下的表示即为特征。

（4）如何用于分类：

针对样本 X 每个可能的类都训练一个分类回归树。

6.参考：

https://www.cnblogs.com/peizhe123/p/6105696.html

https://www.cnblogs.com/pinard/p/6140514.html

https://www.cnblogs.com/ModifyRong/p/7744987.html

三、Xgboost

1.思想：

Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）

2.区别：

（1）xgboost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。

（2）GB中使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。

（3）CART回归树中寻找最佳分割点的衡量标准是最小化均方差，xgboost寻找分割点的标准是最大化一个函数。

3.参考：

https://www.cnblogs.com/wxquare/p/5541414.html

【CART与GBDT】的更多相关文章

决策树和基于决策树的集成方法（DT,RF,GBDT,XGBT）复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-the ...
决策树和基于决策树的集成方法（DT,RF,GBDT,XGB）复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-the ...
GBDT学习笔记
GBDT(Gradient Boosting Decision Tree,Friedman,1999)算法自提出以来,在各个领域广泛使用.从名字里可以看到,该算法主要涉及了三类知识,Gradient梯 ...
GBDT笔记
GBDT笔记 GBDT是Boosting算法的一种,谈起提升算法我们熟悉的是Adaboost,它和AdaBoost算法不同: 区别如下: AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重 ...
CART分类与回归树与GBDT(Gradient Boost Decision Tree)
一.CART分类与回归树资料转载: http://dataunion.org/5771.html Classification And Regression Tree(CART)是决策 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
梯度提升树(GBDT)原理小结
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...
Adaboost\GBDT\GBRT\组合算法
Adaboost\GBDT\GBRT\组合算法(龙心尘老师上课笔记) 一.Bagging (并行bootstrap)& Boosting(串行) 随机森林实际上是bagging的思路,而GBD ...
[Machine Learning & Algorithm] 决策树与迭代决策树（GBDT）
谈完数据结构中的树(详情见参照之前博文<数据结构中各种树>),我们来谈一谈机器学习算法中的各种树形算法,包括ID3.C4.5.CART以及基于集成思想的树模型Random Forest和G ...

随机推荐

理解Generic.xaml和Themes
"Generic.xaml"这个名称并非偶然通过上面的叙述,你可能会有冲动将Generic.xaml中的Style代码剪切出来,粘贴到任何一个我们的控件可以找到的地方,然后把Ge ...
SpringBoot切换Tomcat容器，SpringBoot使用Jetty容器
SpringBoot切换Tomcat容器, SpringBoot修改为Jetty容器, SpringBoot使用undertow容器, SpringBoot使用Jetty容器 ============ ...
【docker】追加docker容器端口映射的方法
docker run可以指定端口映射,但是容器一旦生成,就没有一个命令可以直接修改.通常间接的办法是,保存镜像,再创建一个新的容器,在创建时指定新的端口映射. 但这样太麻烦了.现在有新方案来解决掉: ...
a or an
在英语句子中用a还是用an,一直是个容易出错的问题. 原则为:如果下一个词的发音为元音则用an,否则用a. 例: a man an elephant a house an hour 对于大写字母要注意 ...
http://202.194.116.8/webapps/portal/frameset.jsp?tab_id=_2_1&url=%2fwebapps%2fblackboard%2fexecute%2
http://202.194.116.8/webapps/portal/frameset.jsp?tab_id=_2_1&url=%2fwebapps%2fblackboard%2fexecu ...
Luogu 1603 - 斯诺登的密码 - [简单字符串操作]
题目链接:https://www.luogu.org/problemnew/show/P1603 题目背景根据斯诺登事件出的一道水题题目描述 2013年X月X日,俄罗斯办理了斯诺登的护照,于是他混 ...
POJ 2299 Ultra-QuickSort 离散化加树状数组求逆序对
http://poj.org/problem?id=2299 题意:求逆序对题解:用树状数组.每读入一个数x,另a[x]=1.那么a数列的前缀和s[x]即为x前面(或者说,再x之前读入)小于x的个数 ...
linux：基本概念和操作
1. 终端 Linux 默认提供了 6 个纯命令行界面的 “terminal”(准确的说这里应该是 6 个 virtual consoles)来让用户登录,在物理机系统上你可以通过使用[Ctrl]+[ ...
vue $set的使用
在我们使用vue进行开发的过程中,可能会遇到一种情况:当生成vue实例后,当再次给数据赋值时,有时候并不会自动更新到视图上去: 当我们去看vue文档的时候,会发现有这么一句话:如果在实例创建之后添加新 ...
vmware为我们提供了三种网络工作模式，它们分别是：Bridged（桥接模式）、NAT（网络地址转换模式）、Host-Only（仅主机模式）。
原文来自http://note.youdao.com/share/web/file.html?id=236896997b6ffbaa8e0d92eacd13abbf&type=note 我怕链 ...

【CART与GBDT】

【CART与GBDT】的更多相关文章

随机推荐

热门专题