1 对决策树使用adaboost

对决策树使用adaboost时，有以下几个问题：

（1）adaboost每次更新的样本权重如何应用到决策树中？

　　由于我们不知道决策树的err目标是什么，因此通常的方法是根据权重对样本采样，然后给决策树训练，这样我们不需要修改决策树算法本身，样本的权重信息就传进去了。

（2）如果处理某个决策树的ε达到0的情况？

　　达到0时，相应的投票数变为无穷大，因此我们需要对树的强度做限制，使得ε不会为0。通常简单的做法是限制树的高度。

　　特别的，当树的高度被限制为1时，且不纯度定义为二分类错误时，decision Tree等效为decision stump:
　　

因此adaboost-Dtree就是：

2 深入看Adaboost

Adaboost是一个特殊的gradient boosting，它有自己的损失函数叫做errADA：

它也是01err的一个上界。

把adaboost写成gradient boosting的形式：

3 Gradient Boosting

gradient Boosting是Adaboost的延伸。

已知前t-1轮的子模型和投票，在第t轮，选取合适的η和h(x)使得加上该轮后的总模型的损失函数最小，这就是gradient boosting：

如果这里的err是平方误差，有如下推导：

对h的大小做限制，后续用η控制大小，这里限制的方法是加一个平方项作惩罚项：

可以看出，这里是最小化平方误差，也就是在残差（s-y）上做回归。这里我们用回归树来做。

得到了h之后，接下来是选择合适的η：

也就是相当于对于残差和gt转换过的特征做单变量线性回归。

因此，我们的GBDT算法流程如下：

《机器学习技法》---GBDT的更多相关文章

scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
梯度提升树(GBDT)原理小结
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...
Adaboost\GBDT\GBRT\组合算法
Adaboost\GBDT\GBRT\组合算法(龙心尘老师上课笔记) 一.Bagging (并行bootstrap)& Boosting(串行) 随机森林实际上是bagging的思路,而GBD ...
LightGBM中GBDT的实现
现在LightGBM开源了,这里将之前的一个文档发布出来供大家参考,帮助更快理解LightGBM的实现,整体思路应该是类似的. LightGBM优雅,快速,效果好,希望LightGBM越来越好:) L ...
决策树和基于决策树的集成方法（DT,RF,GBDT,XGBT）复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-the ...
GBDT的基本原理
这里以二元分类为例子,给出最基本原理的解释 GBDT 是多棵树的输出预测值的累加 GBDT的树都是回归树而不是分类树分类树分裂的时候选取使得误差下降最多的分裂计算的技巧最终分裂收益按照下面 ...
[Machine Learning & Algorithm] 决策树与迭代决策树（GBDT）
谈完数据结构中的树(详情见参照之前博文<数据结构中各种树>),我们来谈一谈机器学习算法中的各种树形算法,包括ID3.C4.5.CART以及基于集成思想的树模型Random Forest和G ...
GBDT算法原理深入解析
GBDT算法原理深入解析标签: 机器学习集成学习 GBM GBDT XGBoost 梯度提升(Gradient boosting)是一种用于回归.分类和排序任务的机器学习技术,属于Boosting ...
机器学习系列------1. GBDT算法的原理
GBDT算法是一种监督学习算法.监督学习算法需要解决如下两个问题: 1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本 2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准 ...
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...

随机推荐

20190716 NOIP模拟测试4 考试反思
总分 127分满分300 第一题礼物 10分一道期望题,看起来挺简单,但对于概率与期望这一块我还不怎么会,花了一个小时调他,最后只QJ了一下10%的测试点第二题通讯 90分显然的缩点求解, ...
Touch Bar 废物利用系列 | 在触控栏上显示 Dock 应用图标
都说 Intel 第八代 CPU 对比上代是牙膏不小心挤多了,而配备第八代 CPU 的 MacBook Pro,只有 Touch Bar 版本,虽然贵了一点,但就一个字 -- 买! 收到电脑后,兴冲冲 ...
如何进行高效的源码阅读：以Spring Cache扩展为例带你搞清楚
摘要日常开发中,需要用到各种各样的框架来实现API.系统的构建.作为程序员,除了会使用框架还必须要了解框架工作的原理.这样可以便于我们排查问题,和自定义的扩展.那么如何去学习框架呢.通常我们通过阅读 ...
个人永久性免费-Excel催化剂功能第68波-父子结构表转换之父子关系BOM表拆分篇
Excel中制造业行业中,有一个非常刚需的需求是对BOM(成品物料清单)的拆解,一般系统导出的BOM表,是经过压缩处理的,由父子表结构的方式存储数据.对某些有能力使用SAP等专业ERP软件的工厂来说, ...
Java NIO学习系列五：I/O模型
前面总结了很多IO.NIO相关的基础知识点,还总结了IO和NIO之间的区别及各自适用场景,本文会从另一个视角来学习一下IO,即IO模型.什么是IO模型?对于不同人.在不同场景下给出的答案是不同的,所以 ...
springboot基础（随笔）
<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot ...
C#7.0 新增功能
连载目录 [已更新最新开发文章,点击查看详细] C# 7.0 向 C# 语言添加了许多新功能 01 out 变量支持 out 参数的现有语法已在此版本中得到改进. 现在可以在方法调用的参数列表 ...
Node.js实现简易的获取access_token
还是老样子,在自学node.js的道路上走得坑坑洼洼,按住了躁动的自己,调整好心情 ,ready........Go....! 首先在项目里新建config.json,其中 appid 与 appsc ...
浅谈linux中shell变量$#,$@,$0,$1,$2,$?的含义解释
浅谈linux中shell变量$#,$@,$0,$1,$2,$?的含义解释下面小编就为大家带来一篇浅谈linux中shell变量$#,$@,$0,$1,$2的含义解释.小编觉得挺不错的,现在就分享给 ...
jQuery表单校验
主要特性: 表单提交前对所有数据进行校验,不符合不让提交(validate) 如果表单校验不通过,自动focus到第一个错误的域自动在控件后面显示错误提示内容(error message) 支持根据 ...

《机器学习技法》---GBDT

1 对决策树使用adaboost

2 深入看Adaboost

3 Gradient Boosting

《机器学习技法》---GBDT的更多相关文章

随机推荐

热门专题