机器学习技法-GBDT算法

课程地址：https://class.coursera.org/ntumltwo-002/lecture

之前看过别人的竞赛视频，知道GBDT这个算法应用十分广泛。林在第八讲，简单的介绍了AdaBoost，这一讲会更深入的从优化的角度看AdaBoost，然后引出GBDT算法，最后林对最近几讲的集成学习模型（Aggregation Models）做了个很棒的总结。

一、RandomForest Vs AdaBoost-DTree

RF随机森林算法：通过bootstrapping有放回的抽样获取不同的训练数据Dt，不同的Dt可同时并行化生成多棵决策树最后将多棵决策树‘一人一票’的方式结合生成G。
AdaBoost-DTree：通多重赋权reweight（样本权重Ut）的方式获取不同的训练数据Dt，Ut依赖于上一次的迭代的分类结果，决策树之间存在依赖关系，必须串行生成每一棵决策树。最后每一棵决策树通过权值alphat结合生成G。

在AdaBoost-DTree中，为了不修改原来的模型，数据按照样本权重u的比例大小对样本进行sampling，采样后的数据D中也能体现出样本的权重。
直接使用fully grown tree 训练Dt，会产生autocracy，需要剪枝或使用弱决策树算法

二、从优化的角度看AdaBoost

1.AdaBoost的指数损失函数（loss function）

林通过指数损失函数，从优化的角度推导了AdaBoost-DTree
样本权重与所有gt在该样本的投票的分数有关，分数越高，权值越小。AdaBoost迭代过程中会降低样本的权重。

2.下一步是如何根据损失函数找到下一个gt，最后的结论是损失函数的梯度的最大值（steepest descent）。

下面是推导过程，建议去看视频理解，有点绕。

三、GBDT（Gradient Boosting Decision Tree）

1.AdaBoost vs GradientBoost

这部分是将第二部分的AdaBoost进行推广，误差函数（error function）扩展为任意的。

2.使用平方误差函数（squared-error）的GDBT，和上面的思路一样求解ht和移动的幅度

四、模型融合（Aggregation models）的对比、总结

1.获得不同的gt之后的融合方式的对比

2.获取gt的方式和融合的方式对比

机器学习技法-GBDT算法的更多相关文章

【机器学习】--GBDT算法从初始到应用
一.前述提升是一种机器学习技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中:如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gr ...
机器学习系列------1. GBDT算法的原理
GBDT算法是一种监督学习算法.监督学习算法需要解决如下两个问题: 1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本 2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准 ...
机器学习中的算法-决策树模型组合之随机森林与GBDT
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使 ...
《机器学习技法》---GBDT
1 对决策树使用adaboost 对决策树使用adaboost时,有以下几个问题: (1)adaboost每次更新的样本权重如何应用到决策树中? 由于我们不知道决策树的err目标是什么,因此通常的方法 ...
机器学习之——集成算法，随机森林，Bootsing，Adaboost,Staking，GBDT,XGboost
集成学习集成算法随机森林(前身是bagging或者随机抽样)(并行算法) 提升算法(Boosting算法) GBDT(迭代决策树) (串行算法) Adaboost (串行算法) Stacking ...
GB和GBDT 算法流程及分析
1.优化模型的两种策略: 1)基于残差的方法残差其实就是真实值和预测值之间的差值,在学习的过程中,首先学习一颗回归树,然后将“真实值-预测值”得到残差,再把残差作为一个学习目标,学习下一棵回归树,依 ...
GBDT算法原理深入解析
GBDT算法原理深入解析标签: 机器学习集成学习 GBM GBDT XGBoost 梯度提升(Gradient boosting)是一种用于回归.分类和排序任务的机器学习技术,属于Boosting ...
机器学习技法课之Aggregation模型
Courses上台湾大学林轩田老师的机器学习技法课之Aggregation 模型学习笔记. 混合(blending) 本笔记是Course上台湾大学林轩田老师的<机器学习技法课>的学习笔记 ...
工业级GBDT算法︱微软开源的LightGBM（R包正在开发....）
看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果 ...

随机推荐

VBA读取可选择文件夹下可选择txt文件内容
Sub OneTxt() '打开一个txt文件 Dim Filename As Variant, extLine&, mArr() As String Dim i%, j% ChDir Thi ...
谈谈CSS的布局，display、position、float
前言前端一直是我的一个很大的缺憾,这段时间痛顶思痛,决定好好的把前台的东西加强,这不,在学习了一段时间js之后,在做一些小练习,却发现最基本的一些css知识却还不了解,所以便有了这篇博文. 块级元素 ...
ID3
# -*- coding: utf-8 -*- import copy from numpy import * import math class ID3DTree(object): def __in ...
CentOS下编译安装MySQL 5.6.21
一.编译安装MySQL前的准备工作安装编译源码所需的工具和库 yum install gcc gcc-c++ ncurses-devel perl 安装cmake:http://www.cnblog ...
使用ROS节点（五）
先启动roscore roscore 为了获取节点信息,可以使用rosnode命令 $ rosnode 获取得一个可接受参数清单
discuz 系列产品在ie9下注册成功后不跳转bug处理
header.htm 把 <meta http-equiv="x-ua-compatible" content="ie=7" /> 改为 <m ...
How to setup SVN?
2014-01-08 11:43:50 如何简单设置SVN(前提是SVN已经安装) 1. 创建一个目录: mkdir -p ~/svn/2.1.J.1.1 2. 进入新创建的目录: cd svn/2. ...
神奇的Noip模拟试题第一试合理种植枚举+技巧
1．合理种植 (plant.pas/.c/.cpp) [问题描述] 大COS在氯铯石料场干了半年,受尽了劳苦,终于决定辞职.他来到表弟小cos的寒树中学,找到方克顺校长,希望寻个活干. 于是他如愿以偿 ...
BYOA，也许是IT大叔眼中的新生代萝莉
BYOx已经成为一种潮流,仿佛美瞳.紧身legging和大红唇在某个阶段也是姑娘们的标配,这个小小的x可以替换成任何东西,带着你的“玫瑰”.带着你的“嫁妆”.带着你的“炸鸡和啤酒”……很抱歉,今天的故 ...
html练习——个人简介
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

机器学习技法-GBDT算法

机器学习技法-GBDT算法的更多相关文章

随机推荐

热门专题