XGBoost与LightGBM对比分析（转）

尊重原创

来源： https://blog.csdn.net/a790209714/article/details/78086867

XGBoost的四大改进:

①改进残差函数

不用Gini作为残差，用二阶泰勒展开+树的复杂度（正则项）

带来如下好处：

1.可以控制树的复杂度

2.带有关于梯度的更多信息，获得了二阶导数

3.可以用线性分类器

②采用预排序

因为每一次迭代中，都要生成一个决策树，而这个决策树是残差的决策树，所以传统的不能并行

但是陈天奇注意到，每次建立决策树，在分裂节点的时候，比如选中A特征，就要对A进行排序，再计算残差，这个花很多时间

于是陈天奇想到，每一次残差计算好之后，全部维度预先排序，并且此排序是可以并行的，并行排序好后，对每一个维度，计算一次最佳分裂点，求出对应的残差增益

于是只要不断选择最好的残差作为分裂点就可以。

也就是说，虽然森林的建立是串行的没有变，但是每一颗树枝的建立就变成是并行的了，带来的好处：

1.分裂点的计算可并行了，不需要等到一个特征的算完再下一个了

2.每层可以并行：

当分裂点的计算可以并行，对每一层，比如分裂了左儿子和右儿子，那么这两个儿子上分裂哪个特征及其增益也计算好了

同时：

③Shrinkage（缩减）

相当于学习速率（XGBoost中的eta）。XGBoost在进行完一次迭代时，会将叶子节点的权值乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。（GBDT也有学习速率）

④列抽样

XGBoost借鉴了随机森林的做法，支持列抽样，不仅防止过拟合，还能减少计算。

LightGBM，3点优化：

①采用基于Histogram的决策树算法

把每个特征做转化成int，并用这个int作为直方图的index，如果某一个特征值的值为ki，就在直方图横轴=ki的地方，增加1的高度

最后根据直方图进行分裂

带来的好处：

1.不用计算分裂增益

2.只消耗很少的内存，解决xgboost为了排序需要把特征都加进内存需要巨大的空间

②带深度限制的Leaf-wise的叶子生长策略。

直接找到分裂增益最大的叶子，按层优先不断分裂

1.提高精度降低误差

2.减少Level-wise非常非常的无用叶子的分裂

3.因为特征的访问顺序相同，就可以提高cache优化，意味着CPU可以为下一次会采用的特征预先做预读取

③用histogram 做差加速

一个容易观察到的现象：一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到

也就是说下一次分裂的时候不需要计算分裂增益，直接计算一个大儿子，另一个小儿子的直方图就是父亲减去大儿子的差

1.进一步优化

XGBoost与LightGBM对比分析（转）的更多相关文章

XGBoost、LightGBM的详细对比介绍
sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging 基本思想独立的训练一些基学习器 ...
rf, xgboost和GBDT对比；xgboost和lightGbm
1. RF 随机森林基于Bagging的策略是Bagging的扩展变体,概括RF包括四个部分:1.随机选择样本(放回抽样):2.随机选择特征(相比普通通bagging多了特征采样):3.构建决策树:4 ...
XGBoost、LightGBM、Catboost总结
sklearn集成方法 bagging 常见变体(按照样本采样方式的不同划分) Pasting:直接从样本集里随机抽取的到训练样本子集 Bagging:自助采样(有放回的抽样)得到训练子集 Rando ...
Stacking：Catboost、Xgboost、LightGBM、Adaboost、RF etc
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
浅谈C++之冒泡排序、希尔排序、快速排序、插入排序、堆排序、基数排序性能对比分析之后续补充说明（有图有真相）
如果你觉得我的有些话有点唐突,你不理解可以想看看前一篇<C++之冒泡排序.希尔排序.快速排序.插入排序.堆排序.基数排序性能对比分析>. 这几天闲着没事就写了一篇<C++之冒泡排序. ...
wait、notify、sleep、interrupt对比分析
对比分析Java中的各个线程相关的wait().notify().sleep().interrupt()方法方法简述 Thread类 sleep:暂停当前正在执行的线程:(类方法) yield:暂停 ...
Android和Linux应用综合对比分析
原文地址:http://www.cnblogs.com/beer/p/3325242.html 免责声明: 当时写完这篇调查报告,给同事看了后,他觉得蛮喜欢,然后想把这篇文章修改一下,然后往期刊上发表 ...
GitHub & Bitbucket & GitLab & Coding 的对比分析
目前基于 Git 做版本控制的代码托管平台有很多种,比较流行的服务有 Github.Bitbucket. GitLab. Coding,他们各自有什么特点,个人使用者和开发团队又该如何选择? 在这篇文 ...
ArrayList和LinkedList的几种循环遍历方式及性能对比分析(转)
主要介绍ArrayList和LinkedList这两种list的五种循环遍历方式,各种方式的性能测试对比,根据ArrayList和LinkedList的源码实现分析性能结果,总结结论. 通过本文你可以 ...

随机推荐

chrome 常用插件集锦
stylish 改变浏览器CSS样式
第77天：jQuery事件绑定触发
一.元素操作 1. 高度和宽度 $(“div”).height(); // 高度 $(“div”).width(); // 宽度 .height()方法和.css(“height”)的区别: 返回值不 ...
MySQL配置文件简单解析
[mysqld] basedir = /data/mysql datadir = /data/mysqldata tmpdir = /data/mysqltmpdata //mysql的查询临时目录, ...
小结ospf基本配置的三个参数
实例:<华为路由器学习指南>P712 OSPF基本功能配置示例拓扑结构配置思路:以E为例子 [E]ospf 100 router-id 5.5.5.5[E-ospf-100]area 1 ...
2月4日考试——迟到的 ACX
迟到的 ACX 时限:1s 内存限制:128MB题目描述: 今天长沙下雪了,小 ACX 在上学路上欣赏雪景,导致上学迟到,愤怒的佘总给 ACX 巨佬出了一个题目想考考他,现在他找到你,希望你能帮帮他. ...
Hyperledger Fabric 实战(十二): Fabric 源码本地调试
借助开发网络调试 fabric 源码本地调试准备工作 IDE Goland Go 1.9.7 fabric-samples 模块 chaincode-docker-devmode fabric 源码 ...
框架----Django内置Admin
Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有: 依赖APP: django.contrib.auth django.contrib.contenttyp ...
jar包下载地址（fasterxml.jackson）
jar包下载地址(fasterxml.jackson) Home » com.fasterxml.jackson » core jar包下载地址 https://mvnrepository.com/a ...
Codeforces Round #305 (Div. 2) D 维护单调栈
D. Mike and Feet time limit per test 1 second memory limit per test 256 megabytes input standard inp ...
Codeforces Round #207 (Div. 2)A B C E 水思路 set 恶心分类
A. Group of Students time limit per test 1 second memory limit per test 256 megabytes input standard ...

XGBoost与LightGBM对比分析（转）

XGBoost与LightGBM对比分析（转）的更多相关文章

随机推荐

热门专题