作者前言

在2020年还在整理XGB的算法，其实已经有点过时了。。不过，主要是为了学习算法嘛。现在的大数据竞赛，XGB基本上已经全面被LGB模型取代了，这里主要是学习一下Boost算法。之前已经在其他博文中介绍了Adaboost算法和Gradient-boost算法，这篇文章讲解一下XGBoost。

Adaboost和XGBoost无关，但是Gradient-boost与XGBoost有一定关系。

一文搞懂：Adaboost及手推算法案例

 一文读懂：GBDT梯度提升

树模型概述

XGB就是Extreme Gradient Boosting极限梯度提升模型。XGB简单的说是一组分类和回归树（CART）的组合。跟GBDT和Adaboost都有异曲同工之处。

【CART=classification adn regression trees】

这里对于一个决策树，如何分裂，如何选择最优的分割点，其实就是一个搜索的过程。搜索怎么分裂，才能让目标函数最小。目标函数如下：

\(Obj = Loss + \Omega\)

\(Obj\)就是我们要最小化的优化函数，\(Loss\)就是这个CART模型的预测结果和真实值得损失。\(\Omega\)就是这个CART模型的复杂度,类似神经网络中的正则项。

【上面的公式就是一个抽象的概念。我们要知道的是：CART树模型即要求预测尽可能准确，又要求树模型不能过于复杂。】

对于回归问题，我们可以用均方差来作为Loss：

\(Loss=\sum_i{(y_i-\hat{y_i})^2}\)

对于分类问题，用交叉熵是非常常见的,这里用二值交叉熵作为例子：

\(Loss = \sum_i{(y_ilog(\hat{y_i})+(1-y_i)log(\hat{y_i}))}\)

总之，这个Loss就是衡量模型预测准确度的损失。

下面看一下如何计算这个模型复杂度\(\Omega\)吧。

\(\Omega = \gamma T+\frac{1}{2} \lambda \sum^T_j{w_j}^2\)

\(T\)表示叶子节点的数量，\(w_j\)表示每个叶子节点上的权重（与叶子节点的样本数量成正比）。

【这里有点麻烦的在于，\(w_j\)是与每个叶子节点的样本数量成正比，但是并非是样本数量。这个\(w_j\)的求取，要依靠与对整个目标函数求导数，然后找到每个叶子节点的权重值\(w_j\)。】

XGB vs GBDT

其实说了这么多，感觉XGB和GDBT好像区别不大啊？下面整理一下网上有的说法，再加上自己的理解。有错误请指出评论，谢谢！

区别1：自带正则项

GDBT中，只是让新的弱分类器来拟合负梯度，那拟合多少棵树才算好呢？不知道。XGB的优化函数中，有一个\(\Omega\)复杂度。这个复杂度不是某一课CART的复杂度，而是XGB中所有CART的总复杂度。可想而知，每多一颗CART，这个复杂度就会增加他的惩罚力度，当损失下降小于复杂度上升的时候，XGB就停止了。

区别2：有二阶导数信息

GBDT中新的CART拟合的是负梯度，也就是一阶导数。而在XGB会考虑二阶导数的信息。

这里简单推导一下XGB如何用上二阶导数的信息的：

之前我们得到了XGB的优化函数：

\(Obj = Loss + \Omega\)
然后我们把Loss和Omega写的更具体一点：

\(Obj = \sum_i^n{Loss(y_i,\hat{y}_i^t)}+\sum_j^t{\Omega(cart_j)}\)
- \(\hat{y_i^t}\)表示总共有t个CART弱分类器，然后t个弱分类器给出样本i的估计值就。
- \(y_i\)第i个样本的真实值；
- \(\Omega(cart_j)\)第j个CART模型的复杂度。
我们现在要求取第t个CART模型的优化函数，所以目前我们只是知道前面t-1的模型。所以我们得到：

\(\hat{y}_i^t = \hat{y}_i^{t-1}+f_t(x_i)\)

t个CART模型的预测，等于前面t-1个CART模型的预测加上第t个模型的预测。
所以可以得到：

\(\sum_i^n{Loss(y_i,\hat{y}_i^t)}=\sum_i^n{Loss(y_i,\hat{y}_i^{t-1}+f_t(x_i))}\)

这里考虑一下特勒展开：

\(f(x+\Delta x)\approx f(x)+f'(x)\Delta x + \frac{1}{2} f''(x)\Delta x^2\)
如何把泰勒公式带入呢？

\({Loss(y_i,\hat{y}_i^t)}\)中的\(y_i\)其实就是常数，不是变量

所以其实这个是可以看成\(Loss(\hat{y}_i^t)\),也就是:

\(Loss(\hat{y}_i^{t-1}+f_t(x_i))\)
带入泰勒公式，把\(f_t(x_i)\)看成\(\Delta x\)：

\(Loss(\hat{y}_i^{t-1}+f_t(x_i))=Loss(\hat{y}_i^{t-1})+Loss'(\hat{y}_i^{t-1})f_t(x_i)+\frac{1}{2}Loss''(\hat{y}_i^{t-1})(f_t(x_i))^2\)
- 在很多的文章中，会用\(g_i=Loss'(\hat{y}_i^{t-1})\),以及\(h_i=Loss''(\hat{y}_i^{t-1})\)来表示函数的一阶导数和二阶导数。
把泰勒展开的东西带回到最开始的优化函数中，删除掉常数项\(Loss(\hat{y}_i^{t-1})\)(这个与第t个CART模型无关呀)以及前面t-1个模型的复杂度，可以得到第t个CART的优化函数：

\(Obj^t \approx \sum_i^n{[g_i f_t(x_i)+\frac{1}{2}h_i(f_t(x_i))^2}]+{\Omega(cart_t)}\)

【所以XGB用到了二阶导数的信息，而GBDT只用了一阶的梯度】

区别3：列抽样

XGB借鉴了随机森林的做法，不仅仅支持样本抽样，还支持特征抽样（列抽样），不仅可以降低过拟合，还可以减少计算。

区别4：缺失值

XGB可以自适应的处理样本中的缺失值。如何处理的这里就不再讲述。

喜欢的话请关注我们的微信公众号~【你好世界炼丹师】。

公众号主要讲统计学，数据科学，机器学习，深度学习，以及一些参加Kaggle竞赛的经验。
公众号内容建议作为课后的一些相关知识的补充，饭后甜点。
此外，为了不过多打扰，公众号每周推送一次，每次4~6篇精选文章。

微信搜索公众号：你好世界炼丹师。期待您的关注。

一文入门：XGBoost与手推二阶导的更多相关文章

集成学习——XGBoost（手推公式）
一文入门HTML5
1.HTML5 上节回顾:一文读懂ES6(附PY3对比) | 一文入门NodeJS 演示demo:https://github.com/lotapp/BaseCode/tree/master/java ...
手推C3算法
C3算法规则 -- 每一个类的继承顺序都是从基类向子类看 -- 形成一个指向关系的顺序[当前类] + [父类的继承顺序] -- 进行一个提取 -- 如果一个类出现从左到右的第一个顺序上,并且没有出现在 ...
福建工程学院第十四届ACM校赛M题题解 fwt进阶，手推三进制fwt
第九集,结束亦是开始题意: 大致意思就是给你n个3进制的数字,让你计算有多少对数字的哈夫曼距离等于i(0<=i<=2^m) 思路: 这个是一个防ak题,做法是要手推公式的fwt 大概就这 ...
一文入门Redis
一文入门Redis 目录一文入门Redis 一.Redis简介二.常用数据类型 1.String(字符串) 2.Hash(哈希) 3.List(列表) 4.Set(集合) 5.Zset(有序集合) ...
一文入门Linux下gdb调试(二)
作者:良知犹存转载授权以及围观:欢迎添加微信号:Conscience_Remains 总述今天我们介绍一下core dump文件,Core dump叫做核心转储,它是进程运行时在突然崩溃的 ...
LOJ #6044 -「雅礼集训 2017 Day8」共（矩阵树定理+手推行列式）
题面传送门一道代码让你觉得它是道给初学者做的题,然鹅我竟没想到? 首先考虑做一步转化,我们考虑将整棵树按深度奇偶性转化为一张二分图,即将深度为奇数的点视作二分图的左部,深度为偶数的点视作二分图的右部 ...
Java，面试题，简历，Linux，大数据，常用开发工具类，API文档，电子书，各种思维导图资源，百度网盘资源，BBS论坛系统 ERP管理系统 OA办公自动化管理系统车辆管理系统各种后台管理系统
Java,面试题,简历,Linux,大数据,常用开发工具类,API文档,电子书,各种思维导图资源,百度网盘资源BBS论坛系统 ERP管理系统 OA办公自动化管理系统车辆管理系统家庭理财系统各种后 ...
【毕业设计】基于Android的家校互动平台开发(内含完整代码和所有文档)——爱吖校推（你关注的，我们才推）
☆ 写在前面之前答应大家的毕业答辩之后把所有文档贡献出来,现在答辩已过,LZ信守承诺,把所有文档开源到了GitHub(这个地址包含所有的代码和文档以及PPT,外层为简单的代码).还望喜欢的朋友们,不 ...

随机推荐

Python 每日一练（4）
引言今天继续是python每日一练的几个专题,主要涵盖简单的敏感词识别以及图片爬虫敏感词识别这个敏感词的识别写的感觉比较简单,总的概括之后感觉功能可以简略成if filter_words in ...
Java IO（四） InputStream 和 OutputStream
Java IO(四) InputStream 和 OutputStream 一.介绍 InputStream 和 OutputStream 是字节流的超类(父类),都是抽象类,都是通过实例化它们的子类 ...
Ubuntu18.04兼容Python2.7、Python3.6、Python3.8以及pip、pip2、pip3问题
Ubuntu18.04兼容Python2.7.Python3.6.Python3.8以及pip.pip2.pip3问题此为记录我重装Ubuntu后安装Python的过程安装Python3.8 目前 ...
搭建Prometheus平台，你必须考虑的6个因素
作者简介 Loris Degioanni,Sysdig的创始人和CTO,同时还是容器安全工具Falco的创建者. 原文链接 https://thenewstack.io/6-things-to-con ...
【算法】单元最短路径之Bellman-Ford算法和SPFA算法
SPFA是经过对列优化的bellman-Ford算法,因此,在学习SPFA算法之前,先学习下bellman-Ford算法. bellman-Ford算法是一种通过松弛操作计算最短路的算法. 适用条件 ...
Chisel3 - util - Arbiter
https://mp.weixin.qq.com/s/7Y23gV6yPvtmvKHTo2I8mw 基于ReadyValid接口实现的多入单出仲裁器. 参考链接: https://github ...
Java实现蓝桥杯VIP 算法提高铺地毯
算法提高铺地毯时间限制:1.0s 内存限制:256.0MB 问题描述为了准备一个学生节,组织者在会场的一片矩形区域(可看做是平面直角坐标系的第一象限)铺上一些矩形地毯.一共有n 张地毯,编号从 ...
Java实现莱布尼兹问题
历史上有许多计算圆周率pai的公式,其中,格雷戈里和莱布尼茨发现了下面的公式: pai = 4*(1-1/3+1/5-1/7 -) 参见[图1.png] 这个公式简单而优美,但美中不足,它收敛的太慢了 ...
关于晶体问题TCXO_14.7456MHZ
如何判断热点的晶体好不好,首先,看偏移,偏移为0的晶体一般就是温补晶体,当然偏移是500或者几百固定的也是温补,但是不是我们首选的温补晶体因为偏移为0非常省事,这是系统默认的偏移0,因此设置好频率就 ...
哪些年，我们玩过的Git
作者:玩世不恭的Coder公众号:玩世不恭的Coder时间:2020-06-05说明:本文为原创文章,未经允许不可转载,转载前请联系作者哪些年,我们玩过的Git 前言一.前期工作常用基本概念的理解G ...

一文入门：XGBoost与手推二阶导