Xgboost理解

一、xgboost模型函数形式

　　xgboost也是GBDT的一种，只不过GBDT在函数空间进行搜索最优F的时候，采用的是梯度下降法也就是一阶泰勒展开；而xgboost采用的是二阶泰勒展开也就是牛顿法，去每次逼近最优的F，泰勒展开越多与原函数形状越接近，比如在x₀处进行展开，其展开越多，x₀附近与原函数值越接近，且这个附近的区域越大。另外一个xgboost加入了正则化项，有效防止过拟合。

　　xgboost与GBDT都是采用的cart树中的回归树来解决所有问题，回归树的预测输出是实数分数，可以用于回归、分类、排序等任务中。对于回归问题，可以直接作为目标值，对于分类问题，需要映射成概率，比如采用逻辑回归的sigmoid函数。

additive表示附加的，所谓additive training，就是每次add一颗树进行学习，直到损失最小。

误差函数尽量去拟合训练数据，正则化项则鼓励更加简单的模型。因为当模型简单之后，有限数据拟合出来结果的随机性比较小，不容易过拟合，使得最后模型的预测更加稳定。

二、目标函数

1）回顾传统参数空间的目标函数

误差函数可以是square loss，logloss等，正则项可以是L1正则，L2正则等。正则项如果从Bayes角度来看，相当于对模型参数引入先验分布：

L1正则，模型参数服从拉普拉斯分布，对参数加了分布约束，大部分取值为0。

L2正则，模型参数服从高斯分布，对参数加了分布约束，大部分绝对值很小。

2）xgboost在函数空间搜索的目标函数

函数空间的目标函数是多棵树一起构建的目标损失函数，求解多棵树一起的整体最优解。

第一部分属于误差项，训练模型的精度；第二部分正则项对每一棵回归树的复杂度进行了惩罚，使得学习出来的模型不容易过拟合。

哪些指标可以衡量树的复杂度呢？

树的深度，内部节点个数，叶子节点个数，叶子节点分数等。

xgboost采用叶子节点个数T和叶子节点分数w（其实就是预测值）对树的复杂度进行约束：

对叶子节点个数进行惩罚，相当于进行了剪枝。

三、泰勒展开

基本形式：

一阶与二阶泰勒展开：

1）一阶泰勒展开（梯度下降法）

在机器学习任务中，需要最小化损失函数L(θ) ，其中θ 是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题，它是一种迭代方法：选取初值 θ₀，不断迭代，更新θ的值，进行损失函数的极小化。

从上面可知，当△θ=-αL^丶(θ^t-1)时候，θ的更新就跟我们之前理解的梯度下降方法是一摸一样。将△θ带入损失函数即可知，这个时候L(θ^t)是肯定比L(θ^t-1)变小的。

所以，从梯度下降法角度理解，就是函数值沿着梯度的负方向进行减少；从泰勒展开角度理解，就是函数在θ^t-1处进行一阶展开，并根据展开公式找到了比L(θ^t-1)更小的近似于L(θ^t)的值，因为泰勒展开本身就是用多项式形式近似表达函数的原形式。

2）二阶泰勒展开（牛顿法）

此时如何进行优化，寻找更小的L(θ^t)？

这时候利用泰勒二阶展开求解最优的△θ，使得L(θ^t)更小，泰勒二阶比一阶肯定更接近原函数的值，所求得的△θ也使得L(θ^t)下降的更快，这就是牛顿法的优势。

四、xgboost目标函数进行泰勒展开

xgboost在第t次迭代后，模型的预测等于前t-1次的模型预测加上第t棵树的预测：

由于模型已经进行了t-1次迭代，也就是已经学习了t-1棵树，此时只要学习寻找最优的第t棵树函数f_t即可，所以目标函数如下：

其中y_i和y_i^(t-1)都属于已知的，可以理解为常数。

将目标函数在y_i^(t-1)处进行泰勒二次展开，因为我们一步步寻找的是最优的函数y_i^(t)使得L最小，就是上面所说的在函数空间进行的搜索，所以在y_i^(t-1)处进行泰勒二次展开寻找并学习下一颗树f_t，这里的f_t其实就相当于上文第三部门牛顿法中的△θ，不停的寻找f_t，最后将这些树加起来就成了最优的y^t，上文中也是不停的寻找△θ，最后θ^*=θ₀+Σ△θ，一样的道理。无非一个是在参数空间进行搜索，一个是在函数空间进行搜索。二次展开如下：

其中g_i和h_i分布如下：

将常数项去掉，并把树的结构形式带入得到如下：

其实这个时候已经简洁地变成对t棵树的学习优化问题了，以叶子节点形式表示上述目标函数如下,其中I_j={i|q(x_i)=j}表示j叶子节点上的样本集合。

为了使目标函数最小，可以令其导数为0，解得每个叶节点的最优预测分数为：

带入目标函数，得到最小损失为：

五、如何进行分裂？

1）如何评测节点分裂的优劣？

　　ID3采用信息增益来评测，C4.5采用信息增益率、CART树采用基尼系数和平方损失来评测，xgboost采用如下的打分评测：

其实就是上面的最小损失值的公式，如果分裂后能让损失变得更小，就值得去分裂，所以分裂前后增益定义为：

这个Gain就是分裂前的损失-分裂后的损失，差值越大，代表分裂后的损失越小，所以当对一个节点进行分裂时，计算所有候选(feature,value)对应的gain，选区gain最大的进行分裂。

2）寻找分裂节点

1、精确算法-暴力穷举搜索法

遍历所有特征的所有可能的分割点，计算gain值，选取gain值最大的(feature,value)去分割。该方式优点是精度高，缺点是计算量太大。

2、近似算法-分位点分割

对于某一个特征，按照百分比确定候选分裂点，通过遍历所有特征的所有候选分裂点来找到最佳分裂点，减少了计算复杂度。

　　原论文指出两种近似算法：一种是全局算法，即在初始化tree的时候划分好候选节点，并且在树的每一层都使用这些候选节点；另一种是局部算法，即每一次划分的时候都重新计算候选节点。这两者各有利弊，全局算法不需要多次计算候选节点，但需要一次获取较多的候选节点供后续树生长使用，而局部算法一次获取的候选节点较少，可以在分支过程中不断改善，即适用于生长更深的树，两者在effect和accuracy做trade off。

3.weighted quantile sketch(按权重的分位点算法)

该方法将样本对应的残差二阶导h作为划分依据，假设每一个分位点区间的h之和占总h的比率为rk(z），则两个相邻区间的rk之差小于一个固定值，如下所示：

从上图可知ε是一个小数，其实也就是将权重约分为了1/ε个分位点。

举例如下：

第一行为一列特征对应的特征值，第二行为该特征值对应的样本xi的二阶导数值hi。

我的理解在一个个特征列上寻找分位点的时候，首先按照该列的特征值进行排序如上图从小到大，然后再按权重hi计算rk，以上图为例子计算如下：

rk(1)=0

rk(3)=(0.1+0.1)/(1.8)=1/9

rk(4)=(0.1+0.1+0.1)/(1.8)=1/6

rk(5)=0.4/1.8=2/9

rk(12)=0.5/1.8=5/18

rk(45)=0.6/1.8=1/3

rk(50)=1.0/1.8=5/9

rk(99)=1.2/1.8=2/3

所以如果取三分位点的时候，就是按rk=1/3，2/3的位置作为候选分裂点（即45，99两个点）进行分裂增益计算，这样大大减少了计算量。

之所以按二阶导数h作为分位点划分，是因为我们要均分的是loss，而不是样本的数量，而每个样本对loss的贡献可能是不一样的，按样本均分会导致loss分布不均匀，取到的分位点会有偏差，而h是对loss贡献非常大的权重量，所以按h选取合适的分位点。

六、为什么要用泰勒二阶展开？

1）可以很方便地自定义损失函数，只要这个损失函数可以求一阶和二阶，实现形式上的"统一"。

2）二阶展开精度上更接近原函数，既有一阶导数，也有二阶导数，相当于既有速度信息，还有加速度信息，因此收敛更快。

七、其它

1）缺失值或者稀疏数据自动处理

原论文中缺失值的处理与稀疏数据(大量为0的数据)的处理看作一样。在寻找split point的时候，不会对该特征为missing的样本进行遍历统计，只对该列特征值为non-missing的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找split point的时间开销。在逻辑实现上，为了保证完备性，会分别处理将missing该特征值的样本分配到左叶子结点和右叶子结点的两种情形，计算增益后选择增益大的方向进行分裂即可。可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子树。

2）特征预排序，存储样本索引。

这样加速了split finding的过程，只需要在建树前排序一次，后面节点分裂时候，直接根据样本能索引得到其样本对应的梯度信息。

3）如何解决二分类问题输出的概率值呢？

得到树模型后，输入一个原始数据，经过T个树打分，残差相加，得到的数值经过logictic function映射，然后就得到概率值了。

多分类问题，就采用softmax函数即可。

Xgboost理解的更多相关文章

GB、GBDT、XGboost理解
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
决策树(下)-Xgboost
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可更加了解Xgboost): 1.对xgboost的理解(参考资料1和4是我认为对Xgboost理解总结最透彻的两篇文章,其根据作者pa ...
一步一步理解GB、GBDT、xgboost
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
gbdt xgboost 贼难理解！
https://www.zybuluo.com/yxd/note/611571 https://zhuanlan.zhihu.com/p/29765582 gbdt 在看统计学习方法的时候理解很吃力 ...
大白话5分钟带你走进人工智能-第32节集成学习之最通俗理解XGBoost原理和过程
目录 1.回顾: 1.1 有监督学习中的相关概念 1.2 回归树概念 1.3 树的优点 2.怎么训练模型: 2.1 案例引入 2.2 XGBoost目标函数求解 3.XGBoost中正则项的显式表达 ...
xgboost原理及应用
1.背景关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT 地址和xgboost导读和实战地址,希望对xgboost原理进行深入理解. 2.xgboo ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
XGBoost参数调优完全指南（附Python代码）
XGBoost参数调优完全指南(附Python代码):http://www.2cto.com/kf/201607/528771.html https://www.zhihu.com/question/ ...
xgboost-python参数深入理解
由于在工作中应用到xgboost做特征训练预测,因此需要深入理解xgboost训练过程中的参数的意思和影响. 通过search,https://www.analyticsvidhya.com/blog ...

随机推荐

Linux内核分析笔记二操作系统是如何工作的 ——by王玥
一.知识要点 1.计算机是如何工作的?(总结)——三个法宝存储程序计算机工作模型,计算机系统最最基础性的逻辑结构: 函数调用堆栈,高级语言得以运行的基础,只有机器语言和汇编语言的时候堆栈机制对于计算 ...
Linux内核分析——第一周学习笔记20135308
第一周计算机是如何工作的第一节存储程序计算机工作模型 1.冯·诺依曼结构模型:冯·诺依曼结构也称普林斯顿结构,是一种将程序指令存储器和数据存储器合并在一起的存储器结构.程序指令存储地址和数据存储 ...
20135337朱荟潼 Linux第一周学习总结——计算机是如何工作的
朱荟潼 + 原创作品转载请注明出处 + <Linux内核分析>MOOC课http://mooc.study.163.com/course/USTC-1000029000 1.冯诺依曼体系结 ...
剑指offer：合并两个排序的链表
题目描述: 输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则. 解题思路: 这道题应该考察也是链表的相关操作.具体实现,新建一个新的链表,用两个指针分别指向两 ...
Alpha冲刺——day10
Alpha冲刺--day10 作业链接 Alpha冲刺随笔集 github地址团队成员 031602636 许舒玲(队长) 031602237 吴杰婷 031602220 雷博浩 031602634 ...
Beta 冲刺二
团队成员 051601135 岳冠宇 031602629 刘意晗 031602248 郑智文 031602330 苏芳锃 031602234 王淇照片项目进展岳冠宇昨天的困难 fragment ...
（改进）Python语言实现词频统计
需求: 1.设计一个词频统计的程序. 2.英语文章中包含的英语标点符号不计入统计. 3.将统计结果按照单词的出现频率由大到小进行排序. 设计: 1.基本功能和用法会在程序中进行提示. 2.原理是利用分 ...
Python开发【第七章】：面向对象进阶
1.静态方法通过@staticmethod装饰器即可把其装饰的方法变为一个静态方法,什么是静态方法呢?其实不难理解,普通的方法,可以在实例化后直接调用,并且在方法里可以通过self.调用实例变量或类 ...
javaee, javaweb和javase的区别以及各自的知识体系
javaee, javaweb和javase的区别以及各自的知识体系来源 https://blog.csdn.net/weixin_39297312/article/details/79454642 ...
JAVA类变量（静态变量）
类变量也称为静态变量,在类中以static关键字声明,但必须在方法.构造方法和语句块之外. -无论一个类创建了多少个对象,类只拥有类变量的一份拷贝. -静态变量除了被声明为常量外很少使用.常量是指声明 ...

Xgboost理解

Xgboost理解的更多相关文章

随机推荐

热门专题