机器学习 - 算法 - Xgboost 数学原理推导
工作原理
基于集成算法的多个树累加, 可以理解为是弱分类器的提升模型
公式表达
基本公式
目标函数
目标函数这里加入了损失函数计算
这里的公式是用的均方误差方式来计算
最优函数解
要对所有的样本的损失值的期望, 求解最小的程度作为最优解
集成算法表示
集成算法中对所有的树进行累加处理
公式流程分解
每加一棵树都应该在之前基础上有一个提升
损失函数
叶子节点惩罚项
损失函数加入到基本公式目标函数中
多余出来的常数项就用 c 表示即可
目标函数推导
如上图. 三个树, 真实值 1000 , 第一棵树预测950, 残差 50
第二颗就预测 30, 残差 20 , 一次类推最终结果预测 995
这里拟定近似成为了泰勒展开的形式
然后优化的时候, 对于 是对上一颗树的结果, 这个值对于下面是不会变动的
因此可以视为常数, 和最后面的常数项合并省略掉了
然后 gi 表示一阶导, hi 表示二阶导
去除掉常数项对极值不会有影响后
就剩下了
继续化简, 带入
是对样本的遍历, 这样的话感觉和后面的 T 关系不大
在物理意义上所有的样本点都是会落到叶子节点上的
因此遍历样本和遍历叶子节点都是全部遍历到的
于是这里转换成对叶子节点的遍历
对于每一个叶子节点则需要再遍历一次这个叶子节点上的所有样本
而包含有 w2j 的两项可以进行合并从而得到了
里面每个叶子节点的导数求和分别用 Gj 和 Hj 来表示一阶和二阶
从而进一步的化简得到最终的 目标函数
目标函数求解
怎么样的 wj 可以让目标函数最小? 依旧是对 wj 偏导
然后求导等于0获得 wj 的表达式带入原函数
得最终解
其中对每一个Hj 和 Gj 都是可以得出的
以及 T 叶子节点数和 λ 都是已知的
目标函数使用实例
实际的操作中即可计算出每个叶子节点的一阶导二阶导
如果叶子中只有一个样本就按唯一的来算
多个就累加处理即可
而目标函数的的值越小则表示树结构越优
相比较之前的用熵值进行计算, 这里可以直接使用我们的目标函数的解来衡量判断模型
根据我们根据现有模型的值减去随机分割的左子树的值和右子树的值
然后这个值越大表示这时候的增益是最大的, 因此可以判断在哪里切是最优的
机器学习 - 算法 - Xgboost 数学原理推导的更多相关文章
- PCA主成分分析算法的数学原理推导
PCA(Principal Component Analysis)主成分分析法的数学原理推导1.主成分分析法PCA的特点与作用如下:(1)是一种非监督学习的机器学习算法(2)主要用于数据的降维(3)通 ...
- SVM数学原理推导
//2019.08.17 #支撑向量机SVM(Support Vector Machine)1.支撑向量机SVM是一种非常重要和广泛的机器学习算法,它的算法出发点是尽可能找到最优的决策边界,使得模型的 ...
- opencv——PCA(主要成分分析)数学原理推导
引言: 最近一直在学习主成分分析(PCA),所以想把最近学的一点知识整理一下,如果有不对的还请大家帮忙指正,共同学习. 首先我们知道当数据维度太大时,我们通常需要进行降维处理,降维处理的方式有很多种, ...
- SVM数学原理推导&鸢尾花实例
//看了多少遍SVM的数学原理讲解,就是不懂,对偶形式推导也是不懂,看来我真的是不太适合学数学啊,这是面试前最后一次认真的看,并且使用了sklearn包中的SVM来进行实现了一个鸢尾花分类的实例,进行 ...
- Dijkstar算法的数学原理
Dijkstar算法是荷兰数学家迪克斯屈拉(or迪杰斯特拉?)在1959年发现的一个算法.是现有的几个求带权图中两个顶点之间最短通路的算法之一.算是一个相当经典的算法了. 迪克斯屈拉算法应用于无向连通 ...
- [杂记]对RSA算法的数学原理的一点思考
- DH算法图解+数学证明
前几天和同事讨论IKE密钥交换流程时,提到了Diffie-Hellman交换.DH算法最主要的作用便是在不安全的网络上成功公共密钥(并未传输真实密钥).但由于对于DH算法的数学原理则不清楚,因此私下对 ...
- Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 (广泛采用) 协调过滤的概念 在现今的推荐技术和算法中,最被大家广泛认可和 ...
- 【机器学习笔记之七】PCA 的数学原理和可视化效果
PCA 的数学原理和可视化效果 本文结构: 什么是 PCA 数学原理 可视化效果 1. 什么是 PCA PCA (principal component analysis, 主成分分析) 是机器学习中 ...
随机推荐
- Windows下静态库的制作与使用
参考 静态链接 VS 动态链接 静态库 VS 动态库 实验环境 OS:Windows10 企业版 IDE:Visual Studio 2017旗舰版 前言 静态链接库与动态链接库都是共享代码的方式,如 ...
- RT-Thread--线程间通信
线程中通信 在裸机编程中,经常会使用全局变量进行功能间的通信,如某些功能可能由于一些操作而改变全局变量的值,另一个功能对此全局变量进行读取,根据读取到的全局变量值执行相应的动作,达到通信协作的目的: ...
- MaxTenuringThreshold与阈值的动态调整理论详解
今天会学习“MaxTenuringThreshold”这样一个新的JVM参数,编写的示例还是会基于上一次的代码,新建个类,如下: 接下来给它设置JVM的参数,具体如下: 而接下来会新增三个参数: 这个 ...
- Python调用R编程——rpy2
在Python调用R,最常见的方式是使用rpy2模块. 简介 模块 The package is made of several sub-packages or modules: rpy2.rinte ...
- GITHUB下载源码方式
从昨天开始就想着从GitHub上下载一个开源的Vue的实战项目,希望能从中学习更多的Vue的实用内容,结果搞了半天好不容易下载了,不知道怎么弄.然而,今天终于成功了,激动地我赶紧来记录一下.如何从Gi ...
- Django REST framework+Vue 打造生鲜电商项目(笔记十一)
(form: http://www.cnblogs.com/derek1184405959/p/8886796.html 有修改) 十四.social_django 集成第三方登录 1.申请应用 进入 ...
- chrome开启headless模式以及代理
google-chrome-stable --disable-gpu --remote-debugging-port=9222 --headless -remote-debugging-address ...
- SqlProfilter监控指定数据库数据表——监控linq组合查询生成的sql
1.例子 实际测试环境中往往很多测试都在调用数据库,那么如何使用SqlProfilter监控筛选到自己想要监看的数据库对应的表有关linq生成的sql时候就需要做如下设置了 ........... u ...
- reCAPTCHA打不开的解决方法
reCAPTCHA打不开的解决方法 by WernerPosted on2018年1月8日 reCAPTCHA是国外广泛使用的验证码,但由于一些原因国内无法使用. 观察使用reCAPTCHA的网站,发 ...
- Convert AS400 Spool to PFD Tools – PDFing
1. Steps There’s a tool PDFing convert spool file to PDF with simple way. No need install AS400 obje ...