论XGBOOST科学调参

XGBOOST的威力不用赘述，反正我是离不开它了。

具体XGBOOST的原理可以参见之前的文章《比XGBOOST更快--LightGBM介绍》

今天说下如何调参。

bias-variance trade-off

xgboost一共有几十个参数：

http://xgboost.readthedocs.io/en/latest/parameter.html

中文版解释：

http://blog.csdn.net/zc02051126/article/details/46711047

文艺青年的调参一般这样的：

1. 设定参数{parm}，评判指标{metrics}；

2. 根据{metrics}在验证集上的大小，确定树的棵树n_estimators；

3. 采用参数{parm}、n_estimators，训练模型，并应用到测试集

一个字：糙！（kuai）

数据挖掘师的调参一般这样的：

设定基础参数{parm0}，基础评判指标{metrics0}；
在训练集上做cross-validation，做训练集/交叉验证集上偏差/方差与树棵树的关系图；
判断模型是过拟合 or 欠拟合，更新相应参数{parm1}；
重复2、3步，确定树的棵树n_estimators；
采用参数{parm1}、n_estimators，训练模型，并应用到测试集；

数据集大小：70000*100，随机准确率 0.17%

在设置了基础参数，设定了树的范围后，可以看到模型在训练集和交叉验证集上的效果是这样子滴：

阴影部分，表示的是模型的方差

从上图，可以得出以下几个结论：

- 验证集上偏差最小&方差最小：n_estimators=66

- 训练集和验证集误差较大：过拟合-----模型过于复杂

- 方差较大----模型过于复杂

这符合下面这个图

以上特征，都表明我们需要降低模型复杂程度，有哪些参数可以调整呢：

- 直接降低模型复杂度

max_depth、min_child_weight、gamma

- 随机化

subsample、colsample_bytree

- 正则化

lambda、alpha

通过，grid-search，再调整了以上的参数后，如下图。最佳trade-off点的variance从0.361降低到0.316，auc_mean从0.8312降低到0.8308。

P-R的提升还是比较明显的：

还有，先粗调，再微调

-- 降低learning_rate，当然同时，提高n_estimators

2. 非平衡数据集怎么办

-- 想办法弄到更多的数据

-- 想办法把数据弄平衡

-- 利用smote等算法来过采样/欠采样

-- 设置weight（初始化DMatrix时）

-- 使用更好的metrics：auc、f1

-- min_child_weight 设的小一点

-- scale_pos_weight = 0值的样本数量/1值的样本数量

-- max_delta_step

-- 自定义评价函数

xgb.train(params, dtrain, num_rounds, watchlist, feval=misclassified, maximize=False)

def misclassified(pred_probs, dtrain):

    labels = dtrain.get_label() # obtain true labels

    preds = pred_probs > 0.5 # obtain predicted values

    return 'misclassified', np.sum(labels != preds)

对数据感兴趣的小伙伴，欢迎交流，微信公共号:一白侃数

论XGBOOST科学调参的更多相关文章

xgboost使用调参
欢迎关注博主主页,学习python视频资源 https://blog.csdn.net/q383700092/article/details/53763328 调参后结果非常理想 from sklea ...
xgboost&lightgbm调参指南
本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见集成学习,以下内容主要来自xgboost和LightGBM的官方文档. xgboost Xgboost参数主要分为三大 ...
xgboost 并行调参
Parallelism When Cross Validating XGBoost Models This raises the question as to how cross validation ...
xgboost 完全调参指南
http://www.2cto.com/kf/201607/528771.html xgboost: https://www.analyticsvidhya.com/blog/2016/03/comp ...
Xgboost调参总结
一.参数速查参数分为三类: 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression). 学习目标参数:控制训练目标的表现. 二.回归 from xg ...
xgboost的sklearn接口和原生接口参数详细说明及调参指点
from xgboost import XGBClassifier XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silen ...
xgboost入门与实战（实战调参篇）
https://blog.csdn.net/sb19931201/article/details/52577592 xgboost入门与实战(实战调参篇) 前言前面几篇博文都在学习原理知识,是时候上 ...
XGBOOST应用及调参示例
该示例所用的数据可从该链接下载,提取码为3y90,数据说明可参考该网页.该示例的“模型调参”这一部分引用了这篇博客的步骤. 数据前处理导入数据 import pandas as pd import ...
xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？
问题: 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了.但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高.用RandomFore ...

随机推荐

初用vue遇到的一些问题
1.过滤器: filters: { search(list) { es5 var _self = this; //return list.filter(menu => menu.childs.n ...
AE编码、稀疏编码（待续）
http://ufldl.stanford.edu/tutorial/unsupervised/SparseCoding/
I.MX6 AD7606-4 device driver registe hacking
/********************************************************************** * I.MX6 AD7606-4 device driv ...
Flask开发系列之初体验
Flask开发初探介绍在日常开发中,如果需要开发一个小型应用或者Web接口,一般我是极力推崇Flask的,主要是因为其简洁.扩展性高. 从这篇文章开始,我会写一个关于Flask的系列文章,通过多个 ...
php开发中一些前端知识杂总
推荐几个jqyuey插件的好地方 http://jqueryui.com/ http://www.jq22.com/ 背景: 服务端采用ci3.0框架,twig作为模板嵌套. twig模板手册: ht ...
Java并发--深入剖析ThreadLocal
想必很多朋友对ThreadLocal并不陌生,今天我们就来一起探讨下ThreadLocal的使用方法和实现原理.首先,本文先谈一下对ThreadLocal的理解,然后根据ThreadLocal类的源码 ...
BZOJ1015: [JSOI2008]星球大战starwar【并查集】【傻逼题】
Description 很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治者整个星系.某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系中几乎所有的星球.这些星球通过 ...
tableau-交互筛选器
欢迎观看这段关于“交互筛选器”的视频. 将字段拖到筛选器功能区就可以轻松执行筛选,但是如果我们希望能够直接从视图中修改筛选器选择项,那该怎么办?如果我们在可看到“子类别”字段的任何位置右键单击, ...
理解 C# 项目 csproj 文件格式的本质和编译流程
写了这么多个 C# 项目,是否对项目文件 csproj 有一些了解呢?Visual Studio 是怎么让 csproj 中的内容正确显示出来的呢?更深入的,我能够自己扩展 csproj 的功能吗? ...
【DUBBO】 Dubbo内核实现之动态编译
转载:http://blog.csdn.net/quhongwei_zhanqiu/article/details/41577483 我们运行的java代码,一般都是编译之后的字节码.Dubbo为了实 ...

论XGBOOST科学调参

论XGBOOST科学调参的更多相关文章

随机推荐

热门专题