XGBboost 特征评分的计算原理

　　xgboost是基于GBDT原理进行改进的算法，效率高，并且可以进行并行化运算，而且可以在训练的过程中给出各个特征的评分，从而表明每个特征对模型训练的重要性，

调用的源码就不准备详述，本文主要侧重的是计算的原理，函数get_fscore源码如下，源码来自安装包：xgboost/python-package/xgboost/core.py

　　通过下面的源码可以看出，特征评分可以看成是被用来分离决策树的次数。

def get_fscore(self, fmap=''):

        """Get feature importance of each feature.

        Parameters

        ----------

        fmap: str (optional)

           The name of feature map file

        """

        return self.get_score(fmap, importance_type='weight')

    def get_score(self, fmap='', importance_type='weight'):

        """Get feature importance of each feature.

        Importance type can be defined as:

            'weight' - the number of times a feature is used to split the data across all trees.

            'gain' - the average gain of the feature when it is used in trees

            'cover' - the average coverage of the feature when it is used in trees

        Parameters

        ----------

        fmap: str (optional)

           The name of feature map file

        """

        if importance_type not in ['weight', 'gain', 'cover']:

            msg = "importance_type mismatch, got '{}', expected 'weight', 'gain', or 'cover'"

            raise ValueError(msg.format(importance_type))

        # if it's weight, then omap stores the number of missing values

        if importance_type == 'weight':

            # do a simpler tree dump to save time

            trees = self.get_dump(fmap, with_stats=False)

            fmap = {}

            for tree in trees:

                for line in tree.split('\n'):

                    # look for the opening square bracket

                    arr = line.split('[')

                    # if no opening bracket (leaf node), ignore this line

                    if len(arr) == 1:

                        continue

                    # extract feature name from string between []

                    fid = arr[1].split(']')[0].split('<')[0]

                    if fid not in fmap:

                        # if the feature hasn't been seen yet

                        fmap[fid] = 1

                    else:

                        fmap[fid] += 1

            return fmap

        else:

            trees = self.get_dump(fmap, with_stats=True)

            importance_type += '='

            fmap = {}

            gmap = {}

            for tree in trees:

                for line in tree.split('\n'):

                    # look for the opening square bracket

                    arr = line.split('[')

                    # if no opening bracket (leaf node), ignore this line

                    if len(arr) == 1:

                        continue

                    # look for the closing bracket, extract only info within that bracket

                    fid = arr[1].split(']')

                    # extract gain or cover from string after closing bracket

                    g = float(fid[1].split(importance_type)[1].split(',')[0])

                    # extract feature name from string before closing bracket

                    fid = fid[0].split('<')[0]

                    if fid not in fmap:

                        # if the feature hasn't been seen yet

                        fmap[fid] = 1

                        gmap[fid] = g

                    else:

                        fmap[fid] += 1

                        gmap[fid] += g

            # calculate average value (gain/cover) for each feature

            for fid in gmap:

                gmap[fid] = gmap[fid] / fmap[fid]

            return gmap

XGBboost 特征评分的计算原理的更多相关文章

【原创】xgboost 特征评分的计算原理
xgboost是基于GBDT原理进行改进的算法,效率高,并且可以进行并行化运算: 而且可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性, 调用的源码就不准备详述,本文主要侧重的 ...
Security:蠕虫的行为特征描述和工作原理分析
________________________ 参考: 百度文库---蠕虫的行为特征描述和工作原理分析 http://wenku.baidu.com/link?url=ygP1SaVE4t4-5fi ...
OpenGL中摄像机矩阵的计算原理
熟悉OpenGL|ES的朋友,可能会经常设置摄像机的view矩阵,iOS中相对较好,已经封装了方向,只需要设置摄像机位置,目标点位置以及UP向量即可.下面先介绍下摄像机view矩阵的计算原理.此处假设 ...
005-hive概述，计算原理及模型
计算原理及模型优化的根本思想: 尽早尽量过滤数据,减少每个阶段的数据量减少job数解决数据倾斜问题 Hive概述名称 hive系统架构 metastore derbymysql ...
（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理
最近在使用sklearn做分类时候,用到metrics中的评价函数,其中有一个非常重要的评价函数是F1值,(关于这个值的原理自行google或者百度) 在sklearn中的计算F1的函数为 f1_sc ...
基于IG的特征评分方法
本文简单介绍了熵.信息增益的概念,以及如何使用信息增益对监督学习的训练样本进行评估,评估每个字段的信息量. 1.熵的介绍在信息论里面,熵是对不确定性的测量.通俗来讲,熵就是衡量随机变量随 ...
全基因组关联分析（GWAS）的计算原理
前言关于全基因组关联分析(GWAS)原理的资料,网上有很多. 这也是我写了这么多GWAS的软件教程,却从来没有写过GWAS计算原理的原因. 恰巧之前微博上某位小可爱提问能否写一下GWAS的计算原理. ...
前端移动端的rem适配计算原理
rem是什么? rem(font size of the root element)是指相对于根元素的字体大小的单位.简单的说它就是一个相对单位.看到rem大家一定会想起em单位,em(font si ...
mapreducer计算原理
mapreducer计算原理

随机推荐

goodbye 2018, hello 2019
纵使不愿意,终究还是到了岁末. 2018 即将过去的一年,已经完成的事情自己做得不足.年初计划要做的几件事情都做了,感觉没有尽力去做好. 工作 16年毕业之后到今年,算是真正意义上完成从学生时 ...
如何通过Git将写好的项目发布到github上
1.在GitHub上创建新的项目文件 2.创建之后会进入新的页面,看到如下图的内容,将地址记下来 3.打开Git 4.进入项目本地所在目录 5.输入:git init 这个意思是在当前项目的目录中生成 ...
node的第一步，hello，以及小技巧和CPU使用情况。到底能用几个核心？
安装了啥的就不说了,百度一下有很多. Windows环境.Linux不会,所有就不说了. 1. hello Word node的hello Word很简单,就一行. console.log(&quo ...
anaconda安装第三方库两种方式
①在anaconda命令行安装: ②在pycharm中安装:
php框架之thinkphp
日常开发中经常使用thinkphp5进行开发工作,总结一些使用中遇到的问题和使用的东西 1. web内置服务 V5.1.5+版本开始,增加了启动内置服务器的指令,方便测试 >php think ...
Linux(Ubuntu)使用日记------markdown文档转化为word文档
Linux(Ubuntu)使用日记------markdown文档转化为word文档
java程序高CPU，如何直接定位（linux系统下命令行操作）
1.top命令找出 2.也可以使用 (1)ps -ef|grep java|grep -v grep (2)jps -l|grep 公司名然后,记住PID是9529. 3.定位具体的线程或者代码: ...
解决Ajax请求后台Servlet接口拿不到JSON数据问题
前端Ajax请求代码如下: window.onload=function() { var url='http://127.0.0.1:8080/testpj/ErrorlogServlet'; $.a ...
Flex布局【弹性布局】学习
先让我们看看在原来的学习中遇到的问题之前在软件工程的大作业中,自己从零开始学习如何开发一个网站,从页面,到后台,当然数据库是大二的必修课在学习如何编写一个静态页面的时候,完全是自学,自己摸索,所以 ...
consul 剔除node_exporter的脚本
#!/bin/bash clear echo "node_exporter注销工具" read -p "请输入要踢掉的节点IP,如果有多个IP,请使用英文格式 ',' 隔 ...

XGBboost 特征评分的计算原理

XGBboost 特征评分的计算原理的更多相关文章

随机推荐

热门专题