决策树purity/基尼系数/信息增益 Decision Trees

决策树简单描述
衡量purity的三种方法
- Gini Coefficient
- Entropy熵

决策树简单描述

决策树的样子大概是这个样子的：

选择一个特征作为根节点，把这个特征划分成两个孩子节点，每个孩子节点就是原始数据集的子集，然后再找一个特征作为划分……

划分的好坏，如图所示：

用纯度Purity来衡量划分的效果，如果划分的好，那么每一个子集都是某一类占据大多数，如果每一个子集都是跟父节点一样的状态，那么就是Low purity。

一个好的划分要满足下面两个特点：

划分是High purity
划分产生的两个子节点的样本数量相近，避免产生非常小的子集。

决策树的终止条件：

树的深度到达一定条件；
每一个节点中的样本数量到达一个下线
不会再有划分，可以增加节点的purity了

衡量purity的三种方法

有不同的衡量purity的方法，不同的衡量方法会导致不同的分裂。

Gini Coefficient

Pr(k)是一个样本属于类别K的概率；
C就是类别的总数

GINI系数的计算方法：

Entropy熵

可以看出来，GINI系数是类别的概率乘上类别的概率，而熵是类别的概率呈上类别概率的logarithm

GINI的取值范围是0.5~1，越大越purity；
Entropy的取值范围是0~1，越小越purity

介绍完了熵，那么什么是信息增益：

是要最大化的信息增益：

因为Entropy取值范围是0就purity，所以information gain越大，那么说明分割的purity越好。

看一下Entropy的计算方法：

决策树purity/基尼系数/信息增益 Decision Trees的更多相关文章

海量数据挖掘MMDS week6: 决策树Decision Trees
http://blog.csdn.net/pipisorry/article/details/49445465 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
Decision Trees 决策树
Decision Trees (DT)是用于分类和回归的非参数监督学习方法. 目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值. 例如,在下面的例子中,决策树从数据中学习用 ...
Facebook Gradient boosting 梯度提升 separate the positive and negative labeled points using a single line 梯度提升决策树 Gradient Boosted Decision Trees (GBDT)
https://www.quora.com/Why-do-people-use-gradient-boosted-decision-trees-to-do-feature-transform Why ...
CatBoost使用GPU实现决策树的快速梯度提升CatBoost Enables Fast Gradient Boosting on Decision Trees Using GPUs
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&ut ...
Logistic Regression vs Decision Trees vs SVM: Part II
This is the 2nd part of the series. Read the first part here: Logistic Regression Vs Decision Trees ...
Logistic Regression Vs Decision Trees Vs SVM: Part I
Classification is one of the major problems that we solve while working on standard business problem ...
Machine Learning Methods: Decision trees and forests
Machine Learning Methods: Decision trees and forests This post contains our crib notes on the basics ...
壁虎书6 Decision Trees
Decision Trees are versatile Machine Learning algorithms that can perform both classification and re ...
机器学习算法 --- Pruning (decision trees) & Random Forest Algorithm
一.Table for Content 在之前的文章中我们介绍了Decision Trees Agorithms,然而这个学习算法有一个很大的弊端,就是很容易出现Overfitting,为了解决此问题 ...

随机推荐

【JAVA基础】10 Object类
1. Object类概述是类层次结构的根类每个类都使用 Object 作为超类所有类都直接或者间接的继承自该类所有对象(包括数组)都实现这个类的方法. 2. Object的构造方法 publi ...
CHIL-SQL-DELETE 语句
DELETE 语句 DELETE 语句用于删除表中的行. 语法 DELETE FROM 表名称 WHERE 列名称 = 值 Person: LastName FirstName Address Cit ...
关于IE8上传文件的一些问题
问题1: IE8下上传完文件后,对后台返回的JSON格式的数据,浏览器提示了下载该文件. 原因是因为IE8还不支持'application/json"类型的响应. 解决方法将后台返回的JSO ...
Python开源框架总结
Django: Python Web应用开发框架 Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响.Django是走大而全的方向,它最出名的是其全自动化的管理后台: ...
inotifywait实现文件监控
应用场景文件监控可以配合rsync实现文件自动同步,例如监听某个目录,当文件变化时,使用rsync命令将变化的文件同步.(可用于代码自动发布) 安装noitify下载地址:http://github. ...
图论--二分图最佳完美匹配（KM模板）
#include <iostream> #include <cstring> #include <cstdio> using namespace std; cons ...
tarjan 算法应用
主要讲证明,流程倒是也有然后发现自己并不会严谨证明其实后面一些部分流程还是挺详细本来这篇blog叫做"图论部分算法证明",然后发现OI中的图论想完全用数学上的方法证明完全超出 ...
python安装pycrypto库
使用pycharm时安装pycrypto库,一直安装不上,提示安装成功,退出去一看,依旧没有最后选择了pip安装,但一直报错(Microsoft Visual C++ 9.0 is required ...
Nacos下动态路由配置
前言 Nacos最近项目一直在使用,其简单灵活,支持更细粒度的命令空间,分组等为麻烦复杂的环境切换提供了方便:同时也很好支持动态路由的配置,只需要简单的几步即可.在国产的注册中心.配置中心中比较突出, ...
【Kafka】监控及运维——kafka-eagle
目录简单介绍概述安装部署一.环境要求二.下载源码包并解压三.准备数据库四.修改配置文件五.配置环境变量六.启动kafka-eagle 七.成功运行简单介绍概述 Kafka-eag ...