python 之决策树分类算法

发现帮助新手入门机器学习的一篇好文，首先感谢博主！：用Python开始机器学习（2：决策树分类算法）

J. Ross Quinlan在1975提出将信息熵的概念引入决策树的构建，这就是鼎鼎大名的ID3算法。后续的C4.5, C5.0, CART等都是该方法的改进。

熵就是“无序，混乱”的程度。刚接触这个概念可能会有些迷惑。想快速了解如何用信息熵增益划分属性，可以参考这位兄弟的文章：http://blog.csdn.net/alvine008/article/details/37760639

数据集中信息熵的计算：

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n）

以博主例子为例，直接上代码：

1. 数据集：

 more fat.txt

1.5  thin

1.5  fat

1.6  thin

1.6  fat

1.7  thin

1.7  fat

1.8  thin

1.8  fat

1.9  thin

1.9  fat

2. 读入数据集

#!/usr/bin/env python

# coding=utf-

import numpy as np

from sklearn import tree

from sklearn.metrics import precision_recall_curve

from sklearn.metrics import classification_report

from sklearn.cross_validation import train_test_split

def loadDataSet():

    data =[]

    label= []

    with open('./data/fat.txt') as file:

        for line in file:

            tokens = line.strip().split(' ')

            data.append([float(tk) for tk in tokens[:-]])

            label.append(tokens[-])

    x = np.array(data)

    label = np.array(label)

    y = np.zeros(label.shape)

    y[label=='fat']=

    return x,y

3. 使用sklearn 中的现成库进行分类，简单而优雅

def decisionTreeClf():

    x,y = loadDataSet()

    # 拆分数据集和训练集

    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2)

    # 使用信息熵作为划分标准

    clf = tree.DecisionTreeClassifier(criterion='entropy')

    print(clf)

    clf.fit(x_train,y_train)

    # 将决策树写入文件

    with open("tree.dot","w") as f:

        f = tree.export_graphviz(clf,out_file=f)

    # 打印特征在分类起到的作用性

    print(clf.feature_importances_)

    # 打印测试结果

    answer = clf.predict(x_train)

    print(x_train)

    print(answer)

    print(y_train)

    print(np.mean(answer==y_train))

    # 准确率与召回率

    precision,recall,thresholds = precision_recall_curve(y_train,clf.predict(x_train)

)

    answer = clf.predict_proba(x)[:,]

    print(classification_report(y,answer,target_names=['thin','fat']))

结果显示：

>>> bayesDt.decisionTreeClf()

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,

            max_features=None, max_leaf_nodes=None, min_samples_leaf=,

            min_samples_split=, min_weight_fraction_leaf=0.0,

            random_state=None, splitter='best')

[ 0.2488562  0.7511438]

[[  1.9  . ]

 [  1.5  . ]

 [  1.5  . ]

 [  1.7  . ]

 [  1.9  . ]

 [  1.6  . ]

 [  1.8  . ]

 [  1.8  . ]]

[ .  .  .  .  .  .  .  .]

[ .  .  .  .  .  .  .  .]

1.0

             precision    recall  f1-score   support

       thin       0.83      1.00      0.91

        fat       1.00      0.80      0.89         

avg / total       0.92      0.90      0.90        

>>>

这里有3点需要说明，这在以后的机器学习中都会用到。

1、拆分训练数据与测试数据。

这样做是为了方便做交叉检验。交叉检验是为了充分测试分类器的稳定性。代码中的0.2表示随机取20%的数据作为测试用。其余80%用于训练决策树。

也就是说10个样本中随机取8个训练。本文数据集小，多运行几次，可以看到由于取的训练数据随机，每次构建的决策树都不一样。

2、特征的不同影响因子。

样本的不同特征对分类的影响权重差异会很大。分类结束后看看每个样本对分类的影响度也是很重要的。

在本例中，身高的权重为0.25，体重为0.75，可以看到重量的重要性远远高于身高。对于胖瘦的判定而言，这也是相当符合逻辑的。

3、准确率与召回率。

这2个值是评判分类准确率的一个重要标准。比如代码的最后将所有10个样本输入分类器进行测试的结果：

测试结果：array([ 0., 1., 0., 1., 0., 1., 0., 1., 0., 0.])
真实结果：array([ 0., 1., 0., 1., 0., 1., 0., 1., 0., 1.])

分为thin的准确率为0.83。是因为分类器分出了6个thin，其中正确的有5个，因此分为thin的准确率为5/6=0.83。

分为thin的召回率为1.00。是因为数据集中共有5个thin，而分类器把他们都分对了（虽然把一个fat分成了thin！），召回率5/5=1。

分为fat的准确率为1.00，召回率为0.80。是因为数据集中共有5个fat，而分类器只分出了4个（把一个fat分成了thin！），召回率4/5=0.80。

很多时候，尤其是数据分类难度较大的情况，准确率与召回率往往是矛盾的。你可能需要根据你的需要找到最佳的一个平衡点。

比如本例中，你的目标是尽可能保证找出来的胖子是真胖子（准确率），还是保证尽可能找到更多的胖子（召回率）。

python 之决策树分类算法的更多相关文章

用Python开始机器学习（2：决策树分类算法）
http://blog.csdn.net/lsldd/article/details/41223147 从这一章开始进入正式的算法学习. 首先我们学习经典而有效的分类算法:决策树分类算法. 1.决策树 ...
决策树分类算法及python代码实现案例
决策树分类算法 1.概述决策树(decision tree)——是一种被广泛使用的分类算法. 相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置在实际应用中,对于探测式的知识发现 ...
spark 决策树分类算法demo
分类(Classification) 下面的例子说明了怎样导入LIBSVM 数据文件,解析成RDD[LabeledPoint],然后使用决策树进行分类.GINI不纯度作为不纯度衡量标准并且树的最大深度 ...
Python实现决策树ID3算法
主要思想: 0.训练集格式:特征1,特征2,...特征n,类别 1.采用Python自带的数据结构字典递归的表示数据 2.ID3计算的信息增益是指类别的信息增益,因此每次都是计算类别的熵 3.ID3每 ...
DNS通道检测国内学术界研究情况——研究方法：基于特征或者流量，使用机器学习决策树分类算法居多
http://xuewen.cnki.net/DownloadArticle.aspx?filename=BMKJ201104017&dbtype=CJFD<浅析基于DNS协议的隐蔽通道 ...
day-7 一个简单的决策树归纳算法（ID3）python编程实现
本文介绍如何利用决策树/判定树(decision tree)中决策树归纳算法(ID3)解决机器学习中的回归问题.文中介绍基于有监督的学习方式,如何利用年龄.收入.身份.收入.信用等级等特征值来判定用户 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
R语言学习笔记—决策树分类
一.简介决策树分类算法(decision tree)通过树状结构对具有某特征属性的样本进行分类.其典型算法包括ID3算法.C4.5算法.C5.0算法.CART算法等.每一个决策树包括根节点(root ...
数据挖掘领域经典分类算法 —— C4.5算法（附python实现代码）
目录理论介绍什么是分类分类的步骤什么是决策树决策树归纳信息增益相关理论基础计算公式 ID3 C4.5 python实现参考资料理论介绍什么是分类分类属于机器学习中监督学习的一种 ...

随机推荐

IIS7 经典模式和集成模式的区别
IIS7.0中的Web应用程序有两种配置形式:经典形式和集成形式. 经典形式是为了与之前的版本兼容,运用ISAPI扩展来调用ASP.NET运转库,原先运转于IIS6.0下的Web应用程序迁移到IIS7 ...
ubuntu下的烧录工具
Flash Image Tool1.0 为了ubuntu下能够方便地烧录版本,我开发了Flash Image Tool.现在服务器(192.167.100.225)上有一份它的拷贝share/Tool ...
Python bool值
a = 10 print(type(a)) #<class 'int'> d = str(a) #把数字转换成str print(type(d)) #<class 'str'> ...
jquery日期和时间的插件精确到秒
首先.html5提供了input的time类型,使我们可以通过input框输入日期,但是如果我们的需求是这个时间需要明确到几时几分几秒的,那html5就没有办法满足我们的需求了,就需要使用jQuery ...
Flume-NG源码阅读之SpoolDirectorySource(原创)
org.apache.flume.source.SpoolDirectorySource是flume的一个常用的source,这个源支持从磁盘中某文件夹获取文件数据.不同于其他异步源,这个源能够避免重 ...
安装wordcloud第三方库Unable to find vcvarsall.bat
前言本来想要使用python爬一些数据的,制作词云,感觉挺好玩的,不过python安装第三方库的时候遇到了一些问题,有的问题比较好解决,有的就找了好久才知道怎么解决的,故记录下来. 环境系统:wi ...
响应式有利于SEO还是pc+手机端分开url有利于SEO？
一早上都在查这个问题,大家都来讨论一下. 首先,可以肯定的是,如果公司推广重在谷歌,要做响应式.但是对于百度推广呢??虽然响应式是趋势,但是目前而言,对于百度怎样好呢
hdu2085-2086
hdu2085 模拟 #include<stdio.h> ][]; void fun(){ a[][]=; a[][]=; ;i<=;i++){ a[i][]=*a[i-][]+*a ...
jquey学习2之jquery动态添加页面片段
第一个方法:append()方法 [1]$(selector).append(content)//向匹配的所有标签中的内容末尾处添加Html代码,会编译成页面显示. <html> < ...
使用webpack搭建vue项目中遇到的问题
1:data数据文件经试验,需要放在生成的build文件夹中才能生效,但是应该把data文件夹先放在src中,然后如何定义config文件,让其复制过去? new CopyWebpackPlugin( ...

python 之 决策树分类算法

python 之 决策树分类算法的更多相关文章

随机推荐

热门专题

python 之决策树分类算法

python 之决策树分类算法的更多相关文章