1. ID3 算法

ID3 算法是一种典型的决策树（decision tree）算法，C4.5, CART都是在其基础上发展而来。决策树的叶子节点表示类标号，非叶子节点作为属性测试条件。从树的根节点开始，将测试条件用于检验记录，根据测试结果选择恰当的分支；直至到达叶子节点，叶子节点的类标号即为该记录的类别。

ID3采用信息增益（information gain）作为分裂属性的度量，最佳分裂等价于求解最大的信息增益。

信息增益=parent节点熵 - 带权的子女节点的熵

ID3算法流程如下：

1.如果节点的所有类标号相同，停止分裂；

2.如果没有feature可供分裂，根据多数表决确定该节点的类标号，并停止分裂；

3.选择最佳分裂的feature，根据选择feature的值逐一进行分裂；递归地构造决策树。

源代码（从[1]中拿过来）：

from math import log

import operator

import matplotlib.pyplot as plt  

def calcEntropy(dataSet):

    """calculate the shannon entropy"""

    numEntries=len(dataSet)

    labelCounts={}

    for entry in dataSet:

        entry_label=entry[-1]

        if entry_label not in labelCounts:

            labelCounts[entry_label]=0

        labelCounts[entry_label]+=1  

    entropy=0.0

    for key in labelCounts:

        prob=float(labelCounts[key])/numEntries

        entropy-=prob*log(prob,2)  

    return entropy  

def createDataSet():

    dataSet = [[1, 1, 'yes'],

            [1, 1, 'yes'],

            [1, 0, 'no'],

            [0, 1, 'no'],

            [0, 1, 'no']]

    labels = ['no surfacing','flippers']

    return dataSet, labels  

def splitDataSet(dataSet,axis,pivot):

    """split dataset on feature"""

    retDataSet=[]

    for entry in dataSet:

        if entry[axis]==pivot:

            reduced_entry=entry[:axis]

            reduced_entry.extend(entry[axis+1:])

            retDataSet.append(reduced_entry)

    return retDataSet  

def bestFeatureToSplit(dataSet):

    """chooose the best feature to split """

    numFeatures=len(dataSet[0])-1

    baseEntropy=calcEntropy(dataSet)

    bestInfoGain=0.0; bestFeature=-1

    for axis in range(numFeatures):

        #create unique list of class labels

        featureList=[entry[axis] for entry in dataSet]

        uniqueFeaList=set(featureList)

        newEntropy=0.0

        for value in uniqueFeaList:

            subDataSet=splitDataSet(dataSet,axis,value)

            prob=float(len(subDataSet))/len(dataSet)

            newEntropy+=prob*calcEntropy(subDataSet)

        infoGain=baseEntropy-newEntropy

        #find the best infomation gain

        if infoGain>bestInfoGain:

            bestInfoGain=infoGain

            bestFeature=axis

    return bestFeature  

def majorityVote(classList):

    """take a majority vote"""

    classCount={}

    for vote in classList:

        if vote not in classCount.keys():

            classCount[vote]=0

        classCount+=1

    sortedClassCount=sorted(classCount.iteritems(),

            key=operator.itemgetter(1),reverse=True)

    return sortedClassCount[0][0]  

def createTree(dataSet,labels):

    classList=[entry[-1] for entry in dataSet]

    #stop when all classes are equal

    if classList.count(classList[0])==len(classList):

        return classList[0]

    #when no more features, return majority vote

    if len(dataSet[0])==1:

        return majorityVote(classList)  

    bestFeature=bestFeatureToSplit(dataSet)

    bestFeatLabel=labels[bestFeature]

    myTree={bestFeatLabel:{}}

    del(labels[bestFeature])

    subLabels=labels[:]

    featureList=[entry[bestFeature] for entry in dataSet]

    uniqueFeaList=set(featureList)

    #split dataset according to the values of the best feature

    for value in uniqueFeaList:

        subDataSet=splitDataSet(dataSet,bestFeature,value)

        myTree[bestFeatLabel][value]=createTree(subDataSet,subLabels)

    return myTree

分类结果可视化

2. Referrence

[1] Peter Harrington, machine learning in action.

【数据挖掘】分类之decision tree（转载）的更多相关文章

CART分类与回归树与GBDT(Gradient Boost Decision Tree)
一.CART分类与回归树资料转载: http://dataunion.org/5771.html Classification And Regression Tree(CART)是决策 ...
机器学习算法实践：决策树 (Decision Tree)（转载）
前言最近打算系统学习下机器学习的基础算法,避免眼高手低,决定把常用的机器学习基础算法都实现一遍以便加深印象.本文为这系列博客的第一篇,关于决策树(Decision Tree)的算法实现,文中我将对决 ...
数据挖掘决策树 Decision tree
数据挖掘-决策树 Decision tree 目录数据挖掘-决策树 Decision tree 1. 决策树概述 1.1 决策树介绍 1.1.1 决策树定义 1.1.2 本质 1.1.3 决策树的组 ...
用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...
（ZT）算法杂货铺——分类算法之决策树(Decision tree)
https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 3.1.摘要在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分 ...
Spark2 ML包之决策树分类Decision tree classifier详细解说
所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 import org.apache.spark.sql.SparkSess ...
【分类算法】决策树（Decision Tree）
(注:本篇博文是对<统计学习方法>中决策树一章的归纳总结,下列的一些文字和图例均引自此书~) 决策树(decision tree)属于分类/回归方法.其具有可读性.可解释性.分类速度快等优 ...
【机器学习实战】第3章决策树（Decision Tree）
第3章决策树 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/ ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...

随机推荐

背包【p1858】多人背包(次优解 or 第k优解)
题目描述--->p1858 多人背包分析: 很明显,这题是背包问题的一种变形. 求解次优解or第k优解. 表示刚开始有点懵,看题解也看不太懂. 又中途去补看了一下背包九讲然后感觉有些理解, ...
JAVA基础加强（张孝祥）_类加载器、分析代理类的作用与原理及AOP概念、分析JVM动态生成的类、实现类似Spring的可配置的AOP框架
1.类加载器 ·简要介绍什么是类加载器,和类加载器的作用 ·Java虚拟机中可以安装多个类加载器,系统默认三个主要类加载器,每个类负责加载特定位置的类:BootStrap,ExtClassLoader ...
luogu P3834 【模板】可持久化线段树 1（主席树）
题解真的是越写越懒 // luogu-judger-enable-o2 #include<cstdio> #include<algorithm> using std::sort ...
nginx配置及常见问题
问题 1.openresty请求时,不能解析域名? openresty依赖配置里面的resolver 192.168.1.1; 2.文件上传是报错413 Request Entity Too Larg ...
解决android客户端使用soap与服务器通讯错误415
在编写一个android client与服务器使用soap通讯,虽然能连上但不是正常的200代码,而是415,经查询是"HTTP 415 错误 – 不支持的媒体类型(Unsupported ...
Sql性能检测工具：Sql server profiler和优化工具：Database Engine Tuning Advisor
原文:Sql性能检测工具:Sql server profiler和优化工具:Database Engine Tuning Advisor 一.工具概要数据库应用系统性能低下,需要对其进行优化 ...
教育 z
奥巴马母亲留给儿子的遗产,不是谎言,而是让反对派不敢戮辨的——伟大的人格及优秀! 相比于奥巴马的母亲,中国式父母,更愿意走省心的路子.给孩子最催肥的食物,最昂贵的衣物,最庸懒的生活环境,不让孩子做任何 ...
C++ 获取URL图片、html文件，CInternetSession 【转】
http://blog.csdn.net/gnixuyil/article/details/7688439 获取网络图片 CString URL="http://www.google.com ...
crossapp的屏幕适配
1.分辨率是的某个尺寸大小的屏幕里的像素点数ppi 2.crossapp茶用iphone4为基准比例值为1 3.其它分辨率设备的换算dp = px * 320/ 屏幕PPI 4.crossapp里点. ...
javascript event loop
原文: https://blog.csdn.net/sjn0503/article/details/76087631 简单来讲,整体的js代码这个macrotask先执行,同步代码执行完后有micro ...

【数据挖掘】分类之decision tree（转载）

1. ID3 算法

2. Referrence

【数据挖掘】分类之decision tree（转载）的更多相关文章

随机推荐

热门专题