决策树ID3算法--python实现

参考：

统计学习方法》第五章决策树】 http://pan.baidu.com/s/1hrTscza

决策树（ID3、C4.5、CART、随机森林）对决策树的python实现进行了详细的介绍

 #coding:utf-8

 # ID3算法，建立决策树

 import numpy as np

 import math

 import uniout

 '''

 #创建数据集

 def creatDataSet():

     dataSet = np.array([[1,1,'yes'],

                         [1,1,'yes'],

                         [1,0,'no'],

                         [0,1,'no'],

                         [0,1,'no']])

     features = ['no surfaceing', 'fippers']

     return dataSet, features

 '''

 #创建数据集

 def createDataSet():

     dataSet = np.array([['青年', '否', '否', '否'],

                   ['青年', '否', '否', '否'],

                   ['青年', '是', '否', '是'],

                   ['青年', '是', '是', '是'],

                   ['青年', '否', '否', '否'],

                   ['中年', '否', '否', '否'],

                   ['中年', '否', '否', '否'],

                   ['中年', '是', '是', '是'],

                   ['中年', '否', '是', '是'],

                   ['中年', '否', '是', '是'],

                   ['老年', '否', '是', '是'],

                   ['老年', '否', '是', '是'],

                   ['老年', '是', '否', '是'],

                   ['老年', '是', '否', '是'],

                   ['老年', '否', '否', '否']])

     features = ['年龄', '有工作', '有自己房子']

     return dataSet, features

 #计算数据集的熵

 def calcEntropy(dataSet):

     #先算概率

     labels = list(dataSet[:,-1])

     prob = {}

     entropy = 0.0

     for label in labels:

         prob[label] = (labels.count(label) / float(len(labels)))

     for v in prob.values():

         entropy = entropy + (-v * math.log(v,2))

     return entropy

 #划分数据集

 def splitDataSet(dataSet, i, fc):

     subDataSet = []

     for j in range(len(dataSet)):

         if dataSet[j, i] == str(fc):

             sbs = []

             sbs.append(dataSet[j, :])

             subDataSet.extend(sbs)

     subDataSet = np.array(subDataSet)

     return np.delete(subDataSet,[i],1)

 #计算信息增益，选择最好的特征划分数据集，即返回最佳特征下标

 def chooseBestFeatureToSplit(dataSet):

     labels = list(dataSet[:, -1])

     bestInfoGain = 0.0   #最大的信息增益值

     bestFeature = -1   #*******

     #摘出特征列和label列

     for i in range(dataSet.shape[1]-1):     #列

         #计算列中，各个分类的概率

         prob = {}

         featureCoulmnL = list(dataSet[:,i])

         for fcl in featureCoulmnL:

             prob[fcl] = featureCoulmnL.count(fcl) / float(len(featureCoulmnL))

         #计算列中，各个分类的熵

         new_entrony = {}    #各个分类的熵

         condi_entropy = 0.0   #特征列的条件熵

         featureCoulmn = set(dataSet[:,i])   #特征列

         for fc in featureCoulmn:

             subDataSet = splitDataSet(dataSet, i, fc)

             prob_fc = len(subDataSet) / float(len(dataSet))

             new_entrony[fc] = calcEntropy(subDataSet)   #各个分类的熵

             condi_entropy = condi_entropy + prob[fc] * new_entrony[fc]    #特征列的条件熵

         infoGain = calcEntropy(dataSet) - condi_entropy     #计算信息增益

         if infoGain > bestInfoGain:

             bestInfoGain = infoGain

             bestFeature = i

     return bestFeature

 #若特征集features为空，则T为单节点，并将数据集D中实例树最大的类label作为该节点的类标记，返回T

 def majorityLabelCount(labels):

     labelCount = {}

     for label in labels:

         if label not in labelCount.keys():

             labelCount[label] = 0

         labelCount[label] += 1

     return max(labelCount)

 #建立决策树T

 def createDecisionTree(dataSet, features):

     labels = list(dataSet[:,-1])

     #如果数据集中的所有实例都属于同一类label，则T为单节点树，并将类label作为该结点的类标记，返回T

     if len(set(labels)) == 1:

         return labels[0]

     #若特征集features为空，则T为单节点，并将数据集D中实例树最大的类label作为该节点的类标记，返回T

     if len(dataSet[0]) == 1:

         return majorityLabelCount(labels)

     #否则，按ID3算法就计算特征集中各特征对数据集D的信息增益，选择信息增益最大的特征beatFeature

     bestFeatureI = chooseBestFeatureToSplit(dataSet)  #最佳特征的下标

     bestFeature = features[bestFeatureI]    #最佳特征

     decisionTree = {bestFeature:{}} #构建树，以信息增益最大的特征beatFeature为子节点

     del(features[bestFeatureI])    #该特征已最为子节点使用，则删除，以便接下来继续构建子树

     bestFeatureColumn = set(dataSet[:,bestFeatureI])

     for bfc in bestFeatureColumn:

         subFeatures = features[:]

         decisionTree[bestFeature][bfc] = createDecisionTree(splitDataSet(dataSet, bestFeatureI, bfc), subFeatures)

     return decisionTree

 #对测试数据进行分类

 def classify(testData, features, decisionTree):

     for key in decisionTree:

         index = features.index(key)

         testData_value = testData[index]

         subTree = decisionTree[key][testData_value]

         if type(subTree) == dict:

             result = classify(testData,features,subTree)

             return result

         else:

             return subTree

 if __name__ == '__main__':

     dataSet, features = createDataSet()     #创建数据集

     decisionTree = createDecisionTree(dataSet, features)   #建立决策树

     print 'decisonTree：',decisionTree

     dataSet, features = createDataSet()

     testData = ['老年', '是', '否']

     result = classify(testData, features, decisionTree)  #对测试数据进行分类

     print '是否给',testData,'贷款：',result

决策树ID3算法--python实现的更多相关文章

决策树ID3算法python实现 -- 《机器学习实战》
from math import log import numpy as np import matplotlib.pyplot as plt import operator #计算给定数据集的香农熵 ...
决策树---ID3算法（介绍及Python实现）
决策树---ID3算法决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...
机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树ID3算法[分类算法]
ID3分类算法的编码实现 <?php /* *决策树ID3算法(分类算法的实现) */ /* *求信息增益Grain(S1,S2) */ //-------------------------- ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
【Machine Learning in Action --3】决策树ID3算法
1.简单概念描述决策树的类型有很多,有CART.ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定 ...

随机推荐

工具类 | window批处理杀死指定端口进程
window批处理杀死指定端口进程,注意保存时使用ansi格式,运行输入端口即可 @echo off setlocal enabledelayedexpansion set /p port=请输入端口 ...
JMS学习(五)--ActiveMQ中的消息的持久化和非持久化以及持久订阅者和非持久订阅者之间的区别与联系
一,消息的持久化和非持久化 ①DeliveryMode 这是传输模式.ActiveMQ支持两种传输模式:持久传输和非持久传输(persistent and non-persistent deliver ...
[整理]zepto的初次使用
http://www.css88.com/doc/zeptojs_api/ http://chaoskeh.com/blog/some-experience-of-using-zepto.html
javascript沙箱模式
沙箱模式解决了命名空间模式的如下几个缺点: 1.对单个全局变量的依赖变成了应用程序的全局变量依赖.在命名空间模式中,是没有办法使同一个应用程序或库的2个版本运行在同一个页面中.2.对这种以点分割的名字 ...
20155206 2016-2017-2 《Java程序设计》第6周学习总结
20155206 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结串流设计流(Stream)是对「输入输出」的抽象,注意「输入输出」是相对程序而言的. Ja ...
shiro登录成功之后跳转原路径
通过 WebUtils.getSavedRequest(request) 来获取shiro保存在session登录之前的url 1:java Controller代码 @PostMapping(&qu ...
VIM 配置随手记
刚开始使用VIM, 主要想用它来写python. 目标是颜色比较舒适, 并且能够自动换行自动补全. .vimrc 设置这是类似 .bashrc 的配置文件, vim 的各种配置都可以在里面实现. 一 ...
用于阻止缓冲区溢出攻击的 Linux 内核参数与 gcc 编译选项
先来看看基于 Red Hat 与 Fedora 衍生版(例如 CentOS)系统用于阻止栈溢出攻击的内核参数,主要包含两项: kernel.exec-shield 可执行栈保护,字面含义比较“绕”, ...
JAVA中Collection接口和Map接口的主要实现类
Collection接口 Collection是最基本的集合接口,一个Collection代表一组Object,即Collection的元素(Elements).一些Collection允许相同的元素 ...
【逆向工具】IDA Python安装与使用
1.IDA Pyhon介绍 IDA Python是IDA6.8后自带插件,可以使用Python做很多的辅助操作,非常方便的感觉. 2.IDA Python安装从github上IDAPython项目获 ...

决策树ID3算法--python实现

决策树ID3算法--python实现的更多相关文章

随机推荐

热门专题