Python实现ID3算法

　　自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具:

　　先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f46527d3e14f.html

　　自己写的ID3算法

 from __future__ import division

 import math

 table = {'age': {'young', 'middle', 'old'}, 'income': {'high', 'middle', 'low'},

          'student': {'yes', 'no'}, 'credit': {'good', 'superior'}, 'buy computer': {'yes', 'no'}}

 attrIndex = {'age': 0, 'income': 1, 'student': 2, 'credit': 3, 'buy computer': 4}

 attrList = ['age', 'income', 'student', 'credit']

 allDataSet = [

     ['young', 'high', 'no', 'good', 'no'], ['young', 'high', 'no', 'superior', 'no'],

     ['middle', 'high', 'no', 'superior', 'yes'], ['old', 'middle', 'no', 'good', 'yes'],

     ['young', 'middle', 'no', 'good', 'no'], ['young', 'low', 'yes', 'good', 'yes'],

     ['middle', 'high', 'yes', 'good', 'yes'], ['old', 'middle', 'no', 'superior', 'no'],

     ['young', 'high', 'yes', 'good', 'yes'], ['middle', 'middle', 'no', 'good', 'no']

 ]

 #求熵

 def entropy(attr, dataSet):

     valueCount = {v: {'yes': 0, 'no': 0, 'count': 0} for v in table[attr]}

     for row in dataSet:

         vName = row[attrIndex[attr]]

         decAttrVal = row[attrIndex['buy computer']] # 'yes' or 'no'

         valueCount[vName]['count'] = valueCount[vName]['count'] + 1

         valueCount[vName][decAttrVal] = valueCount[vName][decAttrVal] + 1

     infoMap = {v: 0 for v in table[attr]}

     for v in valueCount:

         if valueCount[v]['count'] == 0:

             infoMap[v] = 0

         else:

             p1 = valueCount[v]['yes'] / valueCount[v]['count']

             p2 = valueCount[v]['no'] / valueCount[v]['count']

             infoMap[v] = - ((0 if p1 == 0 else p1 * math.log(p1, 2)) + (0 if p2 == 0 else p2 * math.log(p2, 2)))

     s = 0

     for v in valueCount:

         s = s + valueCount[v]['count']

     propMap = {v: (valueCount[v]['count'] / s) for v in valueCount}

     i = 0

     for v in valueCount:

         i = i + infoMap[v] * propMap[v]

     return i

 #定义节点的数据结构

 class Node(object):

     def __init__(self, attrName):

         if attrName != '':

             self.attr = attrName

             self.childNodes = {v:Node('') for v in table[attrName]}

 #数据筛选

 def filtrate(dataSet, condition):

     result = []

     for row in dataSet:

         if row[attrIndex[condition['attr']]] == condition['val']:

             result.append(row)

     return result

 #求最大信息熵

 def maxEntropy(dataSet, attrList):

     if len(attrList) == 1:

         return attrList[0]

     else:

         attr = attrList[0]

         maxE = entropy(attr, dataSet)

         for a in attrList:

             if maxE < entropy(a, dataSet):

                 attr = a

         return attr

 #判断构建是否结束,当所有的决策属性都相等的时候,就不用在构建决策树了

 def endBuild(dataSet):

     if len(dataSet) == 1:

         return True

     buy = dataSet[0][attrIndex['buy computer']]

     for row in dataSet:

         if buy != row[attrIndex['buy computer']]:

             return False

 #构建决策树

 def buildDecisionTree(dataSet, root, attrList):

     if len(attrList) == 0 or endBuild(dataSet):

         root.attr = 'buy computer'

         root.result = dataSet[0][attrIndex['buy computer']]

         root.childNodes = {}

         return

     attr = root.attr

     for v in root.childNodes:

         childDataSet = filtrate(dataSet, {"attr":attr, "val":v})

         if len(childDataSet) == 0:

             root.childNodes[v] = Node('buy computer')

             root.childNodes[v].result = 'no'

             root.childNodes[v].childNodes = {}

             continue

         else:

             childAttrList = [a for a in attrList]

             childAttrList.remove(attr)

             if len(childAttrList) == 0:

                 root.childNodes[v] = Node('buy computer')

                 root.childNodes[v].result = childDataSet[0][attrIndex['buy computer']]

                 root.childNodes[v].childNodes = {}

             else:

                 childAttr = maxEntropy(childDataSet, childAttrList)

                 root.childNodes[v] = Node(childAttr)

                 buildDecisionTree(childDataSet, root.childNodes[v], childAttrList)

 #预测结果

 def predict(root, row):

     if root.attr == 'buy computer':

         return root.result

     root = root.childNodes[row[attrIndex[root.attr]]]

     return predict(root, row)

 rootAttr = maxEntropy(allDataSet, attrList)

 rootNode = Node(rootAttr)

 print rootNode.attr

 buildDecisionTree(allDataSet, rootNode, attrList)

 print predict(rootNode, ['old', 'low', 'yes', 'good'])

欢迎大家提出建议

Python实现ID3算法的更多相关文章

机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
决策树之ID3算法实现(python)
决策树的概念其实不难理解,下面一张图是某女生相亲时用到的决策树: 基本上可以理解为:一堆数据,附带若干属性,每一条记录最后都有一个分类(见或者不见),然后根据每种属性可以进行划分(比如年龄是>3 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
决策树---ID3算法（介绍及Python实现）
决策树---ID3算法决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...
机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
ID3算法决策树的生成（2）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...

随机推荐

TCP内核源码分析笔记
Table of Contents 1 术语 1.1 ABC 1.2 SACK 1.3 D-SACK 1.4 FACK 1.5 F-RTO 1.6 nagle算法 1.7 cork算法 1.8 tem ...
raw_input() 与 input()的区别
raw_input和input两个均是 python 的内建函数,通过读取控制台的输入与用户实现交互.但他们的功能不尽相同.下面举两个例子,来说明两者 raw_input和input两个均是 pyth ...
输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)
群里看到这道题,用python做了做, def find(array): v_sum = greatest = 0 for a in array: v_sum += a v_sum = 0 if v_ ...
TF卡格式化8G格式化时候变成128KB的解决办法
我的8GC6卡,APPS2SD后,因为不满意分区容量,所以就想删除分区重新分配容量. 删除分区方法:我的电脑---管理---磁盘管理--里删除了EXT3分区, 结果导致TF卡变成FAT格式且没有容量. ...
开始我的 JNI 入门吧
JNI (java native interface) java本地开发接口(一句话 : 就是1个 adapter). JNI 是一个协议 - 是用来让 java代码和C,C++ 代码 ...
动态规划 is beginning。。。。。。。。。
感觉动态规划非常模糊,怎么办呢??? 狂刷题吧!! !! ! !!! ! !!! !! ! ! ! .!! ..!.! PKU PPt 动规解题的一般思路 1. 将原问题分解为子问题 ...
win7 32/64bit VS2010 OpenCV 2.4.9 环境配置
作者 : 卿笃军因为近期人脸识别须要用到OpenCV,让我開始了OpenCV学习. OpenCV 2.4.9下载地址:http://sourceforge.net/projects/opencvli ...
java 数据库两种连接方法
package jdbc; import java.sql.*; public class ConnectionDemo2 { public static final String DBDRIVER= ...
Linux后台开发面试问题汇总
个人从事安全后台开发,当然是linux环境下的了.举几个常见的问题.1. 数据结构基础.比如实现一个最简单的哈希表.2. 操作系统基础.linux进程模型,堆/栈的区别,大概的位置,各往哪个方向生长, ...
C#中的转义字符
一些常用的转义字符: \n 换行 \b backspace,删除光标前面的一个字符 \t tab键由多个空格组成的一个字符,具有行与行之间的对齐功能 \\ \ 如果在字符串前面加@的话: 1 ...

Python实现ID3算法

Python实现ID3算法的更多相关文章

随机推荐

热门专题