决策树之ID3算法实现(python)

决策树的概念其实不难理解，下面一张图是某女生相亲时用到的决策树：

基本上可以理解为：一堆数据，附带若干属性，每一条记录最后都有一个分类（见或者不见），然后根据每种属性可以进行划分（比如年龄是>30还是<=30）,这样构造出来的一棵树就是我们所谓的决策树了，决策的规则都在节点上，通俗易懂，分类效果好。

那为什么跟节点要用年龄，而不是长相？这里我们在实现决策树的时候采用的是ID3算法，在选择哪个属性作为节点的时候采用信息论原理，所谓的信息增益。信息增益指原有数据集的熵-按某个属性分类后数据集的熵。信息增益越大越好（说明按某个属性分类后比较纯），我们会选择使得信息增益最大的那个属性作为当层节点的标记，再进行递归构造决策树。

首先我们构造数据集：

def createDataSet():

	dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]

	features = ['no surfacing','flippers']

	return dataSet,features

构造决策树：（采用python字典来递归构造，一些代码看看就能看懂）

def treeGrowth(dataSet,features):

	classList = [example[-1] for example in dataSet]

	if classList.count(classList[0])==len(classList):

		return classList[0]

	if len(dataSet[0])==1:# no more features

		return classify(classList)

	bestFeat = findBestSplit(dataSet)#bestFeat is the index of best feature

	bestFeatLabel = features[bestFeat]

	myTree = {bestFeatLabel:{}}

	featValues = [example[bestFeat] for example in dataSet]

	uniqueFeatValues = set(featValues)

	del (features[bestFeat])

	for values in uniqueFeatValues:

		subDataSet = splitDataSet(dataSet,bestFeat,values)

		myTree[bestFeatLabel][values] = treeGrowth(subDataSet,features)

	return myTree

当没有多余的feature，但是剩下的样本不完全是一样的类别是，采用出现次数多的那个类别：

def classify(classList):

	'''

	find the most in the set

	'''

	classCount = {}

	for vote in classList:

		if vote not in classCount.keys():

			classCount[vote] = 0

		classCount[vote] += 1

	sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)

	return sortedClassCount[0][0]

寻找用于分裂的最佳属性：（遍历所有属性，算信息增益）

def findBestSplit(dataset):

	numFeatures = len(dataset[0])-1

	baseEntropy = calcShannonEnt(dataset)

	bestInfoGain = 0.0

	bestFeat = -1

	for i in range(numFeatures):

		featValues = [example[i] for example in dataset]

		uniqueFeatValues = set(featValues)

		newEntropy = 0.0

		for val in uniqueFeatValues:

			subDataSet = splitDataSet(dataset,i,val)

			prob = len(subDataSet)/float(len(dataset))

			newEntropy += prob*calcShannonEnt(subDataSet)

		if(baseEntropy - newEntropy)>bestInfoGain:

			bestInfoGain = baseEntropy - newEntropy

			bestFeat = i

	return bestFeat

选择完分裂属性后，就行数据集的分裂：

def splitDataSet(dataset,feat,values):

	retDataSet = []

	for featVec in dataset:

		if featVec[feat] == values:

			reducedFeatVec = featVec[:feat]

			reducedFeatVec.extend(featVec[feat+1:])

			retDataSet.append(reducedFeatVec)

	return retDataSet

计算数据集的熵：

def calcShannonEnt(dataset):

	numEntries = len(dataset)

	labelCounts = {}

	for featVec in dataset:

		currentLabel = featVec[-1]

		if currentLabel not in labelCounts.keys():

			labelCounts[currentLabel] = 0

		labelCounts[currentLabel] += 1

	shannonEnt = 0.0

	for key in labelCounts:

		prob = float(labelCounts[key])/numEntries

		if prob != 0:

			shannonEnt -= prob*log(prob,2)

	return shannonEnt

下面根据上面构造的决策树进行数据的分类：

def predict(tree,newObject):

	while isinstance(tree,dict):

		key = tree.keys()[0]

		tree = tree[key][newObject[key]]

	return tree

if __name__ == '__main__':

	dataset,features = createDataSet()

	tree = treeGrowth(dataset,features)

	print tree

	print predict(tree,{'no surfacing':1,'flippers':1})

	print predict(tree,{'no surfacing':1,'flippers':0})

	print predict(tree,{'no surfacing':0,'flippers':1})

	print predict(tree,{'no surfacing':0,'flippers':0})

结果如下：

决策树是这样的：

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

四个预测：

yes
no
no
no

和给定的数据集分类一样（预测的数据是从给定数据集里面抽取的，当然一般数据多的话，会拿一部分做训练数据，剩余的做测试数据）

归纳一下ID3的优缺点：

优点：实现比较简单，产生的规则如果用图表示出来的话，清晰易懂，分类效果好

缺点：只能处理属性值离散的情况（连续的用C4.5），在选择最佳分离属性的时候容易选择那些属性值多的一些属性。

决策树之ID3算法实现(python)的更多相关文章

机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
【Machine Learning】决策树之ID3算法（2）
决策树之ID3算法 Content 1.ID3概念 2.信息熵 3.信息增益 Information Gain 4. ID3 bias 5. Python算法实现(待定) 一.ID3概念 ID3算法最 ...
决策树之ID3算法
一.决策树之ID3算法简述 1976年-1986年,J.R.Quinlan给出ID3算法原型并进行了总结,确定了决策树学习的理论.这可以看做是决策树算法的起点.1993,Quinlan将ID3算法改进 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
鹅厂优文 | 决策树及ID3算法学习
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~. 作者:袁明凯|腾讯IEG测试开发工程师决策树的基础概念决策树是一种用树形结构来辅助行为研究.决策分析以及机器学习的方式,是机器学习中的 ...
【Machine Learning·机器学习】决策树之ID3算法(Iterative Dichotomiser 3)
目录 1.什么是决策树 2.如何构造一棵决策树? 2.1.基本方法 2.2.评价标准是什么/如何量化评价一个特征的好坏? 2.3.信息熵.信息增益的计算 2.4.决策树构建方法 3.算法总结 @ 1. ...
简单易学的机器学习算法——决策树之ID3算法
一.决策树分类算法概述决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类.例如对于如下数据集 (数据集) 其中,第一列和第二列为属性(特征),最后一列为类别标签,1表示是 ...
机器学习-决策树之ID3算法
概述决策树(Decision Tree)是一种非参数的有监督学习方法,它是一种树形结构,所以叫决策树.它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回 ...
[置顶] ID3算法的python实现
这篇文章的内容接着http://blog.csdn.net/xueyunf/article/details/9214727的内容,所有还有部分函数在http://blog.csdn.net/xueyu ...

随机推荐

Linux文件io--one简述
什么是文件IO IO就是input/output,输入/输出.文件IO的意思就是读写文件. 文件操作的主要接口API 什么是操作系统API (1)API是一些函数,这些函数是由linux系统提供支持的 ...
Oracle—RMAN备份（三）
一．增量备份的相关概念 1. 在前面说明了RMAN的完整备份,完整备份是备份所用使用过的块,不备份没有使用的过的块:增量备份只备份自上次备份以来更改过的块. 2.即使RMAN的默认操作是在增量备份时扫 ...
sql获取每门课程成绩最好的学生信息
1.相关数据表 Score表 [User]表 SQL语句例如以下: --查询出各科成绩最好的学生信息 --自连接 --SELECT TOP 1 * FROM Score B WHERE B.Score ...
SWTBOK測试实践系列（4） -- 软件測试技术的黑白之道
白盒測试和黑盒測试往往是项目中最受争议的两种測试类型,每一个人偏爱各不同.现实生活中行业人员大多喜欢白盒測试而忽视黑盒測试,那么项目中又应该怎样平衡这两类測试呢?我们先来看两个案例. 案例一: 某移动 ...
UIImagePickerController从拍照、图库、相册获取图片
iOS 获取图片有三种方法: 1. 直接调用摄像头拍照 2. 从相册中选择 3. 从图库中选择 UIImagePickerController 是系统提供的用来获取图片和视频的接口: 用UIImage ...
Codeforces Round #311 (Div. 2) E - Ann and Half-Palindrome（字典树+dp）
E. Ann and Half-Palindrome time limit per test 1.5 seconds memory limit per test 512 megabytes input ...
WebSphere性能优化的几个方法
1.更改http server的配置文件参数KeepAlive. 原因:这个值说明是否保持客户与HTTP SERVER的连接,如果设置为ON,则请求数到达MaxKeepAliveRequest ...
DotNet加密方式解析--散列加密
没时间扯淡类,赶紧上车吧. 在现代社会中,信息安全对于每一个人都是至关重要的,例如我们的银行账户安全.支付宝和微信账户安全.以及邮箱等等,说到信息安全,那就必须得提到加密技术,至于加密的一些相关概念, ...
Controller返回值类型ActionResult
在mvc中所有的controller类都必须使用"Controller"后缀来命名并且对Action也有一定的要求: 必须是一个public方法必须是实例方法没有标志NonA ...
Android之Activity启动的源码简介
从一个简单的startActivity开始进入了Activity.java public void startActivity(Intent intent) { this.startActivity ...

决策树之ID3算法实现(python)

决策树之ID3算法实现(python)的更多相关文章

随机推荐

热门专题