决策树3:基尼指数--Gini index（CART）

既能做分类，又能做回归。
分类：基尼值作为节点分类依据。
回归：最小方差作为节点的依据。

节点越不纯，基尼值越大，熵值越大

pi表示在信息熵部分中有介绍，如下图中介绍

方差越小越好。

选择最小的那个0.3

代码：

#整个c4.5决策树的所有算法：

import numpy as np

import operator

def creatDataSet():

    """

    outlook-> 0:sunny | 1:overcast | 2:rain

    temperature-> 0:hot | 1:mild | 2:cool

    humidity-> 0:high | 1:normal

    windy-> 0:false | 1:true

    """

    dataSet = np.array([[0, 0, 0, 0, 'N'],

               [0, 0, 0, 1, 'N'],

               [1, 0, 0, 0, 'Y'],

               [2, 1, 0, 0, 'Y'],

               [2, 2, 1, 0, 'Y'],

               [2, 2, 1, 1, 'N'],

               [1, 2, 1, 1, 'Y']])

    labels = np.array(['outlook', 'temperature', 'humidity', 'windy'])

    return dataSet, labels

def createTestSet():

    """

    outlook-> 0:sunny | 1:overcast | 2:rain

    temperature-> 0:hot | 1:mild | 2:cool

    humidity-> 0:high | 1:normal

    windy-> 0:false | 1:true

    """

    testSet = np.array([[0, 1, 0, 0],

               [0, 2, 1, 0],

               [2, 1, 1, 0],

               [0, 1, 1, 1],

               [1, 1, 0, 1],

               [1, 0, 1, 0],

               [2, 1, 0, 1]])

    return testSet

def dataset_entropy(dataset):

    """

    计算数据集的信息熵

    """

    classLabel=dataset[:,-1]

    labelCount={}

    for i in range(classLabel.size):

        label=classLabel[i]

        labelCount[label]=labelCount.get(label,0)+1     #将所有的类别都计算出来了

    #熵值(第一步)

    cnt=0

    for k,v in labelCount.items():

        cnt += -v/classLabel.size*np.log2(v/classLabel.size)

    return cnt

    #接下来切分,然后算最优属性

def splitDataSet(dataset,featureIndex,value):

    subdataset=[]

    #迭代所有的样本

    for example in dataset:

        if example[featureIndex]==value:

            subdataset.append(example)

    return np.delete(subdataset,featureIndex,axis=1)

def classLabelPi(dataset):

    #多叉树

    classLabel=dataset[:,-1]

    labelCount={}

    for i in range(classLabel.size):

        label=classLabel[i]

        labelCount[label]=labelCount.get(label,0)+1

    valueList=list(labelCount.values())

    sum=np.sum(valueList)

    pi=0

    for i in valueList:

        pi+=(i/sum)**2

    return pi

def chooseBestFeature(dataset,labels):

    """

    选择最优特征，但是特征是不包括名称的。

    如何选择最优特征：增益率最小

    """

    #特征的个数

    featureNum=labels.size

    baseEntropy=dataset_entropy(dataset)

    #设置最大增益值

    maxRatio,bestFeatureIndex=0,None

    #样本总数

    n=dataset.shape[0]

    #最小基尼值

    minGini=1

    for i in range(featureNum):

        #指定特征的条件熵

        featureEntropy=0

        gini=0

        #返回所有子集

        featureList=dataset[:,i]

        featureValues=set(featureList)

        for value in featureValues:

            subDataSet=splitDataSet(dataset,i,value)

            pi=subDataSet.shape[0]/n

            gini+=pi*(1-classLabelPi(subDataSet))

        if minGini > gini:

            minGini=gini

            bestFeatureIndex=i

    return bestFeatureIndex #最佳增益

def mayorClass(classList):

    labelCount={}

    for i in range(classList.size):

        label=classList[i]

        labelCount[label]=labelCount.get(label,0)+1

    sortedLabel=sorted(labelCount.items(),key=operator.itemgetter(1),reverse=True)

    return sortedLabel[0][0]

def createTree(dataset,labels):

    """

    参考hunt算法那张图片

    """

    classList=dataset[:,-1]

    if len(set(dataset[:,-1]))==1:

        return dataset[:,-1][0] #返回类别

    if labels.size==0 or len(dataset[0])==1:  #条件熵最少的一定是类别最多的

        #条件熵算不下去的时候，

        return mayorClass(classList)

    bestFeatureIndex=chooseBestFeature(dataset,labels)

    bestFeature=labels[bestFeatureIndex]

    dtree={bestFeature:{}}  #用代码表示这棵树

    featureList=dataset[:,bestFeatureIndex]

    featureValues=set(featureList)

    for value in featureValues:

        subdataset=splitDataSet(dataset,bestFeatureIndex,value)

        sublabels=np.delete(labels,bestFeatureIndex)

        dtree[bestFeature][value]=createTree(subdataset,sublabels) #将原始的labels干掉一列

    return dtree

def predict(tree,labels,testData):

    #分类，预测

    rootName=list(tree.keys())[0]

    rootValue=tree[rootName]

    featureIndex =list(labels).index(rootName)

    classLabel=None

    for key in rootValue.keys():

        if testData[featureIndex]==int(key):

            if type(rootValue[key]).__name__=="dict":

                classLabel=predict(rootValue[key],labels,testData)    #递归

            else:

                classLabel=rootValue[key]

    return classLabel

def predictAll(tree,labels,testSet):

    classLabels=[]

    for i in testSet:

        classLabels.append(predict(tree,labels,i))

    return classLabels

if __name__ == "__main__":

    dataset,labels=creatDataSet()

    # print(dataset_entropy(dataset)

    # s=splitDataSet(dataset,0)

    # for item in s:

    #     print(item)

    tree=createTree(dataset,labels)

    testSet=createTestSet()

    print(predictAll(tree,labels,testSet))

····························································

输出：

['N', 'N', 'Y', 'N', 'Y', 'Y', 'N']

决策树3:基尼指数--Gini index（CART）的更多相关文章

Python实现CART(基尼指数)
Python实现CART(基尼指数) 运行环境 Pyhton3 treePlotter模块(画图所需,不画图可不必) matplotlib(如果使用上面的模块必须) 计算过程 st=>start ...
B-经济学-基尼指数
目录基尼指数一.基尼指数简介更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/ni ...
（二）《机器学习》（周志华）第4章决策树笔记理论及实现——“西瓜树”——CART决策树
CART决策树 (一)<机器学习>(周志华)第4章决策树笔记理论及实现——“西瓜树” 参照上一篇ID3算法实现的决策树(点击上面链接直达),进一步实现CART决策树. 其实只需要改动 ...
决策树(上)-ID3、C4.5、CART
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解决策树): 1.https://zhuanlan.zhihu.com/p/85731206 2.https://zhuanla ...
【机器学习速成宝典】模型篇06决策树【ID3、C4.5、CART】（Python版）
目录什么是决策树(Decision Tree) 特征选择使用ID3算法生成决策树使用C4.5算法生成决策树使用CART算法生成决策树预剪枝和后剪枝应用:遇到连续与缺失值怎么办? 多变量决策 ...
机器学习总结（八）决策树ID3，C4.5算法，CART算法
本文主要总结决策树中的ID3,C4.5和CART算法,各种算法的特点,并对比了各种算法的不同点. 决策树:是一种基本的分类和回归方法.在分类问题中,是基于特征对实例进行分类.既可以认为是if-then ...
决策树之ID3，C4.5及CART
决策树的基本认识决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值函数的方法,年,香农引入了信息熵,将其定义为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它 ...
Theoretical comparison between the Gini Index and Information Gain criteria
Knowledge Discovery in Databases (KDD) is an active and important research area with the promise for ...
多分类度量gini index
第一份工作时, 基于 gini index 写了一份决策树代码叫ctree, 用于广告推荐. 今天想起来, 好像应该有开源的其他方法了. 参考 https://www.cnblogs.com/mlhy ...

随机推荐

js根据ClassName来删除元素(有坑误入)
今天,被一个很简单的问题坑了一下午,基础不扎实.(js根据class名称来删除Dom元素) 但是结果却不是这样的.弄了好久还不知道怎么回事.最后找到了答案. 结果如下:为啥还有test2,4,6呢. ...
测试平台系列(90) 编写oss客户端
大家好~我是米洛! 我正在从0到1打造一个开源的接口测试平台, 也在编写一套与之对应的教程,希望大家多多支持. 欢迎关注我的公众号米洛的测开日记,获取最新文章教程! 回顾上一节我们编写了在线执行测试 ...
矩池云上如何快速安装nvcc
若您想要使用 nvcc,但是所选的镜像中没有预装 nvcc,可按照如下操作自行安装. 1.检查系统版本 source /etc/os-release && echo $VERSION_ ...
salesforce零基础学习（一百一十二）项目中的零碎知识点小总结（四）
本篇参考: https://trailblazer.salesforce.com/issues_view?id=a1p4V0000003znDQAQ https://salesforce.stacke ...
tp5 （自写）实现redis消息队列 + 排行榜
1:小皮开启redis, 控制器按Ctrl 点击new Redis 进入 redis.php 进行封装 //向队列添加数据 // LPUSH key value1 [value2] //将一个或多个值 ...
kkFileView对接svn服务完成文件在线预览功能
1.需求: 之前在公司内部搭建了svn服务器,给部门存放文档.视频,做成了一个文档服务器来用,随着视频文件太大,每次下载太慢需要把文件在线打开查看 2.解决: kkFileView https:// ...
201922904李龙威 2019-2020-2 《Python程序设计》实验二报告
20192204 2019-2020-2 <Python程序设计>实验二报告课程:<Python程序设计> 班级: 1922 姓名: 李龙威学号:20192204 实验教师 ...
VuePress 博客之 SEO 优化（三）标题、链接优化
前言在 <一篇带你用 VuePress + Github Pages 搭建博客>中,我们使用 VuePress 搭建了一个博客,最终的效果查看:TypeScript 中文文档. 本篇讲讲 ...
《前端运维》一、Linux基础--05Shell运算符
今天我们来学习下Shell运算符,Shell跟其他的编程语言一样,也支持多种运算符,包括: 算数运算符关系运算符布尔运算符字符串运算符文件测试运算符那下面,我们就一一来学习一下这些运算符. ...
java对配置文件properties的操作
1.读取配置文件的键值对,转为Properties对象:将Properties(键值对)对象写入到指定文件. package com.ricoh.rapp.ezcx.admintoolweb.util ...

决策树3:基尼指数--Gini index（CART）

代码：

决策树3:基尼指数--Gini index（CART）的更多相关文章

随机推荐

热门专题