基于id3算法根据房价数据进行画图预测python

根据已给的波士顿房价数据，对波斯顿房价进行预测。即，实现给出若干条件（如房间数、社区的低收入阶层的比率和镇上学生与教师数量比例的部分数据），要能说出给出的条件是否能够有效进行预测，如可以做有效预测，则给出预测的结果。

上面的是数据
下面是ID3的算法

#coding:utf-8

__author__ = 'liukai'

from math import log

class DecisonTree:

    trainData = []

    trainLabel = []

    featureValus = {} #每个特征所有可能的取值

    def __init__(self, trainData, trainLabel, threshold):

        self.loadData(trainData, trainLabel)

        self.threshold = threshold

        self.tree = self.createTree(range(0,len(trainLabel)), range(0,len(trainData[0])))

    #加载数据

    def loadData(self, trainData, trainLabel):

        if len(trainData) != len(trainLabel):

            raise ValueError('input error')

        self.trainData = trainData

        self.trainLabel = trainLabel

        #计算 featureValus

        for data in trainData:

            for index, value in enumerate(data):

                if not index in self.featureValus.keys():

                    self.featureValus[index] = [value]

                if not value in self.featureValus[index]:

                    self.featureValus[index].append(value)

    #计算信息熵

    def caculateEntropy(self, dataset):

        labelCount = self.labelCount(dataset)

        size = len(dataset)

        result = 0

        for i in labelCount.values():

            pi = i / float(size)

            result -= pi * (log(pi) /log(2))

        return result

    #计算信息增益

    def caculateGain(self, dataset, feature):

        values = self.featureValus[feature] #特征feature 所有可能的取值

        result = 0

        for v in values:

            subDataset = self.splitDataset(dataset=dataset, feature=feature, value=v)

            result += len(subDataset) / float(len(dataset)) * self.caculateEntropy(subDataset)

        return self.caculateEntropy(dataset=dataset) - result

    #计算数据集中，每个标签出现的次数

    def labelCount(self, dataset):

        labelCount = {}

        for i in dataset:

            if trainLabel[i] in labelCount.keys():

                labelCount[trainLabel[i]] += 1

            else:

                labelCount[trainLabel[i]] = 1

        return labelCount

    '''

    dataset:数据集

    features:特征集

    '''

    def createTree(self, dataset, features):

        labelCount = self.labelCount(dataset)

        #如果特征集为空，则该树为单节点树

        #计算数据集中出现次数最多的标签

        if not features:

            return max(list(labelCount.items()),key = lambda x:x[1])[0]

        #如果数据集中，只包同一种标签，则该树为单节点树

        if len(labelCount) == 1:

            # return labelCount.keys()[0]

            return labelCount.keys()

        #计算特征集中每个特征的信息增益

        l = map(lambda x : [x, self.caculateGain(dataset=dataset, feature=x)], features)

        #选取信息增益最大的特征

        feature, gain = max(l, key = lambda x: x[1])

        #如果最大信息增益小于阈值，则该树为单节点树

        #

        if self.threshold > gain:

            return max(list(labelCount.items()),key = lambda x:x[1])[0]

        tree = {}

        #选取特征子集

        subFeatures = filter(lambda x : x != feature, features)

        tree['feature'] = feature

        #构建子树

        for value in self.featureValus[feature]:

            subDataset = self.splitDataset(dataset=dataset, feature=feature, value=value)

            #保证子数据集非空

            if not subDataset:

                continue

            tree[value] = self.createTree(dataset=subDataset, features=subFeatures)

        return tree

    def splitDataset(self, dataset, feature, value):

        reslut = []

        for index in dataset:

            if self.trainData[index][feature] == value:

                reslut.append(index)

        return reslut

    def classify(self, data):

        def f(tree, data):

            if type(tree) != dict:

                return tree

            else:

                return f(tree[data[tree['feature']]], data)

        return f(self.tree, data)

if __name__ == '__main__':

    trainData = [

        [0, 0, 0, 0],

        [0, 0, 0, 1],

        [0, 1, 0, 1],

        [0, 1, 1, 0],

        [0, 0, 0, 0],

        [1, 0, 0, 0],

        [1, 0, 0, 1],

        [1, 1, 1, 1],

        [1, 0, 1, 2],

        [1, 0, 1, 2],

        [2, 0, 1, 2],

        [2, 0, 1, 1],

        [2, 1, 0, 1],

        [2, 1, 0, 2],

        [2, 0, 0, 0],

    ]

    trainLabel = [0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0]

    tree = DecisonTree(trainData=trainData, trainLabel=trainLabel, threshold=0)

    print (tree.tree)

# {'feature': 2,

#  0: {'feature': 1, 0: dict_keys([0]),1: dict_keys([1])},

#  1: dict_keys([1])}

接下来就是画图的实现

#### -*- coding: utf-8 -*-

import matplotlib.pyplot as plt

import time

import math

from math import sin

import numpy as np

# plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

# plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

# plt.xlabel（“x轴标签”）

# plt.ylabel("y轴标签")

# plt.title("图像标题")

# plt.xlim(0,5)     在画好的图形中选取x范围内的图形片段。

# plt.ylim(0,5)     y片段

# plt.plot(x,y,linewidth=4)    设置线的宽度

# plt.plot(x,y,"g字符")     g代表绿色 后面的字符表示线的种类。如虚线，点线等

# -*- coding: utf-8 -*-

import numpy as np

import matplotlib.mlab as mlab

import matplotlib.pyplot as plt

#D.柱状图bar

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

plt.figure()

plt.bar(x, y)

plt.title("bar")

plt.show()

exit()

##饼图###

labels = ['China', 'Swiss', 'USA', 'UK', 'Laos', 'Spain']

X = [222, 42, 455, 664, 454, 334]

fig = plt.figure()

plt.pie(X, labels=labels, autopct='%1.2f%%')  # 画饼图（数据，数据对应的标签，百分数保留两位小数点）

plt.title("Pie chart")

plt.show()

plt.savefig("PieChart.jpg")

exit()

x=np.arange(0,2*np.pi,0.01)

y=np.sin(x)

plt.xlabel('角度')

plt.ylabel("SIN")

# plt.ylim(-1,1)   #片段选择

plt.plot(x,y)

plt.show()

exit()

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

fig = plt.figure(figsize=(12, 6))

plt.subplot(121)

plt.plot(x, y, color='r', linestyle='-')

plt.subplot(122)

plt.title("正弦图片")

plt.plot(x, y, color='r', linestyle='--')

plt.show()

exit()

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

plt.scatter(x, y, color='r', marker='+')

plt.show()

exit()

plt.figure(figsize=(6,6))

plt.subplot(231)

plt.subplot(232)

plt.subplot(233)

plt.subplot(234)

plt.subplot(235)

plt.subplot(236)

plt.show()

exit()

x_data = [1, 2, 3, 4, 5]

y_data = [2.3, 3.4, 1.2, 6.6, 7.0]

fig = plt.figure()

ax = fig.add_subplot(1,1,1)

ax.scatter(x_data, y_data)

# plt.ion()#本次运行请注释，全局运行不要注释

plt.show()

time.sleep(20)

基于id3算法根据房价数据进行画图预测python的更多相关文章

机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
决策树笔记：使用ID3算法
决策树笔记:使用ID3算法决策树笔记:使用ID3算法机器学习先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...
决策树--ID3 算法（一）
Contents 1. 决策树的基本认识 2. ID3算法介绍 3. 信息熵与信息增益 4. ID3算法的C++实现 1. 决策树的基本认识决策树是一种 ...
【Machine Learning】决策树之ID3算法（2）
决策树之ID3算法 Content 1.ID3概念 2.信息熵 3.信息增益 Information Gain 4. ID3 bias 5. Python算法实现(待定) 一.ID3概念 ID3算法最 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
ID3算法决策树的生成（1）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
陕西中际现代:基于自适应算法的PLC滴灌控制系统
基于自适应算法的PLC滴灌控制系统陕西中际现代包装科技有限公司滴灌部 1.介绍水资源正在成为一种珍贵的资源.城镇的市民使用成千上万立方的水来浇灌花园和绿地.他们依赖于使用固定灌溉计划的控制器.而这 ...
Python实现ID3算法
自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具: 先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f4 ...

随机推荐

PHP get_resource_type() 函数
get_resource_type() 返回资源(resource)类型. 版本要求:PHP 4 >= 4.0.2, PHP 5, PHP 7高佣联盟 www.cgewang.com 语法 st ...
PHP uniqid() 函数
实例生成一个唯一的 ID: <?phpecho uniqid();?>高佣联盟 www.cgewang.com 定义和用法 uniqid() 函数基于以微秒计的当前时间,生成一个唯一的 ...
luogu P2304 [NOI2015]小园丁与老司机 dp 上下界网络流
LINK:小园丁与老司机苦心人天不负卧薪尝胆三千越甲可吞吴 AC的刹那真的是泪目啊很久以前就写了当时记得特别清楚写到肚子疼.. 调到胳膊疼.. ex到根不不想看的程度. 当时wa了一 ...
luogu P4516 [JSOI2018]潜入行动
LINK:潜入行动初看题感觉很不可做但是树形dp的状态过于明显. 容易设\(f_{x,j,l,r}\)表示x为根子树内放了j个设备且子树内都被覆盖l表示x是否被覆盖r表示x是否放设备的方案数. 初 ...
QT学习笔记（day01）
QT中的对象树一定程度上简化了内存回收机制:当创建的对象指定的父亲是由QObject或者Object派生的类时候,这个对象被加载到对象树上,当窗口关闭掉时候,树上的对象也都会被释放掉信号和槽通 ...
ES与Javscript，JScript，ActionScript等脚本
ES是一种语言标准,而后面的javascript.JScript.Actionscript都是基于ES的扩展语言. 实际上:javascript=ES+DOM+BOM 显然,JavaScript,JS ...
移动物体监控系统-sprint1声音报警子系统
一.声卡驱动开发 1.1 声卡驱动架构 ——OSS开放式音频系统,声卡驱动中传统的OSS构架在02年被收购后即不开源,并且OSS的混音效果不好,因为产生了ALSA ——AlSA Linux系统高级音频 ...
Java线程生命周期与状态切换
前提最近有点懒散,没什么比较有深度的产出.刚好想重新研读一下JUC线程池的源码实现,在此之前先深入了解一下Java中的线程实现,包括线程的生命周期.状态切换以及线程的上下文切换等等.编写本文的时候, ...
CentOS7安装MinIO教程，并在C#客户端WPF中实现监控上传进度
MinIO的详细介绍可以参考官网(https://min.io/product/overview). 简单来说它是一个实现了AWS S3标准的100%开源的,可商用的( Apache V2 licen ...
Grazing on the Run 题解
[题目大意] 大致题意就是,你的初始坐标为\(x\),你要去数轴上的\(n\)个点,问你到达所有点的时间总和最小是多少. 直接贪心肯定不行,所以考虑\(DP\) 先把坐标离散(也就是预处理两点距离\( ...

基于id3算法根据房价数据进行画图预测python

基于id3算法根据房价数据进行画图预测python的更多相关文章

随机推荐

热门专题