决策树CART回归树—

决策树模型

选择最好的特征和特征的值进行数据集划分
根据上面获得的结果创建决策树
根据测试数据进行剪枝（默认没有数据的树分支被剪掉）
对输入进行预测

模型树

import numpy as np

def loadDataSet(fileName):      #general function to parse tab -delimited floats

    dataMat = []                #assume last column is target value

    with open(fileName) as fr:

        for line in fr.readlines():

            curLine = line.strip().split('\t')

            # fltLine = map(float, curLine) #map all elements to float()

            fltLine = [float(i) for i in curLine]

            dataMat.append(fltLine)

        # dataMat = [map(float,line.strip().split('\t')) for line in fr.readlines()]

    return np.mat(dataMat)

# dataSet为矩阵，feature 为特征索引，value为值

def binSplitDataSet(dataSet, feature, value):

    mat0 = dataSet[np.nonzero(dataSet[:,feature] > value)[0],:]

    mat1 = dataSet[np.nonzero(dataSet[:,feature] <= value)[0],:]

    return np.mat(mat0),np.mat(mat1)

def regLeaf(dataSet):#returns the value used for each leaf

    return np.mean(dataSet[:,-1])

def regErr(dataSet): # 输出的平方误差和

    return np.var(dataSet[:,-1]) * np.shape(dataSet)[0]

# ops[0]误差下降值，小于此值不再切分

# ops[1] 切分的最小样本数，小于此值不再切分

def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):

    tolS = ops[0]; tolN = ops[1]

    #if all the target variables are the same value: quit and return value

    # print(set(dataSet[:,-1].T.tolist()[0]))

    if len(set(dataSet[:,-1].T.tolist()[0])) == 1: #exit cond 1

    # if len(set(dataSet[:, -1])) == 1:  # exit cond 1

        return None, leafType(dataSet) # 返回None,输出值

    m,n = np.shape(dataSet)

    #the choice of the best feature is driven by Reduction in RSS error from mean

    S = errType(dataSet)

    bestS = np.inf; bestIndex = 0; bestValue = 0

    for featIndex in range(n-1):

        for splitVal in set(dataSet[:,featIndex].T.tolist()[0]):

            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)

            if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN):

                continue  # 结束本次循环，小于最小切分样本数，不再切分

            newS = errType(mat0) + errType(mat1)

            if newS < bestS:

                bestIndex = featIndex

                bestValue = splitVal

                bestS = newS

    #if the decrease (S-bestS) is less than a threshold don't do the split

    if (S - bestS) < tolS:  # 切分前的和切分后的误差小于给定值，不再切分

        return None, leafType(dataSet) #exit cond 2

    # mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue) # ?按照最优特征和值切分

    # if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN):  #exit cond 3

    #     return None, leafType(dataSet)

    return bestIndex,bestValue#returns the best feature to split on

                              #and the value used for that split

def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):#assume dataSet is NumPy Mat so we can array filtering

    feat, val = chooseBestSplit(dataSet, leafType, errType, ops)#choose the best split

    if feat == None: return val #if the splitting hit a stop condition return val

    retTree = {}

    retTree['spInd'] = feat

    retTree['spVal'] = val

    lSet, rSet = binSplitDataSet(dataSet, feat, val)

    retTree['left'] = createTree(lSet, leafType, errType, ops)

    retTree['right'] = createTree(rSet, leafType, errType, ops)

    return retTree

def isTree(obj):

    return (type(obj).__name__ == 'dict')

def getMean(tree):

    if isTree(tree['right']): tree['right'] = getMean(tree['right'])

    if isTree(tree['left']): tree['left'] = getMean(tree['left'])

    return (tree['left'] + tree['right']) / 2.0

def prune(tree, testData):

    if np.shape(testData)[0] == 0: return getMean(

        tree)  # if we have no test data collapse the tree

    if (isTree(tree['right']) or isTree(

            tree['left'])):  # if the branches are not trees try to prune them

        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])

    if isTree(tree['left']): tree['left'] = prune(tree['left'], lSet)

    if isTree(tree['right']): tree['right'] = prune(tree['right'], rSet)

    # if they are now both leafs, see if we can merge them

    if not isTree(tree['left']) and not isTree(tree['right']):

        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])

        errorNoMerge = sum(np.power(lSet[:, -1] - tree['left'], 2)) + \

                       sum(np.power(rSet[:, -1] - tree['right'], 2))

        treeMean = (tree['left'] + tree['right']) / 2.0

        errorMerge = sum(np.power(testData[:, -1] - treeMean, 2))

        if errorMerge < errorNoMerge:

            print("merging")

            return treeMean

        else:

            return tree

    else:

        return tree

# 模型树代码--未测试

def linearSolve(dataSet):   #helper function used in two places

    m,n = np.shape(dataSet)

    X = np.mat(np.ones((m,n))); Y = np.mat(np.ones((m,1)))#create a copy of

    # data with 1

    # in 0th postion

    X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1]#and strip out Y

    xTx = X.T*X

    if np.linalg.det(xTx) == 0.0:

        raise NameError('This matrix is singular, cannot do inverse,\n\

        try increasing the second value of ops')

    ws = xTx.I * (X.T * Y)

    return ws,X,Y

def regTreeEval(model, inDat):

    return float(model)

def modelTreeEval(model, inDat):

    n = np.shape(inDat)[1]

    X = np.mat(np.ones((1, n + 1)))

    X[:, 1:n + 1] = inDat

    return float(X * model)

def treeForeCast(tree, inData, modelEval=regTreeEval):

    if not isTree(tree): return modelEval(tree, inData)

    if inData[tree['spInd']] > tree['spVal']:

        if isTree(tree['left']):

            return treeForeCast(tree['left'], inData, modelEval)

        else:

            return modelEval(tree['left'], inData)

    else:

        if isTree(tree['right']):

            return treeForeCast(tree['right'], inData, modelEval)

        else:

            return modelEval(tree['right'], inData)

def createForeCast(tree, testData, modelEval=regTreeEval):

    m = len(testData)

    yHat = np.mat(np.zeros((m, 1)))

    for i in range(m):

        yHat[i, 0] = treeForeCast(tree, np.mat(testData[i]), modelEval)

    return yHat

if __name__ == '__main__':

    # mat0, mat1 = binSplitDataSet(np.mat(np.eye(4)),1,0.5)  # 二分测试

    dataMat = loadDataSet('ex00.txt')  # 构建数测试

    myTree = createTree(dataMat)

    print(myTree)

    dataMat2 = loadDataSet('ex0.txt')

    myTree2 = createTree(dataMat2)

    print(myTree2)

    dataMat31 = loadDataSet('ex2.txt')  # 剪枝测试

    dataMat32 = loadDataSet('ex2test.txt')

    myTree31 = createTree(dataMat31)

    retTree = prune(myTree31, dataMat32)

    print(myTree31)

    print(retTree)

决策树CART回归树——算法实现的更多相关文章

机器学习实战---决策树CART回归树实现
机器学习实战---决策树CART简介及分类树实现一:对比分类树 CART回归树和CART分类树的建立算法大部分是类似的,所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方.首先,我 ...
大白话5分钟带你走进人工智能-第二十六节决策树系列之Cart回归树及其参数(5)
第二十六节决策树系列之Cart回归树及其参数(5) 上一节我们讲了不同的决策树对应的计算纯度的计算方法, ...
CART回归树
决策树算法原理(ID3,C4.5) 决策树算法原理(CART分类树) 决策树的剪枝 CART回归树模型表达式: 其中,数据空间被划分为R1~Rm单元,每个单元有一个固定的输出值Cm.这样可以计算模型输 ...
分类回归树（CART）
概要本部分介绍 CART,是一种非常重要的机器学习算法. 基本原理 CART 全称为 Classification And Regression Trees,即分类回归树.顾名思义,该算法既 ...
决策树--CART树详解
1.CART简介 CART是一棵二叉树,每一次分裂会产生两个子节点.CART树分为分类树和回归树. 分类树主要针对目标标量为分类变量,比如预测一个动物是否是哺乳动物. 回归树针对目标变量为连续值的情况 ...
决策树分类回归，ID3，c4.5，CART，及其Python代码
决策树模型内部节点表示一个特征或者属性,叶子结点表示一个类.决策树工作时,从根节点开始,对实例的每个特征进行测试,根据测试结果,将实例分配到其子节点中,这时的每一个子节点对应着特征的一个取值,如此递 ...
CART（分类回归树）
1.简单介绍线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外).当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙.此外,实际中很多问题为非线性的,例如常 ...
【机器学习】迭代决策树GBRT（渐进梯度回归树）
一.决策树模型组合单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF. ...
回归树（Regression Tree）
目录回归树理论解释算法流程 ID3 和 C4.5 能不能用来回归? 回归树示例 References 说到决策树(Decision tree),我们很自然会想到用其做分类,每个叶子代表有限类别中 ...

随机推荐

DNS主从同步部署
DNS 主从同步原理主从同步:主每次修改配置文件需要修改一下序列号,主从同步主要根据序列号的变化. 从DNS:从可以单独修改,主从不会报错.但从修改后,主端同步给从后从端修改数据会丢失主从原理 ...
不难懂-----redux
一.flux的缺陷因为dispatcher和Store可以有多个互相管理起来特别麻烦二.什么是redux 其实redux就是Flux的一种进阶实现.它是一个应用数据流框架,主要作用应用状态的管理 ...
pycharm 安装插件
1.使用pip安装插件 pip安装指定版本的插件: pip install openpyxl==2.6.2 -i https://pypi.doubanio.com/simple/ -i后面跟的是&q ...
python3调用js的库之execjs
执行JS的类库:execjs,PyV8,selenium,node execjs是一个比较好用且容易上手的类库(支持py2,与py3),支持 JS runtime. 1.安装: pip install ...
MybatisPlus多表连接查询
一.序言 (一)背景内容软件应用技术架构中DAO层最常见的选型组件为MyBatis,熟悉MyBatis的朋友都清楚,曾几何时MyBatis是多么的风光,使用XML文件解决了复杂的数据库访问的难题.时 ...
Datawhale 人工智能培养方案
版本号:V0.9 阅读须知每个专业方向对应一个课程表格课程表格里的课程排列顺序即为本培养方案推荐的学习顺序诚挚欢迎为本培养方案贡献课程,有意向的同学请联系Datawhale开源项目管理委员会本 ...
Linux-一次执行多个命令； && ||
一次执行多个命令,多个命令之间用:号隔开 cmd1;cmd2:cmd3 这样前后执行的时候没有依赖性,如果有下列要求呢 1. cmd1执行失败那就不要执行后面的命令 2. cmd1失败了才去指令后面的 ...
014 Linux 线上高频使用以及面试高频问题——如何查找大文件并安全的清除？
目录 1 案例描述? 2 命令一(目录统计排序最佳命令) 3 命令二(最实用,目录和文件一起统计排序) (1)命令详情和说明 (2)du.head.sort.awk 详细说明参考已有文章附录 (3)L ...
到底什么是TORCH.NN？
该教程是在notebook上运行的,而不是脚本,下载notebook文件. PyTorch提供了设计优雅的模块和类:torch.nn, torch.optim, Dataset, DataLoader ...
基于GDAL库，读取.grd文件（以海洋地形数据为例）Java版
技术背景海洋地形数据主要是通过美国全球地形起伏数据(GMT)获得,数据格式为grd(GSBG)二进制数据,打开软件通过是Surfer软件,surfer软件可进行数据的编辑处理,以及进一步的可视化表达 ...

决策树CART回归树——算法实现

决策树CART回归树——算法实现的更多相关文章

随机推荐

热门专题