• 决策树是什么

决策树是基于树结构来进行决策,这恰是人类在面临决策问题时一种很自然的处理机制。例如,我们要对“这是好瓜吗?”这样的问题进行决策时,通常会进行一系列的判断或“子决策”:我们先看“它是什么颜色?”,如果是“青绿色”,则我们再看“它的根蒂是什么形态?”,如果是“蜷缩”,我们再判断“它敲起来是什么声音?”,最后我们得出决策:这是一个好瓜。这个决策如图所示:

  • 决策树能做什么

决策树能实现对数据的探索,能对数据轮廓进行描述,能进行预测和分类,了解哪些变量最重要

  • 决策树基本流程

  • 几种分列准则

一 信息增益

二 增益率

三 基尼系数

  • 停止条件

1.如果节点中所有观测属于一类。
2.如果该节点中所有观测的属性取值一致。
3.如果树的深度达到设定的阈值。
4.如果该节点所含观测值小于设定的父节点应含观测数的阈值。
5.如果该节点的子节点所含观测数将小于设定的阈值。
6.如果没有属性能满足设定的分裂准则的阈值。

  • C4.5,对连续属性的处理

在C4.5中,对连续属性的处理如下:

1.      对特征的取值进行升序排序

2.      两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(InforGain)。优化算法就是只计算分类属性发生改变的那些特征取值。

3.      选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点

4.      计算最佳分裂点的信息增益率(Gain Ratio)作为特征的Gain Ratio。注意,此处需对最佳分裂点的信息增益进行修正:减去log2(N-1)/|D|(N是连续特征的取值个数,D是训练数据数目,此修正的原因在于:当离散属性和连续属性并存时,C4.5算法倾向于选择连续特征做最佳树分裂点)

  • R代码实现(C5.0)

一.导入数据集,把目标变量转为因子

  1. setwd("D:\\R_edu\\data")
  2. rm(list=ls())
  3. accepts<-read.csv("accepts.csv")
  4. str(accepts)
  5. accepts$bad_ind<-as.factor(accepts$bad_ind)
  6. names(accepts)
  7. accepts=accepts[,c(,:)]

根据业务理解生成更有意义的衍生变量,不过这些变量都是临时的,因为没有经过数据清洗,此处仅作一个示例

二.将数据分为训练集和测试集

  1. set.seed()
  2. select<-sample(:nrow(accepts),length(accepts$bad_ind)*0.7)
  3. train=accepts[select,]
  4. test=accepts[-select,]
  5. summary(train$bad_ind)

三.运行C50算法建模

  1. train<-na.omit(train)
  2. library(C50)
  3. ls('package:C50')
  4. tc<-C5.0Control(subset =F,CF=0.25,winnow=F,noGlobalPruning=F,minCases =)
  5. model <- C5.(bad_ind ~.,data=train,rules=F,control =tc)
  6. summary( model )

四.图形展示

  1. plot(model)
  2. C5imp(model)

五.生成规则

  1. rule<- C5.(bad_ind ~.,data=train,rules=T,control =tc)
  2. summary( rule )
  • CRAT算法处理离散型变量

  1. 记m为样本T中该属性取值的种类数
  2. 穷举将m种取值分为两类的划分
  3. 对上述所有划分计算GINI系数
  • R代码实现CART算法

rpart包中有针对CART决策树算法提供的函数,比如rpart函数
以及用于剪枝的prune函数
rpart函数的基本形式:rpart(formula,data,subset,na.action=na.rpart,method.parms,control,...)

一.设置向前剪枝的条件

  1. tc <- rpart.control(minsplit=,minbucket=,maxdepth=,xval=,cp=0.005)

rpart.control对树进行一些设置  
minsplit是最小分支节点数,这里指大于等于20,那么该节点会继续分划下去,否则停止  
minbucket:树中叶节点包含的最小样本数  
maxdepth:决策树最大深度
xval:交叉验证的次数
cp全称为complexity parameter,指某个点的复杂度,对每一步拆分,模型的拟合优度必须提高的程度

二.建模

  1. rpart.mod=rpart(bad_ind ~.,data=train,method="class",
  2. parms = list(prior = c(0.65,0.35), split = "gini"),
  3. control=tc)
  4. summary(rpart.mod)
  5. #.3看变量重要性
  6. rpart.mod$variable.importance
  7. #cp是每次分割对应的复杂度系数
  8. rpart.mod$cp
  9. plotcp(rpart.mod)

三.画树图

  1. library(rpart.plot)
  2. rpart.plot(rpart.mod,branch=, extra=, under=TRUE, faclen=,
  3. cex=0.8, main="决策树")

四.CART剪枝

prune函数可以实现最小代价复杂度剪枝法,对于CART的结果,每个节点均输出一个对应的cp
prune函数通过设置cp参数来对决策树进行修剪,cp为复杂度系数
我们可以用下面的办法选择具有最小xerror的cp的办法:

  1. rpart.mod.pru<-prune(rpart.mod, cp= rpart.mod$cptable[which.min(rpart.mod$cptable[,"xerror"]),"CP"])
  2. rpart.mod.pru$cp

五.绘制剪枝后的树状图

  1. library(rpart.plot)
  2. rpart.plot(rpart.mod.pru,branch=, extra=, under=TRUE, faclen=,
  3. cex=0.8, main="决策树")

六.CART预测

  • 使用模型对测试集进行预测使用模型进行预测
  • 使用模型进行预测
  1. rpart.pred<-predict(rpart.mod.pru,test)

可以看到,rpart.pred的结果有两列,第一列是为0的概率,第二列是为1的概率
通过设定阀值,得到预测分类

  1. pre<-ifelse(rpart.pred[,]>0.5,,)

决策树及R语言实现的更多相关文章

  1. R语言︱决策树族——随机森林算法

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...

  2. R语言学习——根据信息熵建决策树KD3

    R语言代码 决策树的构建 rm(list=ls()) setwd("C:/Users/Administrator/Desktop/R语言与数据挖掘作业/实验3-决策树分类") #s ...

  3. R语言学习笔记—决策树分类

    一.简介 决策树分类算法(decision tree)通过树状结构对具有某特征属性的样本进行分类.其典型算法包括ID3算法.C4.5算法.C5.0算法.CART算法等.每一个决策树包括根节点(root ...

  4. 决策树ID3原理及R语言python代码实现(西瓜书)

    决策树ID3原理及R语言python代码实现(西瓜书) 摘要: 决策树是机器学习中一种非常常见的分类与回归方法,可以认为是if-else结构的规则.分类决策树是由节点和有向边组成的树形结构,节点表示特 ...

  5. 数据挖掘算法R语言实现之决策树

    数据挖掘算法R语言实现之决策树 最近,看到很多朋友问我如何用数据挖掘算法R语言实现之决策树,想要了解这方面的内容如下: > library("party")导入数据包 > ...

  6. 关联规则-R语言实现

    关联规则code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && ...

  7. R语言与数据分析

    K最近邻(k-Nearest Neighbor,KNN)分类算法 R语言实现包:R语言中有kknn package实现了weighted k-nearest neighbor. 决策树: R语言实现决 ...

  8. 机器学习与R语言

    此书网上有英文电子版:Machine Learning with R - Second Edition [eBook].pdf(附带源码) 评价本书:入门级的好书,介绍了多种机器学习方法,全部用R相关 ...

  9. 数据分析与R语言

    数据结构 创建向量和矩阵 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 函数mean(), sum(), min(), m ...

随机推荐

  1. 从零自学Hadoop(18):Hive的CLI和JDBC

    阅读目录 序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出 ...

  2. 用普通计算机假设基于liunx系统的NAS部署FineReport决策系统

    何为NAS? 简单说就是连接在网络上,具备资料存储功能的装置因此也称为“网络存储器”.它是一种专用数据存储服务器.他以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而释放带宽.提高性能.降低 ...

  3. 理解Docker(3):Docker 使用 Linux namespace 隔离容器的运行环境

    本系列文章将介绍Docker的有关知识: (1)Docker 安装及基本用法 (2)Docker 镜像 (3)Docker 容器的隔离性 - 使用 Linux namespace 隔离容器的运行环境 ...

  4. bug描述技巧

    进入测试行业已经两年了,我从未认真的考虑过提交一个bug需要注意哪些问题,只是主观的认为我只需要描述清楚就OK了,但是我在工作中发现有个别的开发经常跑来告诉我"这个bug你是不是描述错了&q ...

  5. jenkins / ant / jmeter 持续集成接口自动化

    1. 将 jmeter 脚本放在/var/lib/jenkins/workspace/Jmeter_auto/jmxpath路径下 2. 点击http://jk.facebank.net.cn/job ...

  6. 扩大ubuntu虚拟机硬盘空间

    一.背景: 出于测试的需要,在ubuntu 14.04系统中通过virtualbox虚拟机安装了额ubuntu 14.04系统(guest os).安装过程采用ubuntu 14.04的默认分区方法. ...

  7. 《深入理解Java内存模型》读书总结

    概要 文章是<深入理解Java内容模型>读书笔记,该书总共包括了3部分的知识. 第1部分,基本概念 包括"并发.同步.主内存.本地内存.重排序.内存屏障.happens befo ...

  8. Linux 进程与线程五

    pthread_self函数 pthread_t pthread_self(void); 一般会成功,返回当前线程的ID 注意:在子线程中执行exit()函数会退出整个进程,一般使用pthread_e ...

  9. [LeetCode] Paint House II 粉刷房子之二

    There are a row of n houses, each house can be painted with one of the k colors. The cost of paintin ...

  10. 篇二:MySQL存储过程

    目的:写一个存储过程,往数据库中插入几百条数据,作为识别码给别人用(这里我觉得和验证码的功能相似) BEGIN ); ); ) ; ); ); ; ; while count <= insert ...