1.理解回归树和模型树

决策树用于数值预测：

回归树：基于到达叶节点的案例的平均值做出预测，没有使用线性回归的方法。
模型树：在每个叶节点，根据到达该节点的案例建立多元线性回归模型。因此叶节点数目越多，一颗模型树越大，比同等回归树更难理解，但模型可能更精确。

将回归加入到决策树：

分类决策树中，一致性（均匀性）由熵值来度量；数值决策树，则通过统计量（如方差、标准差或平均绝对偏差等）来度量。

标准偏差减少SDR：一个常见的分割标准。

比如计算特征A和特征B的SDR分别为1.2和1.4，即特征B标准差减少得更多（更加均匀），所以首先使用特征B，这就是回归树。而模型树则需要再建立一个结果相对于特征A的线性回归模型，然后根据两个线性模型中的任何一个为新的案例做出预测。

2.回归树和模型树应用示例

葡萄酒质量评级

1）收集数据

白葡萄酒数据包含4898个葡萄酒案例的11种化学特征的信息（如酸性/含糖量/pH/密度等，还包含一列质量等级）。

数据下载：

链接: https://pan.baidu.com/s/1pN_PtZOYjOz2I-KJqSq6pw 提取码: 6swg

2）探索和准备数据

## Step 2: Exploring and preparing the data ----

wine <- read.csv("whitewines.csv")

# examine the wine data

str(wine)

# the distribution of quality ratings

hist(wine$quality)

# summary statistics of the wine data

summary(wine)

wine_train <- wine[1:3750, ]

wine_test <- wine[3751:4898, ]

3）训练数据

## Step 3: Training a model on the data ----

# regression tree using rpart

library(rpart)

m.rpart <- rpart(quality ~ ., data = wine_train)

# get basic information about the tree

m.rpart

# get more detailed information about the tree

summary(m.rpart)

# use the rpart.plot package to create a visualization

library(rpart.plot)

# a basic decision tree diagram

rpart.plot(m.rpart, digits = 3)

# a few adjustments to the diagram

rpart.plot(m.rpart, digits = 4, fallen.leaves = TRUE, type = 3, extra = 101)

alcohol是决策树种第一个使用的变量，所以它是葡萄酒质量种唯一最重要的指标。

4）评估模型

①预测值与真实值的范围以及相关性

②用平均绝对误差度量性能

平均绝对误差MAE：考虑预测值离真实值有多远

## Step 4: Evaluate model performance ----

# generate predictions for the testing dataset

p.rpart <- predict(m.rpart, wine_test)

# compare the distribution of predicted values vs. actual values

summary(p.rpart)

summary(wine_test$quality)

# compare the correlation

cor(p.rpart, wine_test$quality)

# function to calculate the mean absolute error

MAE <- function(actual, predicted) {

  mean(abs(actual - predicted))

}

# mean absolute error between predicted and actual values

MAE(p.rpart, wine_test$quality)

# mean absolute error between actual values and mean value

mean(wine_train$quality) # result = 5.87

MAE(5.87, wine_test$quality)

5）提高模型性能

回归树在叶节点进行预测时只使用了一个单一的值，模型树可以通过回归树模型取代叶节点来改善回归树。

M5'算法（M5-prime）：RWeka::M5P函数



## Step 5: Improving model performance ----

# train a M5' Model Tree

library(RWeka)

m.m5p <- M5P(quality ~ ., data = wine_train)

# display the tree

m.m5p

# get a summary of the model's performance

summary(m.m5p)

# generate predictions for the model

p.m5p <- predict(m.m5p, wine_test)

# summary statistics about the predictions

summary(p.m5p)

# correlation between the predicted and true values

cor(p.m5p, wine_test$quality)

# mean absolute error of predicted and true values

# (uses a custom function defined above)

MAE(wine_test$quality, p.m5p)

分割与回归树相似，但节点不是以一个数值预测终止，而是以一个线性模型终止（LM1，LM2...LM163）

模型树的预测范围、相关性、平均绝对误差比回归树都有所改善。

PS：回归树和模型树的结果比较费解，这篇推文解读有点简单

【机器学习与R语言】7-回归树和模型树的更多相关文章

【机器学习与R语言】6-线性回归
目录 1.理解回归 1)简单线性回归 2)普通最小二乘估计 3)相关系数 4)多元线性回归 2.线性回归应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理 ...
【机器学习与R语言】4-决策树
目录 1.决策树原理 2.决策树应用示例 2.1)收集数据 2.2)探索和准备数据 2.3)训练模型 2.4)评估模型性能 2.5)提高模型性能通过自适应增强算法(boosting) 将惩罚因子分配 ...
【机器学习与R语言】13- 如何提高模型的性能？
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
【机器学习与R语言】10- 关联规则
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物 ...
【机器学习与R语言】9- 支持向量机
目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 ...
【机器学习与R语言】8- 神经网络
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...
【机器学习与R语言】5-规则学习算法
目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 ...

随机推荐

C# 如何使用代码添加控件及控件事件
1.首先简单设计一下界面: 添加了Click事件 <Window x:Class="WpfApp.MainWindow" xmlns="http://schemas ...
JVM：参数调优
JVM:参数调优本笔记是根据bilibili上尚硅谷的课程 Java大厂面试题第二季而做的笔记前言查看 JVM 系统默认值:使用 jps 和 jinfo 进行查看 -Xms:初始堆空间 - ...
[对对子队]会议记录5.20(Scrum Meeting7)
今天已完成的工作马嘉工作内容:录制新手引导视频相关issue:优化顺序关卡新手引导功能相关签入:feat: 录制了新的新手引导视频吴昭邦工作内容:增加加速功能相关is ...
如何将声学的spectrogram（声谱图）重新反变换成时域语音信号
最近在研究一些信号分析的事情,感兴趣如何将频谱信号反变换成时域信号.fft 与ifft可以顺畅的转变,但是这个是一帧信号,当时间较长的信号再一起是,通过反变换变成一帧一帧的时域信号,如何把他们拼接起来 ...
『学了就忘』Linux基础命令 — 31、grep命令和通配符
目录 1.grep命令介绍 2.find命令和grep命令的区别(重点) (1)find命令 (2)grep命令 3.通配符与正则表达式的区别 (1)通配符: (2)正则表达式: 1.grep命令介绍 ...
TDSQL | 在整个技术解决方案中HTAP对应的混合交易以及分析系统应该如何实现？
从主交易到传输,到插件式解决方案,每个厂商对HTAP的理解和实验方式都有自己的独到解法,在未来整个数据解决方案当中都会往HTAP中去牵引.那么在整个技术解决方案中HTAP对应的混合交易以及分析系统应该 ...
Vuex状态管理——任意组件间通信
核心概念在Vue中实现集中式状态(数据)管理的一个Vue插件,对vue应用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方式,且适用于任意组件间通信. 每一个 Vuex 应用的 ...
go闭包使用
1.带参数闭包函数 func main() { //先调用闭包外面的方法传给变量 add_func := add(1, 2) //再调用里面的方法,因为有了i++ 同一个内存地址在一次编译中i的值会 ...
VM的三种连接方式（转载）
概述: VMWare提供了三种工作模式,它们是bridged(桥接模式).NAT(网络地址转换模式)和host-only(主机模式).要想在网络管理和维护中合理应用它们,你就应该先了解一下这三种工作模 ...
Python基础（定制类）
文章转载自廖雪峰老师Python课程博客,仅供学习参考使用看到类似__slots__这种形如__xxx__的变量或者函数名就要注意,这些在Python中是有特殊用途的. __slots__我们已经知道 ...

【机器学习与R语言】7-回归树和模型树