决策树算法是一种既可以用于分类，也可以用于回归的算法。

决策树回归是通过对输入特征的不断划分来建立一棵决策树，每一步划分都基于当前数据集的最优划分特征。
它的目标是最小化总体误差或最大化预测精度，其构建通常采用自上而下的贪心搜索方式，通过比较不同划分标准来选择最优划分。

决策树回归广泛应用于各种回归问题，如预测房价、股票价格、客户流失等。

1. 算法概述

决策树相关的诸多算法之中，有一种CART算法，全称是 classification and regression tree（分类与回归树）。
顾名思义，这个算法既可以用来分类，也可以用来回归，本篇主要介绍其在回归问题上的应用。

决策树算法的核心在于生成一棵决策树过程中，如何划分各个特征到树的不同分支上去。
CART算法是根据基尼系数（Gini）来划分特征的，每次选择基尼系数最小的特征作为最优切分点。

其中基尼系数的计算方法：\(gini(p) = \sum_{i=1}^n p_i(1-p_i)=1-\sum_{i=1}^n p_i^2\)

2. 创建样本数据

这次的回归样本数据，我们用 scikit-learn 自带的玩具数据集中的糖尿病数据集。
关于玩具数据集的内容，可以参考：TODO

from sklearn.datasets import load_diabetes

# 糖尿病数据集

diabetes = load_diabetes()

X = diabetes.data

y = diabetes.target

这个数据集中大约有400多条数据。

3. 模型训练

训练之前，为了减少算法误差，先对数据进行标准化处理。

from sklearn import preprocessing as pp

# 数据标准化

X = pp.scale(X)

y = pp.scale(y)

接下来分割训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

然后用scikit-learn中的DecisionTreeRegressor模型来训练：

from sklearn.tree import DecisionTreeRegressor

# 定义决策树回归模型

reg = DecisionTreeRegressor(max_depth=2)

# 训练模型

reg.fit(X_train, y_train)

# 在测试集上进行预测

y_pred = reg.predict(X_test)

DecisionTreeRegressor的主要参数包括：

criterion：用于衡量节点划分质量的指标。可以选择的值有'mse'（均方误差）或'mae'（平均绝对误差）。默认值为'mse'，适用于大多数情况。
splitter：用于决定节点如何进行划分的策略。可以选择的值有'best'（选择最佳划分）或'random'（随机划分）。默认值为'best'。
max_depth：决策树的最大深度。默认值为None，表示不限制最大深度。增加最大深度有助于更好地拟合训练数据，但可能导致过拟合。
random_state：用于设置随机数生成器的种子。默认值为None，表示使用随机数生成器。
ccp_alpha：用于控制正则化强度的参数。默认值为None，表示不进行正则化。
max_samples：用于控制每个节点最少需要多少样本才能进行分裂。默认值为None，表示使用整个数据集。
min_samples_split：用于控制每个节点最少需要多少样本才能进行分裂。默认值为2，表示每个节点至少需要2个样本才能进行分裂。
min_samples_leaf：用于控制每个叶子节点最少需要多少样本才能停止分裂。默认值为1，表示每个叶子节点至少需要1个样本才能停止分裂。
min_weight_fraction_leaf：用于控制每个叶子节点最少需要多少样本的权重才能停止分裂。默认值为0.0，表示每个叶子节点至少需要0个样本的权重才能停止分裂。
max_features：用于控制每个节点最多需要考虑多少个特征进行分裂。默认值为None，表示使用所有特征。
max_leaf_nodes：用于控制决策树最多有多少个叶子节点。默认值为None，表示不限制叶子节点的数量。
min_impurity_decrease：用于控制每个节点最少需要减少多少不纯度才能进行分裂。默认值为0.0，表示每个节点至少需要减少0个不纯度才能进行分裂。
min_impurity_split：用于控制每个叶子节点最少需要减少多少不纯度才能停止分裂。默认值为None，表示使用min_impurity_decrease参数。
class_weight：用于设置类别权重的字典或方法。默认值为None，表示使用均匀权重。

最后验证模型的训练效果：

from sklearn import metrics

# 在测试集上进行预测

y_pred = reg.predict(X_test)

mse, r2, m_error = 0.0, 0.0, 0.0

y_pred = reg.predict(X_test)

mse = metrics.mean_squared_error(y_test, y_pred)

r2 = metrics.r2_score(y_test, y_pred)

m_error = metrics.median_absolute_error(y_test, y_pred)

print("均方误差：{}".format(mse))

print("复相关系数：{}".format(r2))

print("中位数绝对误差：{}".format(m_error))

# 运行结果

均方误差：0.5973573097746598

复相关系数：0.5153160857515913

中位数绝对误差：0.5496418600646286

从预测的误差来看，训练的效果还不错。
这里用DecisionTreeRegressor训练模型时使用了参数max_depth=2，
我从max_depth=1逐个尝试到了max_depth=10，发现max_depth=2时误差最小。

4. 总结

决策树回归具有直观、易于理解、易于实现等优点。
生成的决策树可以直观地展示出输入特征与输出结果之间的关系，因此对于非专业人士来说也易于理解。
此外，决策树回归算法相对简单，易于实现，且对数据的预处理要求较低。

然而，决策树回归也存在一些缺点。
首先，它容易过拟合训练数据，特别是当训练数据量较小时；
其次，决策树的性能受划分标准选择的影响较大，不同的划分标准可能会导致生成的决策树性能差异较大；
此外，决策树回归在处理大规模数据时可能会比较耗时，因为需要遍历整个数据集进行训练和预测。

【scikit-learn基础】--『监督学习』之决策树回归的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...

随机推荐

MySQL高级12-事务原理
一.事务概念事务是一组操作的集合,他是一个不可分割的工作单位,事务会把所有操作作为一个整体一起向系统提交或者撤销请求操作,即这些操作要么同时成功,要么同时失败. 二.事务特性原子性(Atomici ...
Vitess全局唯一ID生成的实现方案
为了标识一段数据,通常我们会为其指定一个唯一id,比如利用MySQL数据库中的自增主键. 但是当数据量非常大时,仅靠数据库的自增主键是远远不够的,并且对于分布式数据库只依赖MySQL的自增id无法满足 ...
高效数据传输：Java通过绑定快速将数据导出至Excel
摘要:本文由葡萄城技术团队于博客园原创并首发.转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 前言把数据导出至 Excel 是很常见的需求,而数据的持久化 ...
重温dp——最长上升公共子序列
一道经典的dp了题目描述给出 1,2,-,n 的两个排列 P1 和 P2 ,求它们的最长公共子序列. 输入格式第一行是一个数 n. 接下来两行,每行为 n 个数,为自然数 1,2,-,n 的一 ...
Java服务总在半夜挂，背后的真相竟然是...
写在前面最近有用户反馈测试环境Java服务总在凌晨00:00左右挂掉,用户反馈Java服务没有定时任务,也没有流量突增的情况,Jvm配置也合理,莫名其妙就挂了问题排查问题复现为了复现该问题,写 ...
webpack配置打包
一.webpack基本安装 1.创建webpack项目目录如webpackDemo,并进入webpackDemo; 2. 在node已经安装的前提下,打开命令行控制器,输入如下命令: npm init ...
【Vue3响应式原理#02】Proxy and Reflect
专栏分享:vue2源码专栏,vue3源码专栏,vue router源码专栏,玩具项目专栏,硬核推荐欢迎各位ITer关注点赞收藏背景以下是柏成根据Vue3官方课程整理的响应式书面文档 - 第二节, ...
【Unity】 ScriptableObject ——生成多个ScriptableObject作为子对象，可以点击展开并显示二级菜单
官方是这么介绍ScriptabelObject的: "ScriptableObject 是一个可独立于类实例来保存大量数据的数据容器.ScriptableObject 的一个主要用例是通过避 ...
Senparc 基础库全面适配 .NET 8.0
概要 Senparc 全家桶中的基础库已经全面适配 .NET 8.0,目前随着 .NET 8.0 的 RC 版本不断发布,对应的版本号也将同步进行更新,直到本月 Ignite 大会微软官方发布 .NE ...
DP：摆动序列
问题描述如果一个序列满足下面的性质,我们就将它称为摆动序列: 1. 序列中的所有数都是不大于k的正整数: 2. 序列中至少有两个数. 3. 序列中的数两两不相等: 4. 如果第i – 1个数比第i ...

【scikit-learn基础】--『监督学习』之 决策树回归

1. 算法概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 决策树回归的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之决策树回归

【scikit-learn基础】--『监督学习』之决策树回归的更多相关文章