Python数据科学手册-机器学习: 决策树与随机森林

llcl 2024-08-27 12:31:03 原文

无参数算法随机森林

随机森林是一种集成方法，集成多个比较简单的评估器形成累计效果。

导入标准程序库

随机森林的诱因：决策树

随机森林是建立在决策树基础上的集成学习器

建一颗决策树

二叉决策树

在一颗合理的决策书中。每个问题基本上都可将种类的可能性减半。

决策树的难点在于如何设计每一步的问题。

创建一颗决策树

原始数据：四种标签

使用DecisionTreeClassifier评估器

辅助函数，分类器结果可视化

检查决策树分类的结果

在深度为5的时候，在黄色与蓝色区域中间有一个浅紫色区域，这显然不是根据数据本身的分布情况生成的正确分类结果，

而更像是一个特殊的数据样本或数据噪音形成的干扰结果。也就是数据出现了过拟合

决策树和过拟合

训练俩颗不同的决策树，每颗树拟合一半数据。

在一些区域，俩颗树产生了一致的结果，将俩颗树的结果组合起来。会获得更好的结果

评估器集成算法：随机森林

通过组合多个过拟合评估器来降低过拟合成都的想法其实是一种集成学习方法，称为装袋算法。

每个评估器都对数据过拟合，通过求均值可以获得更好的分类结果。

随机决策树的集成算法就是随机森林

使用BaggingClassifier元评估器来实现这种装袋分类器

每个评估器拟合样本80%的随机数，其实如果我们用随机方法确定数据的分割方式，决策树拟合的随机性会更有型。这样可以让所有数据在每次训练时都被拟合，但拟合的结果却仍然是随机的。

使用RandomForestClassifier评估器，会自动进行随机化决策。

随机森林回归

随机森林可以用作回归，处理连续变量，不是离散变量。

评估器是 RandomForestRegressor .

原始数据：快慢震荡组合

使用随机森林回归器，可以获得下面的最佳拟合曲线

真实模型是平滑曲线。随机森林模型是锯齿线，

案例：用随机森林识别手写数字

用随机森林快速对数字进行分类

查看分类报告

混淆矩阵

Python数据科学手册-机器学习: 决策树与随机森林的更多相关文章

Python数据科学手册-机器学习：朴素贝叶斯分类
朴素贝叶斯模型朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集.因为运行速度快,可调参数少.是一个快速粗糙的分类基本方案. naive Bayes classifiers 贝 ...
Python数据科学手册-机器学习介绍
机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过 ...
Python数据科学手册-机器学习: 支持向量机
support vector machine SVM 是非常强大. 灵活的有监督学习算法, 可以用于分类和回归. 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计新数据点的标签.是属于 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...
Python数据科学手册-机器学习: 主成分分析
PCA principal component analysis 主成分分析是一个快速灵活的数据降维无监督方法, 可视化一个包含200个数据点的二维数据集 x 和 y有线性关系,无监督学习希望探索x值 ...
Python数据科学手册-机器学习：线性回归
朴素贝叶斯是解决分类任务的好起点,线性回归是解决回归任务的好起点. 简单线性回归将数据拟合成一条直线. y = ax + b , a 是斜率, b是直线截距原始数据如下: 使用LinearRegr ...
Python数据科学手册-机器学习之特征工程
特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程被叫做向量化.把任意格式的数据转换成具有良好特性的向量形式. 分类特征比如房屋数 ...
Python数据科学手册-机器学习之模型验证
模型验证 model validation 就是在选择模型和超参数之后.通过对训练数据进行学习.对比模型对已知数据的预测值和实际值的差异. 错误的模型验证方法. 用同一套数据训练和评 ...

随机推荐

Linux操作系统（7）：rpm包管理和yum软件包在线管理
一.rpm 包的管理介绍:一种用于互联网下载包的打包及安装工具,它包含在某些 Linux 分发版中.它生成具有.RPM 扩展名的文件.RPM 是 RedHat Package Manager(Red ...
IDEA的项目结构和IDEA的HelloWord
IDEA首次驱动 1. 选择不导入任何设置,点击 OK 2. 选择 Create New Project 3. 点击 new 按钮,配置安装的 JDK9 版本选择 JDK9 目录,点击确定 4. 不 ...
选择结构-单if语句和标准if else语句
判断语句1--if if语句第一种格式: if if(关系表达式){ 语句体; } 执行流程首先判断关系表达式看其结果是true还是false 如果是true就执行语句体如果是false就不执行语 ...
C++记录一
题目一: [描述] 比较两个整数之间的大于.小于.等于.不等于关系. [输入] 输入在一行中给出2个整数a和b. [输出] 分行输出整数a和b之间的大于.小于.等于.不等于关系. [输入示例] 5 3 ...
hive SQL 初学者题目，实战题目字符串函数，日期拼接，开窗函数。。。。
sql:Hive实现按照指定格式输出每七天的消费平均数输出格式:2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 答案:-- 1.先将 ...
ActiveMQ、RabbitMQ、RocketMQ、Kafka四种消息中间件分析介绍
ActiveMQ.RabbitMQ.RocketMQ.Kafka四种消息中间件分析介绍我们从四种消息中间件的介绍到基本使用,以及高可用,消息重复性,消息丢失,消息顺序性能方面进行分析介绍! 一.消息 ...
prim最小生成树算法（堆优化）
prim算法原理和dijkstra算法差不多,依然不能处理负边 1 #include<bits/stdc++.h> 2 using namespace std; 3 struct edge ...
IM系统-消息流化一些常见问题
原创不易,求分享.求一键三连之前说过IM系统的一些优化,但是在网络上传输数据对于数据的流化和反流化也是处理异常情况的重点环节,不处理好可能会出现一些消息发送成功,但是解析失败的情况,本文就带大家来一 ...
js屏蔽浏览器默认事件
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
SqlServer获取当前日期的详细写法
SqlServer获取当前日期1. 获取当前日期 select GETDATE()格式化: select CONVERT(varchar,GETDATE(),120) --2018-04-23 14: ...