目标可视化工具专门用于直观地描述用于监督建模的因变量,通常称为y目标. 代码下载 当前实现了以下可视化: 平衡箱可视化Balanced Binning:生成带有垂直线的直方图,垂直线显示推荐值点,以将数据装箱到均匀分布的箱中. 类平衡Class Balance:可视化来检查目标,以显示每个类对最终估计器的支持. 特征相关Feature Correlation:绘制特征和因变量之间的相关性. 文章目录 1 平衡箱可视化Balanced Binning 1.1 基本使用 1.2 快速方法 2 类平衡…
聚类模型是试图检测未标记数据中模式的无监督方法.聚类算法主要有两类:聚集聚类将相似的数据点连接在一起,而质心聚类则试图在数据中找到中心或分区.Yellowbrick提供yellowbrick.cluster用于可视化和评估群集行为的模块.目前,我们提供了几种可视化工具来评估质心机制,特别是K均值聚类,帮助我们发现聚类度量中的最佳K参数. 代码下载 主要方法如下: Elbow Method:根据某个评分函数对聚类进行可视化,在曲线中寻找"Elbow". Silhouette Visual…
分类模型试图在一个离散的空间中预测一个目标,即为一个因变量实例分配一个或多个类别. 代码下载 分类分数可视化工具显示类之间的差异以及一些特定于分类器的可视化评估.我们目前已经实施了以下分类器评估: 分类报告Classification Report:视觉分类报告,将每个类别的精度,召回率和F1显示为热图. 混淆矩阵Confusion Matrix:多类分类中混淆矩阵的热图视图. ROCAUC: 绘制训练器的工作特性和曲线下面积 Precision-Recall曲线:绘制不同概率阈值的精度和召回率…
回归模型试图预测连续空间中的目标.回归计分可视化工具显示模型空间中的实例,以便更好地理解模型是如何进行预测的.代码下载 Yellowbrick已经实施了三种回归评估: 残差图Residuals Plot:绘制期望值与实际值之间的差 预测误差图Prediction Error Plot:在模型空间中绘制期望值与实际值 alpha选择:视觉调整正则化超参数 库克距离Cook's Distance:描述了单个样本对整个回归模型的影响程度 Estimator score Visualizer包装Scik…
Yellowbrick可视化工具旨在指导模型选择过程.一般来说,模型选择是一个搜索问题,定义如下:给定N个由数值属性描述的实例和(可选)一个估计目标,找到一个由特征.算法和最适合数据的超参数组成的三元组描述的模型.在大多数情况下,"最佳"三元组是指收到模型类型的最佳交叉验证分数的三元组. 代码下载 Yellowbrick.model_select包提供了可视化工具,用于检查交叉验证和超参数调优的性能. 许多可视化工具包装sklearn.model_select和其他工具中的功能,用于执…
Yellowbrick是一个机器学习可视化库,主要依赖于sklearn机器学习库,能够提供多种机器学习算法的可视化,主要包括特征可视化,分类可视化,回归可视化,回归可视化,聚类可视化,模型选择可视化,目标可视化,文字可视化.本节主要介绍Yellowbrick如何快速使用. 代码下载 文章目录 1 使用说明 1.1 背景介绍 1.2 Yellowbrick简单说明 1.3 演练 2 yellowbrick数据集 3 参考 1 使用说明 1.1 背景介绍 Yellowbrick有两个主要依赖项:sc…
特征分析可视化工具设计用于在数据空间中可视化实例,以便检测可能影响下游拟合的特征或目标.因为ML操作高维数据集(通常至少35个),可视化工具将重点放在聚合.优化和其他技术上,以提供对数据的概述.这是Yellowbrick的意图,指导过程将允许数据科学家缩放和过滤,并探索他们的实例和维度之间的关系. 代码下载 目前,我们实现了以下功能分析可视化工具: 特征排名Rank Features:对单个特征和成对特征进行排名以检测协方差 RadViz Visualizer:沿围绕圆形排列的轴绘制数据点以检测…
在本教程中,我们将查看各种Scikit Learn模型的分数,并使用Yellowbrick的可视化诊断工具对它们进行比较,以便为我们的数据选择最佳的模型. 代码下载 文章目录 1 使用说明 1.1 模型选择三原则 1.2 关于数据 1.3 特征提取 1.4 建模与评估 1.4.1 评估分类器的通用指标 1.4.2 视觉模型评估 2 参考 1 使用说明 1.1 模型选择三原则 关于机器学习的讨论通常以单一的模型选择为特点.不管是logistic回归.随机森林.贝叶斯方法,还是人工神经网络,机器学习…
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 降维技术的用途 使得数据集更易使用: 降低很多算法的计算开销: 去除噪声: 使得结果易懂. 基本概念 降维(dimensionality reduction). 如果样本数据的特征维度很大,会使得难以分析和理解.我们可以通过降维技术减少维度. 降维技术并不是将影响少的特征去掉,而是将样本数据集转换成一个低维度…
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growth算法 FP-growth算法的性能很好,只需要扫描两次数据集,就能生成频繁项集.但不能用于发现关联规则. 我想应该可以使用Apriori算法发现关联规则. FP代表频繁模式(Frequent Pattern). 条件模式基(conditional pattern base). 条件模式基是以所查找元素项为结…