scikit-learn - 分类模型的评估 (classification

使用说明

参数

sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False)

y_true：1 维数组，真实数据的分类标签
y_pred：1 维数组，模型预测的分类标签
labels：列表，需要评估的标签名称
target_names：列表，指定标签名称
sample_weight：1 维数组，不同数据点在评估结果中所占的权重
digits：评估报告中小数点的保留位数，如果 output_dict=True，此参数不起作用，返回的数值不作处理
output_dict：若真，评估结果以字典形式返回

字符串或字典。

每个分类标签的精确度，召回率和 F1-score。

精确度：precision，正确预测为正的，占全部预测为正的比例，TP / (TP+FP)
召回率：recall，正确预测为正的，占全部实际为正的比例，TP / (TP+FN)
F1-score：精确率和召回率的调和平均数，2 * precision*recall / (precision+recall)

同时还会给出总体的微平均值，宏平均值和加权平均值。

微平均值：micro average，所有数据结果的平均值
宏平均值：macro average，所有标签结果的平均值
加权平均值：weighted average，所有标签结果的加权平均值

在二分类场景中，正标签的召回率称为敏感度（sensitivity），负标签的召回率称为特异性（specificity）。

鸢尾花数据集的随机森林结果评估

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import classification_report

from sklearn.model_selection import train_test_split

# 鸢尾花数据集

iris = load_iris()

X = iris.data

y = iris.target

# [0, 1, 2] 标签转换为名称 ['setosa' 'versicolor' 'virginica']

y_labels = iris.target_names[y]

# 数据集拆分为训练集与测试集

X_train, X_test, y_train, y_test = train_test_split(X, y_labels, test_size=0.2)

# 使用训练集训练模型

clf = RandomForestClassifier(n_estimators=100)

clf.fit(X_train, y_train)

# 使用测试集预测结果

y_pred = clf.predict(X_test)

# 生成文本型分类报告

print(classification_report(y_test, y_pred))

"""

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10

  versicolor       0.83      1.00      0.91        10

   virginica       1.00      0.80      0.89        10

   micro avg       0.93      0.93      0.93        30

   macro avg       0.94      0.93      0.93        30

weighted avg       0.94      0.93      0.93        30

"""

# 生成字典型分类报告

report = classification_report(y_test, y_pred, output_dict=True)

for key, value in report["setosa"].items():

    print(f"{key:10s}:{value:10.2f}")

"""

precision :      1.00

recall    :      1.00

f1-score  :      1.00

support   :     10.00

"""

Reference

作者：难道就靠讲究人情世故
链接：https://www.jianshu.com/p/2a5722d81591
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

scikit-learn - 分类模型的评估 (classification_report)的更多相关文章

(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
笔记︱风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记源于CDA-DSC课程,由常国珍老师主讲 ...
风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
【NLP】蓦然回首：谈谈学习模型的评估系列文章（一）
统计角度窥视模型概念作者:白宁超 2016年7月18日17:18:43 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量. ...
Spark学习笔记——构建分类模型
Spark中常见的三种分类模型:线性模型.决策树和朴素贝叶斯模型. 线性模型,简单而且相对容易扩展到非常大的数据集:线性模型又可以分成:1.逻辑回归:2.线性支持向量机决策树是一个强大的非线性技术, ...
(Stanford CS224d) Deep Learning and NLP课程笔记（三）：GloVe与模型的评估
本节课继续讲授word2vec模型的算法细节,并介绍了一种新的基于共现矩阵的词向量模型--GloVe模型.最后,本节课重点介绍了word2vec模型评估的两种方式. Skip-gram模型上节课,我 ...

随机推荐

Bootstrap中的字体图标
使用 <span class="glyphicon glyphicon-th-large"> XX文字</span>引入字体图标.一般情况下文字放在span ...
关于jenkins的安装及自动部署
1. 安装Jenkins 1.1 准备Linux服务器, 关闭防火墙禁止开机启动 systemctl stop firewalld.service #停止firewall systemctl disa ...
form表单提交的几种方法
form表单提交的几种方法 <form id="myform" name="myform" method="post" onsubmi ...
Luogu P2327 [SCOI2005]扫雷【递推/数学】By cellur925
题目传送门推了好久啊.看来以后要多玩扫雷了qwq. 其实本题只有三种答案:0.1.2. 对于所有第一列,只要第一个数和第二个数确定后,其实整个数列就确定了,我们可以通过这个递推式得出 sec[i-] ...
concurrent包下的Exchanger练习
Exchanger可以在两个线程之间交换数据,只能是2个线程,他不支持更多的线程之间互换数据. 当线程A调用Exchange对象的exchange()方法后,他会陷入阻塞状态,直到线程B也调用了exc ...
CentOS 7静默（无图形化界面）安装Oracle 11g
准备CentOS 7 系统环境我以 CentOS-7-x86_64-DVD-1511.iso 为例,简述Oracle 11g的安装过程. 由于是使用静默模式(silent)安装的,无需使用图形化界面 ...
QString：常用成员函数总结
QString是Qt中使用频率最高的几种数据类型之一,主要在于其提供了大量功能强大的成员函数,这里重点介绍一些常用的成员函数: 一.字符串处理相关 1.1 split() (拆分字符串) split( ...
[2010国家集训队]Crash的旅游计划
Description 眼看着假期就要到了,Crash由于长期切题而感到无聊了,因此他决定利用这个假期和好友陶陶一起出去旅游. Crash和陶陶所要去的城市里有N (N > 1) 个景点,Cra ...
Canny检测理解和Matlab实现
图象的边缘是指图象局部区域亮度变化显著的部分,该区域的灰度剖面一般可以看作是一个阶跃,既从一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值. 1.Canny边缘检测的基本特征 (1) ...
JDK6中System.getProperties返回键值说明
JDK6中java.lang.System.getProperties()方法返回键值说明. 键相关值的描述 java.version Java 运行时环境版本 java.vendor Java 运 ...

scikit-learn - 分类模型的评估 (classification_report)

使用说明

参数

返回

鸢尾花数据集的随机森林结果评估

Reference

scikit-learn - 分类模型的评估 (classification_report)的更多相关文章

随机推荐

热门专题