sklearn.metrics.roc_curve使用说明

roc曲线是机器学习中十分重要的一种学习器评估准则，在sklearn中有完整的实现，api函数为sklearn.metrics.roc_curve(params)函数。

官方接口说明：http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html

不过这个接口只限于进行二分类任务。！

下面主要是对官方接口做一下翻译。

接口函数 sklearn.metrics.roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=True)

参数说明

　　　　y_true：数组，存储数据的标签，维度就是样本数，形如[0,1,1,0,1...]这样的，也可以是-1和1，只要有两个值

　　　　y_score：数组，存储数据的预测概率值，维度也是样本数，形如[0.38,0.5,0.8]这样的

　　　　pos_label：整型或字符串，当y_true中只有一个值时，比如都是1或者都是0，无法判断哪个是正样本，需要用一个数字或字符串指出

　　　　sample_weight：采样权重，这个官方没有仔细说，是一个可选参数，有待考察

　　　　drop_intermediate：丢掉一些阈值，以便画roc曲线图

返回值：一共三个，分别是fpr,tpr,thresholds

　　　　fpr：数组，随阈值上涨的假阳性率

　　　　tpr：数组，随阈值上涨的真正例率

　　　　thresholds：数组，对预测值排序后的score列表，作为阈值，排序从大到小

举例

>>> import numpy as np

>>> from sklearn import metrics

>>> y = np.array([1, 1, 2, 2])

>>> scores = np.array([0.1, 0.4, 0.35, 0.8])

>>> fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)

>>> fpr

array([ 0. ,  0.5,  0.5,  1. ])

>>> tpr

array([ 0.5,  0.5,  1. ,  1. ])

>>> thresholds

array([ 0.8 ,  0.4 ,  0.35,  0.1 ])

解释一下，样本标签为y，共有1和2两个值，预测值为scores，里面是预测为正样本的概率，正样本是什么呢，在函数中通过pos_label指定为2，然后便将score排序，

由大到小，也就有了后面的thresholds，按照这个顺序，依次将前面的样本预测为正样本，后面为负样本，这里看一下样本标签和预测值的一一对应

[1,1,2,2]->[0.1,0.4,0.35,0.8]，共有两个正样本，两个负样本

以0.8为阈值，第一个假设为正样本，后面三个假设为负样本，0.8对应的确实为正样本，则真正例率为1/2，假阳性率为0，因为没有负样本被误判为正样本

然后以0.4为阈值，前两个假设为正样本，后两个假设为负样本，0.4对应的为负样本，则真正例数没有增加，于是仍为0.5，而假阳性增加一例，此时假阳性率为1/2

后面的依此类推，这就是这个api的基本使用说明。

补充下：tpr=tp/所有正样本，fpr=fp/所有负样本

sklearn.metrics.roc_curve使用说明的更多相关文章

sklearn.metrics.roc_curve
官方网址:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics 首先认识单词:metrics: ['mɛ ...
sklearn.metrics中的评估方法
https://www.cnblogs.com/mindy-snail/p/12445973.html 1.confusion_matrix 利用混淆矩阵进行评估混淆矩阵说白了就是一张表格- 所有正 ...
sklearn.metrics中的评估方法介绍（accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix）
1 accuracy_score:分类准确率分数是指所有分类正确的百分比.分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型.常常误导初学 ...
Python Sklearn.metrics 简介及应用示例
Python Sklearn.metrics 简介及应用示例利用Python进行各种机器学习算法的实现时,经常会用到sklearn(scikit-learn)这个模块/库. 无论利用机器学习算法进行 ...
[sklearn]性能度量之AUC值（from sklearn.metrics import roc_auc_curve）
原创博文,转载请注明出处! 1.AUC AUC(Area Under ROC Curve),即ROC曲线下面积. 2.AUC意义若学习器A的ROC曲线被学习器B的ROC曲线包围,则学习器B的性能优于 ...
sklearn.metrics.mean_absolute_error
注意多维数组 MAE 的计算方法 * >>> from sklearn.metrics import mean_absolute_error >>> y_true ...
量化预测质量之分类报告 sklearn.metrics.classification_report
classification_report的调用为:classification_report(y_true, y_pred, labels=None, target_names=None, samp ...
sklearn 下距离的度量 —— sklearn.metrics
1. pairwise from sklearm.metrics.pairwise import pairwise_distance 计算一个样本集内部样本之间的距离: D = np.array([n ...
sklearn.metrics import precision_recall_fscore_support
二分类/多分类/多标签对于二分类来说,必须定义一些matrics(f1_score,roc_auc_score).在这些case中,缺省只评估正例的label,缺省的正例label被标为1(可以通过 ...

随机推荐

leetcode423
public class Solution { public string OriginalDigits(string s) { ]; ; i < s.Length; i++) { char c ...
kvm iptables 3306端口
# iptables -t nat -A PREROUTING -p TCP --dport 3306 -j DNAT --to-destination 192.168.122.102:3306# i ...
NSThread 基本使用
一.简介 (1)使用NSThread对象建立一个线程非常方便 (2)但是!要使用NSThread管理多个线程非常困难,不推荐使用 (3)技巧!使用[NSThreadcurrentThread]跟踪任务 ...
Navicat断网时连不上数据库
最近安装了破解的Navicat,在有网的条件下可以连接本地安装的MySQL数据库,但断网之后就不可以,如下: 于是上网查资料,发现原因为: localhost可以看成是一个域名,在一大部分情况下,它能 ...
C#如何解析JSON数据（反序列化对象）
第一章:C#如何拿到从http上返回JSON数据? 第二章:C#如何解析JSON数据?(反序列化对象) 第三章:C#如何生成JSON字符串?(序列化对象) 第四章:C#如何生成JSON字符串提交给接口 ...
AbstractFactoryPattern（23种设计模式之一）
设计模式六大原则(1):单一职责原则设计模式六大原则(2):里氏替换原则设计模式六大原则(3):依赖倒置原则设计模式六大原则(4):接口隔离原则设计模式六大原则(5):迪米特法则设计模式六大 ...
Luogu 3466 [POI2008]KLO-Building blocks
BZOJ 1112. 题意相当于在一个长度为$k$的区间内选择一个数$s$使$\sum_{i = 1}^{k}\left | a_i - s \right |$最小. 很显然是中位数. 然后只要写一个 ...
js获取指定小时日期格式化
不得不感叹一下,聪明的程序员写的代码真是让人惊奇找了一圈格式化代码的方式,下面的这个使用了一个 slice 函数,真是厉害 https://stackoverflow.com/questions/4 ...
SDUT 3401 数据结构实验之排序四：寻找大富翁.！
数据结构实验之排序四:寻找大富翁 Time Limit: 150MS Memory Limit: 512KB Submit Statistic Problem Description 2015胡润全球 ...
关于集合的小demo
/*1.分析以下需求,并用代码实现: (1)有如下代码: (2)定义方法统计集合中指定元素出现的次数,如"e" 3,"f" 2,"g" 4* ...

sklearn.metrics.roc_curve使用说明

sklearn.metrics.roc_curve使用说明的更多相关文章

随机推荐

热门专题