AUC ROC PR曲线

ROC曲线：

横轴：假阳性率代表将负例错分为正例的概率

纵轴：真阳性率代表能将正例分对的概率

AUC是ROC曲线下面区域得面积。

与召回率对比：

AUC意义：

任取一对（正、负）样本，把正样本预测为1的概率大于把负样本预测为1的概率的概率。基于上述，AUC反映的是分类器对样本的排序能力，如果进行随机预测，那么AUC的值应该为0.5.另外AUC对样本类别是否均衡并不敏感，所以不均衡样本通常使用AUC作为评价分类器的标准。

首先AUC值是一个概率值，当你随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然，AUC值越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

AUC面积的数值不会大于1。ROC曲线一般都处于y=x这条直线的上方-->AUC的取值范围在0.5和1之间

使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

0，1 都靠中心斜线，主要看中间段，中间段正样本排前面的越多，属于正样本的概率值大且这个大概率符合实际情况（真阳性），序列前面大部分都是正样本而模型预测的偏向将它们预测为正样本，负样本排后面，这样曲线就会往左上靠拢，模型的效果就越好

AUC画图例子

假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变“discrimination threashold”？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率。

接下来，我们从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。每次选取一个不同的threshold，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。这样一来，我们一共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

为什么要使用ROC和AUC呢？

ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。

AUC对样本类别是否均衡并不敏感，所以不均衡样本通常使用AUC作为评价分类器的标准。

http://alexkong.net/2013/06/introduction-to-auc-and-roc/

PR曲线

　　P-R图直观地显示出学习器在样本总体上的查全率和查准率。在进行比较时，若一个学习器的P-R曲线完全被另一个学习器的曲线完全“包住”，则我们就可以断言后者的性能优于前者。

准确率(accuracy),其定义是: 对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。不适合不平衡数据

Precision 和Recall

　　查准率精确率Precision 是指分类器分类正确的正样本的个数占该分类器所有分类为正样本个数的比例。

　　查全率召回率Recall是指分类器分类正确的正样本个数占所有的正样本个数的比例。

　　在很多情况下，我们可以根据学习器的预测结果对样例进行排序，排在前面的是学习器认为最可能是正例的样本，排在后面的是学习器认为最不可能是正例的样本，按此顺序逐个把样本作为正例进行预测，则每次可计算当前的查全率和查准率，以查准率为y轴，以查全率为x轴，可以画出下面的P-R曲线。

　在linear model中，我们对各个特征线性组合，得到linear score,然后确定一个threshold，linear score ＜ threshold 判为负类，linear score ＞ threshold 判为正类。画PR曲线时，我们可以想象threshold 是不断变化的。首先，threshold 特别大，这样木有一个是正类，我们计算出查全率与查准率；然后 threshold 减小，只有一个正类，我们计算出查全率与查准率；然后 threshold再减小，有2个正类，我们计算出查全率与查准率；threshold减小一次，多出一个正类，直到所有的类别都被判为正类。然后以查全率为横坐标，差准率为纵坐标，画出图形即可。

例如，有

实际类别	linear score	threshold 为6	threshold 为5	threshold 为4	threshold 为3	threshold 为2	threshold 为1
+	5.2	-	+	+	+	+	+
+	4.45	-	-	+	+	+	+
-	3.5	-	-	-	+	+	+
-	2.45	-	-	-	-	+	+
-	1.65	-	-	-	-	-	+
		0/0	1 / 1	2 / 2	2 / 3	2 / 4	2 / 5	查准率
		0/2	1 / 2	2 / 2	2/ 2	2 / 2	2/ 2	差全率
		0/2	1/2	2/2	2/2	2/2	2/2	TPR
			0/3	0/3	1/3	2/3	3/3	FPR

　　绘制pr曲线代码

import matplotlib

import numpy as np

import matplotlib.pyplot as plt

Recall = np.array([0,1/2,2/2,2/2,2/2,2/2])

Precison = np.array([1/1,2/2,2/3,2/4,2/5,0])

plt.figure()

plt.ylim(0,1.1)

plt.xlabel("Recall")

plt.xlim(0,1.1)

plt.ylabel("Precison")

plt.plot(Recall,Precison)

plt.show()

ROC和PR曲线的选择

　　如果负样本对于问题没有多大价值，或者负样本比例很大。那么，PR曲线通常更合适。

比如样本正负比例非常不平衡，且正样本非常少，那我们使用PR曲线。举个例子：欺诈检测，其中非欺诈样本可能为10000，而欺诈样本可能低于100。

　　否则ROC会更有用

AUC ROC PR曲线的更多相关文章

PR曲线，ROC曲线，AUC指标等，Accuracy vs Precision
作为机器学习重要的评价指标,标题中的三个内容,在下面读书笔记里面都有讲: http://www.cnblogs.com/charlesblc/p/6188562.html 但是讲的不细,不太懂.今天又 ...
Mean Average Precision（mAP）,Precision，Recall，Accuracy，F1_score，PR曲线、ROC曲线，AUC值，决定系数R^2 的含义与计算
背景之前在研究Object Detection的时候,只是知道Precision这个指标,但是mAP(mean Average Precision)具体是如何计算的,暂时还不知道.最近做OD的任 ...
查全率（Recall），查准率（Precision），灵敏性（Sensitivity），特异性（Specificity），F1，PR曲线，ROC，AUC的应用场景
之前介绍了这么多分类模型的性能评价指标(<分类模型的性能评价指标(Classification Model Performance Evaluation Metric)>),那么到底应该选 ...
精确率与召回率，RoC曲线与PR曲线
在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口 ...
ROC曲线和PR曲线
转自:http://www.zhizhihu.com/html/y2012/4076.html分类.检索中的评价指标很多,Precision.Recall.Accuracy.F1.ROC.PR Cur ...
【ROC曲线】关于ROC曲线、PR曲线对于不平衡样本的不敏感性分析说引发的思考
ROC曲线在网上有很多地方都有说ROC曲线对于正负样本比例不敏感,即正负样本比例的变化不会改变ROC曲线.但是对于PR曲线就不一样了.PR曲线会随着正负样本比例的变化而变化.但是没有一个有十分具体和 ...
机器学习之类别不平衡问题 (2) —— ROC和PR曲线
机器学习之类别不平衡问题 (1) -- 各种评估指标机器学习之类别不平衡问题 (2) -- ROC和PR曲线完整代码 ROC曲线和PR(Precision - Recall)曲线皆为类别不平衡问题 ...
ROC，AUC，PR，AP介绍及python绘制
这里介绍一下如题所述的四个概念以及相应的使用python绘制曲线: 参考博客:http://kubicode.me/2016/09/19/Machine%20Learning/AUC-Calculat ...
ROC曲线和PR曲线绘制【转】
TPR=TP/P :真正率:判断对的正样本占所有正样本的比例. Precision=TP/(TP+FP) :判断对的正样本占判断出来的所有正样本的比例 FPR=FP/N :负正率:判断错的负样本占所 ...

随机推荐

BoyerMoore(BM)算法--C#
因项目需要使用字符串查询算法,在网上搜搜了半天,没有找到C#版的. 索性根据BM机制,用C#实现了一遍.现在贴出了,以备忘记. /// <summary> /// BM算法 /// < ...
【scala】可变与不可变的理解
我们定义变量的时候分为var可变变量和val不可变变量. 我们使用容器的时候也分为可变容器和不可变容器. List和Tuple本身就是不可变的,set和map分为可变和不可变的,默认为不可变. 我们看 ...
【2018年全国多校算法寒假训练营练习比赛(第五场)-E】情人节的电灯泡(二维树状数组单点更新+区间查询)
试题链接:https://www.nowcoder.com/acm/contest/77/E 题目描述情人节到了,小芳和小明手牵手,打算过一个完美的情人节,但是小刚偏偏也来了,当了一个明晃晃的电灯泡 ...
Node net模块与http模块一些研究
这周遇到一个有意思的需求,端上同学希望通过 socket 传送表单数据(包含文件内容)到 node 端,根据表单里的文件名.手机号等信息将文件数据保存下来.于是我这样写了一下--socket_serv ...
Struts10---拦截器
01.创建一个登录界面 <%@ page language="java" import="java.util.*" pageEncoding=" ...
解决pip安装太慢的问题
经常在使用Python的时候需要安装各种模块,而pip是很强大的模块安装工具,但是由于国外官方pypi经常被墙,导致不可用,所以我们最好是将自己使用的pip源更换一下,这样就能解决被墙导致的装不上库的 ...
boost库之 shared_ptr学习笔记
HDU - 5289：Assignment（单调队列||二分+RMQ||二分+线段树）
Tom owns a company and he is the boss. There are n staffs which are numbered from 1 to n in this com ...
【spring源码学习】spring的IOC容器在初始化bean过程
[一]初始化IOC的bean的时候Spring会执行的一些回调方法 (1)spring bean创建的前置处理 =>ApplicationContextAwareProcessor 在创建bea ...
转发一篇关于django模型详解的一篇好的博客
http://blog.csdn.net/pipisorry/article/details/45725953

AUC ROC PR曲线

AUC ROC PR曲线的更多相关文章

随机推荐

热门专题