ROC和AUC的区别

ROC是一个曲线，AUC是曲线下面的面积值。

ROC曲线是FPR和TPR的点连成的线。

可以从上面的图看到，横轴是FPR, 纵轴是TPR （TPR = TP / (TP + FN)；FPR = FP / (FP + TN)）

ROC曲线如果想要理解的话，要关注四点一线：

1） (0,1)点：FPR==0，TPR==1 -->代表最好的一种情况，即所有的正例都被正确预测了，并且，没有负例被错认为正例。

2） (1,0)点：--> 代表最差的一种情况，所有的正例都看错了。

3） (0,0)点： --> 分类器将所有的样本都认为是负样本。

4） (1,1)点： --> 分类器将所有的样本都认为是正样本。

5） y=x曲线： --> 随机猜测出来可得这样一个曲线。

形象的理解一下：

1）商品推荐：重在覆盖度，所以更加注重True Positive的高，这个越高越好。False Positive这个不那么低也可以接受。

2）嫌犯预测：重在准确，更加注重False Positive的低。

PR曲线是准确率和召回率的点连成的线。

可以看到，左边的图是ROC曲线，右边的图是PR曲线。

ROC曲线，越左上凸越好; 因为这个ROC想要True Positive高，False Positive小。

PR曲线，越右上凸越好。 PR想要Recall和Precision同时高。

当样本分布极不均衡的时候，哪个曲线表现的更好呢？

先看两个公式：

1） TPR = TP / (TP + FN)；

2） FPR = FP / (FP + TN)

在ROC曲线中，这两个指标构成了最后的曲线。

如果，样本极不均衡。这里假设，正样本非常少，负样本非常多。

如果是这样的话，则TN会非常大，将FPR拉低，最后的曲线会表现的非常好。

这时候，再看看PR曲线，也许这个曲线就没有表现的那么好。

所以，有的时候，光看一个曲线是不能完全覆盖所有的情况的。

如何画ROC曲线？

如上图所示，假如我有20个测试样本，将预测的概率由大到小排列一下。

然后，分别用这个score作为阈值，大于0.9的作为正类，小于0.9的作为负类，这样的话，就有20组TP,FN等的值了。

这样就可以画出来一个曲线。

如果曲线不是特别平滑的话，那么很可能存在过拟合的情况。

ROC和AUC的区别的更多相关文章

查全率（Recall），查准率（Precision），灵敏性（Sensitivity），特异性（Specificity），F1，PR曲线，ROC，AUC的应用场景
之前介绍了这么多分类模型的性能评价指标(<分类模型的性能评价指标(Classification Model Performance Evaluation Metric)>),那么到底应该选 ...
机器学习-Confusion Matrix混淆矩阵、ROC、AUC
本文整理了关于机器学习分类问题的评价指标——Confusion Matrix.ROC.AUC的概念以及理解. 混淆矩阵在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型 ...
ROC和AUC介绍以及如何计算AUC ---好！！！！
from:https://www.douban.com/note/284051363/?type=like 原帖发表在我的博客:http://alexkong.net/2013/06/introduc ...
Area Under roc Curve(AUC)
AUC是一种用来度量分类模型好坏的一个标准. ROC分析是从医疗分析领域引入了一种新的分类模型performance评判方法. ROC的全名叫做Receiver Operating Character ...
【转】ROC和AUC介绍以及如何计算AUC
转自:https://www.douban.com/note/284051363/ ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器( ...
ROC和AUC介绍以及如何计算AUC
原文:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ 为什么使用ROC曲线既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因 ...
ROC和AUC理解
一. ROC曲线概念二分类问题在机器学习中是一个很常见的问题,经常会用到.ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under th ...
信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
原文地址:http://blog.csdn.net/pkueecser/article/details/8229166 在信息检索.分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常 ...
评估分类器性能的度量，像混淆矩阵、ROC、AUC等
评估分类器性能的度量,像混淆矩阵.ROC.AUC等内容概要¶ 模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵(confusion matrix)是如何表示一个分类器的性能混淆矩阵 ...

随机推荐

Ubuntu开启ApacheRewrite功能
参考原文 : http://www.knowsky.com/888354.html 1.安装好apache2之后,手动命令启用执行加载Rewrite模块: a2enmod rewrite 执行 ...
SQL注入详解
SQL是一种将SQL代码添加到输入参数中,传递到SQL服务器解析并执行的一种攻击手段产生的原因 web开发人员无法保证所有输入都已经安全过滤攻击者利用发送给SQL服务器的输入数据,构造可执行的SQ ...
JavaScript 数组基本操作
简介数组操作无论是在JavaScript中还是在其他语言中都是很常见.经常会用到的,现在我把JavaScript 数组基本操作整理一下,供大家参考学习.里边包含我自己的见解以及案例,希望能够帮助大家 ...
几种文件查找命令，whereis ,find ,locate.
whereis对于文件的查找,是将系统内的所有文件放在一个数据库文件里.whereis 和 locate 都是以该数据库为准的(由于每个数据库会有一个更新时间,一般在更新时间之后才可以找到).而fin ...
NLP论文泛读之《教材在线评论的情感倾向性分析》
NLP论文泛读之<教材在线评论的情感倾向性分析> 本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性分析, 从而辅助商家和出版社改进教材的质量.制定 ...
mysql数据库第一弹
mysql(一) sql语句 sql是Structured Query Language(结构化查询语言)的缩写.SQL是专为数据库而建立的操作命令集,是一种功能齐全的数据库语言. 在使用它时,只需要 ...
Python的路径引用
1.以HOME目录为准,进行跳转 sys.path.append(os.path.dirname(__file__) + os.sep + '../') from config import swor ...
照虎画猫写自己的Spring
从细节跳出来看了部分Spring的代码,前面用了四篇内容写了一些读书笔记. 回想起来,论复杂度,Spring够喝上好几壶的.他就像一颗枝繁叶茂的大树,远处看,只是一片绿:走近看,他为你撑起一片小天地 ...
Kaggle实战之一回归问题
0. 前言 1.任务描述 2.数据概览 3. 数据准备 4. 模型训练 5. kaggle实战 0. 前言 "尽管新技术新算法层出不穷,但是掌握好基础算法就能解决手头 90% 的机器学习问题 ...
我从.net转到java的心得和体会
前言:由于有不少人咨询过我如果从.net转java,有什么技巧吗,我现在就分享我从.net转java的历程,这里不涉及两门语言的比较,记录的都是我个人的观点. 一:从.net转java的初衷我是20 ...

ROC和AUC的区别

ROC和AUC的区别的更多相关文章

随机推荐

热门专题