Handling skewed data---trading off precision& recall

preision与recall之间的权衡

依然是cancer prediction的例子，预测为cancer时，y=1;一般来说做为logistic regression我们是当h_θ(x)>=0.5时，y=1;

当我们想要在预测cancer更确信时(因给病人说他们有cancer会给他们带来很重大的影响，让他们去治疗，所以想要更确信时再告诉病人cancer的预测): 我们可以将阀值设为0.7,这时我们将有一个高的precision（因为标注出有cancer的都是很确信的）,和一个低值的recall；如果将threshold设为0.9--->高的precision,和一个低值的recall

当我们希望避免漏掉患有cancer的病人时(避免假阴性，即我们不希望一个病人有cancer,但是我们却没有告诉他，耽误了他的治疗):将threshold设为0.3，这时我们得到一个低的precision（标出有cancer的有很多都是实际上被误标的）和一个高的recall(因为绝大多数的cancer都被标注出来了).

因此对于大多数的回归模型，我们需要权衡precision与recall。

precision&recall曲线(随着threshold的改变而改变)如上图右边所示，precision&recall曲线有很多种可能性，取决于具体的算法。

那么我们可以自动选取合适的threshold吗？

如何选择合适的threshold

以上三个算法的threshold值不同，即precision与recall值不同，那么我们应该选择上面三个模型中的哪个模型呢？----我们需要一个评估试题值(evaluation metric)来进行衡量。

precison与recall不能做为evaluation metric,因为它们是不同的两个数字（此消彼长）。

如果我们使用平均值来做为这个evaluation metric: 可以看到算法3的平均值是最大的，但是算法3不是一个好的算法，因为我们可以通过将所有的y预测为1(即将threshold降低)来达到高的recall,低的precision,这显然不是一个好的算法，但是它却有很好的average，故我们不能使用average来做为evaluation metric。

F score(或者F₁ score): 在机器学习中常用的来衡量precision与recall的evaluation metric(用来选择threshold),当precison与recall中有一个很小时，通过这个公式得到的F值也会很小，这样就防止了我们上面提到的用average来衡量的错误。即只要F值是大的，则precision与recall都较大。

如果precision或者recall有一个为0，F值就为0;如果是很完美的模型，即precision与recall都为1的话，则F值也为1,故现实中F值的范围在0-1之间。

总结

precision与recall之间的权衡(通过变动threshold来变动它们的值)
不同的threshold对应不同的precison与recall,如何选择合适的threshold来得到好的模型(通过F值在cross validation集上进行模型选择)
如果想自动选择threshold，则试试一系列的不同的threshold,在cross validation上进行选择

Handling skewed data---trading off precision& recall的更多相关文章

Handling skewed data---Error metrics for skewed(偏斜的) classes(precision&recall)
skewed classes skewed classes: 一种类里面的数量远远高于(或低于)另一个类,即两个极端的情况. 预测cancer的分类模型,如果在test set上只有1%的分类误差的话 ...
机器学习：评价分类结果（Precision - Recall 的平衡、P - R 曲线）
一.Precision - Recall 的平衡 1)基础理论调整阈值的大小,可以调节精准率和召回率的比重: 阈值:threshold,分类边界值,score > threshold 时分类为 ...
评价指标整理：Precision, Recall, F-score, TPR, FPR, TNR, FNR, AUC, Accuracy
针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision.Recall.F-score(F1-measure)TPR.FPR.TNR.FNR.AUCAccuracy 真实结果 1 ...
Keras 处理不平衡的数据的分类问题 imbalance data 或者 highly skewed data
处理不平衡的数据集的时候,可以使用对数据加权来提高数量较小类的被选中的概率,具体方式如下 fit(self, x, y, batch_size=32, nb_epoch=10, verbose=1, ...
查准与召回（Precision & Recall）
Precision & Recall 先看下面这张图来理解了,后面再具体分析.下面用P代表Precision,R代表Recall 通俗的讲,Precision 就是检索出来的条目中(比如网页) ...
TP Rate ,FP Rate, Precision, Recall, F-Measure, ROC Area,
TP Rate ,FP Rate, Precision, Recall, F-Measure, ROC Area, https://www.zhihu.com/question/30643044 T/ ...
Classification week6: precision & recall 笔记
华盛顿大学 machine learning :classification 笔记第6周 precision & recall 1.accuracy 局限性我们习惯用 accuracy ...
Precision,Recall,F1的计算
Precision又叫查准率,Recall又叫查全率.这两个指标共同衡量才能评价模型输出结果. TP: 预测为1(Positive),实际也为1(Truth-预测对了) TN: 预测为0(Negati ...
目标检测的评价标准mAP, Precision, Recall, Accuracy
目录 metrics 评价方法 TP , FP , TN , FN 概念计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 A ...

随机推荐

在ensp中RSTP基础设置
为什么我们要有rstp? rstp就是stp的加强版实验模拟内容搭建拓扑相关参数(实验的时候看看自己的mac地址可能与我的并不同) 我们开始配置RSTP基本功能,由于交换机默认开启MSTP,所有 ...
LeetCode 653. 两数之和 IV - 输入 BST(Two Sum IV - Input is a BST)
653. 两数之和 IV - 输入 BST 653. Two Sum IV - Input is a BST 题目描述给定一个二叉搜索树和一个目标结果,如果 BST 中存在两个元素且它们的和等于给定 ...
Idea破解到2100年的简单方法
第一步下载IntelliJ IDEA 2018.1.6版本,比这个更新的版本得你自己找注册码,因为旧的注册码对最新版本的软件不管用,所以建议还是下载这个版本,或者这个版本之前的也可以: 地址:http ...
python 之 Django框架(ORM常用字段和字段参数、关系字段和和字段参数)
12.324 Django ORM常用字段 .id = models.AutoField(primary_key=True):int自增列,必须填入参数 primary_key=True.当model ...
Django的Xadmin使用
Django Xadmin 通常在实际的开发当中, 除了前后端分离的项目, 还有一些前后端不分离的项目, 这样我们在访问不分离的页面的时候, 就可以通过Django自带的admin管理模块来轻松实现后 ...
[高清] Excel函数速记手册
------ 郑重声明 --------- 资源来自网络,纯粹共享交流, 如果喜欢,请您务必支持正版!! --------------------------------------------- 下 ...
Java调用WebService方法总结(5)--Axis2调用WebService
Axis2是新一点Axis,基于新的体系结构进行了全新编写,有更强的灵活性并可扩展到新的体系结构.文中demo所使用到的软件版本:Java 1.8.0_191.Axis2 1.7.9. 1.准备参考 ...
trie树（前缀树）详解——PHP代码实现
trie树常用于搜索提示.如当输入一个网址,可以自动搜索出可能的选择.当没有完全匹配的搜索结果,可以返回前缀最相似的可能. 一.Tire树的基本性质根节点不包含字符,除根节点外每一个节点都只包含一个 ...
node的启动环境
在开发的时候开发环境和正式环境用的接口地址是不一样的端口号可能也不一样,这时候就需要区分端口号,具体方法如下: 在package.json文件的scripts中设置启动命令的时候区分开发和正式: &q ...
【雅思】【绿宝书错词本】List25~36
List 25 ❤arable a.可耕作的 n.耕地 ❤congested a.拥挤不堪的:充塞的 ❤split v.(使)分裂,分离:(被)撕裂:裂开:劈开:分担,分享n.裂口:分化 ,分裂 ❤n ...

Handling skewed data---trading off precision& recall

Handling skewed data---trading off precision& recall的更多相关文章

随机推荐

热门专题