skewed classes skewed classes: 一种类里面的数量远远高于(或低于)另一个类,即两个极端的情况. 预测cancer的分类模型,如果在test set上只有1%的分类误差的话,乍一看是一个很好的结果,实际上如果我们将所有的y都预测为0的话(即都不为cancer),分类误差为0.5%(因为cancer的比率为0.5%).error降低了,那这是对算法的一种改进吗?显然不是的.因为后面一种方法实际上什么也没有做(将所有的y=0),不是一种好的机器学习算法.所以这种error…
preision与recall之间的权衡 依然是cancer prediction的例子,预测为cancer时,y=1;一般来说做为logistic regression我们是当hθ(x)>=0.5时,y=1; 当我们想要在预测cancer更确信时(因给病人说他们有cancer会给他们带来很重大的影响,让他们去治疗,所以想要更确信时再告诉病人cancer的预测): 我们可以将阀值设为0.7,这时我们将有一个高的precision(因为标注出有cancer的都是很确信的),和一个低值的recall…
一.Precision - Recall 的平衡 1)基础理论 调整阈值的大小,可以调节精准率和召回率的比重: 阈值:threshold,分类边界值,score > threshold 时分类为 1,score < threshold 时分类为 0: 阈值增大,精准率提高,召回率降低:阈值减小,精准率降低,召回率提高: 精准率和召回率是相互牵制,互相矛盾的两个变量,不能同时增高: 逻辑回归的决策边界不一定非是 ,也可以是任意的值,可根据业务而定:,大于 threshold 时分类为 1,小于…
针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision.Recall.F-score(F1-measure)TPR.FPR.TNR.FNR.AUCAccuracy   真实结果 1 0 预测结果 1 TP(真阳性)  FP(假阳性) 0 FN(假阴性) TN(真阴性) TP(True Positive):预测结果为正类,实际上就是正类 FP(False Positive):预测结果为正类,实际上是反类 FN(False negative):预测结果为反类,实际上是正类 TN(…
处理不平衡的数据集的时候,可以使用对数据加权来提高数量较小类的被选中的概率,具体方式如下 fit(self, x, y, batch_size=32, nb_epoch=10, verbose=1, callbacks=[], validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None) class_weight:字典,将不同的类别映射为不同的权值,该参数用来在训练…
Precision & Recall 先看下面这张图来理解了,后面再具体分析.下面用P代表Precision,R代表Recall 通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了. 下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来. 我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的.比如极端情况下,我们只搜出了一个结果,且是…
TP Rate ,FP Rate, Precision, Recall, F-Measure, ROC Area, https://www.zhihu.com/question/30643044 T/F表示 true/false  表示预测的是不是对的 P/N表示 positive/negative  表示实际数据是正样本还是负样本 P/N表示 positive/negative  表示预测数据是正样本还是负样本   TP: 预测为1, 实际为1,预测正确 FP: 预测为1, 实际为0,预测错误…
华盛顿大学 machine learning :classification  笔记 第6周 precision & recall 1.accuracy 局限性 我们习惯用 accuracy 评价一个分类器模型的准确程度,accuracy即正确预测的样本数/预测样本总数, 一般情况下这种评价都适用. 但假设一个这样的二分类器,95%的数据都是 +1 ,分类器直接把所有数据预测为 +1,那这个分类器的accuracy 为95%, 很高,但显然这不是个好的分类器.对于这样的数 据,评价一个分类器模型…
Precision又叫查准率,Recall又叫查全率.这两个指标共同衡量才能评价模型输出结果. TP: 预测为1(Positive),实际也为1(Truth-预测对了) TN: 预测为0(Negative),实际也为0(Truth-预测对了) FP: 预测为1(Positive),实际为0(False-预测错了) FN: 预测为0(Negative),实际为1(False-预测错了) 总的样本个数为:TP+TN+FP+FN. Accuracy/Precision/Recall的定义 Accura…
目录 metrics 评价方法 TP , FP , TN , FN 概念 计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 Average Precision mAP 参考资料 metrics 评价方法 针对谁进行评价? 对于物体分类到某个类别的 预测结果 和 真实结果 的差距进行评价(二分类) 在多分类问题中,评价方法是逐个类计算的,不是所有类一起算!是只针对一个类算,每个类别有自己的指标值! 也就是对每个类别,预测结果…