本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第18篇文章,我们来看看机器学习领域当中,非常重要的其他几个指标. 混淆矩阵 在上一篇文章当中,我们在介绍召回率.准确率这些概念之前,先讲了TP.FP.FN.和FP这几个值.我们再来简单地回顾一下,我们不能死记硬背这几个指标,否则很容易搞错,并且还容易搞混.我们需要从英文入手来理解,其中的T表示真,可以理解成预测正确,F表示假,也就是预测错误.而P和N表示positive和negative,也就是阴和阳,或者是0和1…
混淆矩阵 构造一个高正确率或高召回率的分类器比较容易,但很难保证二者同时成立 ROC 横轴:FPR(假正样本率)=FP/(FP+TN) 即,所有负样本中被分错的比例 纵轴:TPR(真正样本率)=TP/(TP+FN) 即,所有正样本中被分对的比例 横轴越小越好,纵轴越大越好,即,ROC曲线在斜对角线以下,则表示该分类器效果差于随机分类器,反之,效果好于随机分类器,当然,我们希望ROC曲线尽量除于斜对角线以上,也就是向左上角(0,1)凸. AUC ROC下的面积,即, ROC曲线反映了分类器的分类能…
一. ROC曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性. 横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例:(1-Specificity) 纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2.针对一个二分类问题,将实例分成正类(postive)或者负类(negative).但…
Java中有许多种日志记录方式,有些API有占位符,有些API没占位符,初学的人可能会搞不清楚这些日志组件的由来.我一开始的时候也是很懵逼的,后来一点点弄懂了于是就又了这篇文章. 在Java中进行日志记录常见有三种方式,分别是JDKLog.Log4J.LogBack. 一.JDKLog JDKLog记录方式是JDK官方提供的一个记录日志的方式,直接在JDK中就可以使用.但JDKLog其功能比较简单,现在用的人也很少. import java.util.logging.Logger; /** *…
面向对象概念 面向对象三大特征:封装,继承,多态 面向对象编程(OOP,Object Oriented Programing)是相对于面向过程编程说的,之前写的代码基本都是纯的面向过程编程的,当项目复杂了,那么纯面向过程代码实现会很复杂,面向对象可以简化代码的结构和组织关系.面向对象不是替代面向过程的,宏观是面向对象,微观仍然是面向过程. 类(class)和对象(Object):人.王力宏 类的定义 最简单的类:class Person{ } class Person{private int a…
本文整理了关于机器学习分类问题的评价指标——Confusion Matrix.ROC.AUC的概念以及理解. 混淆矩阵 在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具.其中,矩阵的每一列表示的是模型预测的样本情况:矩阵的每一行表示的样本的真实情况. 举个经典的二分类例子: 混淆表格:                 混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法,通过混淆矩阵我们可以很清楚的看出每一类样本的识别正误情况.…
一.前述 怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结. 二.具体 1.混淆矩阵 混淆矩阵如图:  第一个参数true,false是指预测的正确性.  第二个参数true,postitives是指预测的结果.  相关公式: 检测正列的效果: 检测负列的效果: 公式解释: fp_rate: tp_rate: recall:(召回率) 值越大越好 presssion:(准确率) TP:本来是正例,通过模型预测出来是正列 TP+FP:通过模型预测出来的所有正列数(其中包括本来…
分类问题 分类问题是人工智能领域中最常见的一类问题之一,掌握合适的评价指标,对模型进行恰当的评价,是至关重要的. 同样地,分割问题是像素级别的分类,除了mAcc.mIoU之外,也可以采用分类问题的一些指标来评价. 本文对分类问题的常见评价指标进行介绍,并附上利用sklearn库的python实现. 将从以下三个方面分别介绍: 常用评价指标 混淆矩阵绘制及评价指标计算 ROC曲线绘制及AUC计算 1. 常用评价指标 混淆矩阵(confusion matrix) 一般用来描述一个分类器分类的准确程度…
准确率.精确率(查准率).召回率(查全率).F1值.ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前四者可以从混淆矩阵中直接计算得到,AUC值则要通过ROC曲线进行计算,而ROC曲线的横纵坐标又和混淆矩阵联系密切,所以在了解这些评价指标之前,先知道什么是混淆矩阵很有必要,也方便记忆. 1.混淆矩阵 对于一个二分类问题,我们可以得到如表 1所示的的混淆矩阵(confusion matrix): 表…
  目标: 快速理解什么是混淆矩阵, 混淆矩阵是用来干嘛的. 首先理解什么是confusion matrix 看定义,在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵.它是一种特定的矩阵用来呈现算法性能的效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix). 大白话来讲,就是对机器学习算法的运行结果进行评价,效果如何,精确度怎么样而已. 举个例子,在什么场景下需要这个confusion matrix 假设有一个用来对猫(ca…