（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理

最近在使用sklearn做分类时候，用到metrics中的评价函数，其中有一个非常重要的评价函数是F1值，（关于这个值的原理自行google或者百度）

在sklearn中的计算F1的函数为 f1_score ，其中有一个参数average用来控制F1的计算方式，今天我们就说说当参数取micro和macro时候的区别

1、F1公式描述:

　　F1-score: 2*(P*R)/(P+R)

准确率（P）： TP/ (TP+FP)

召回率(R)： TP(TP + FN)

对于数据测试结果有下面4种情况：

真阳性（TP）: 预测为正，实际也为正

假阳性（FP）: 预测为正，实际为负

假阴性（FN）: 预测为负，实际为正

真阴性（TN）: 预测为负，实际也为负

2、 f1_score中关于参数average的用法描述:

'micro':Calculate metrics globally by counting the total true positives, false negatives and false positives.

'micro':通过先计算总体的TP，FN和FP的数量，再计算F1

'macro':Calculate metrics for each label, and find their unweighted mean. This does not take label imbalance into account.

'macro':分布计算每个类别的F1，然后做平均（各类别F1的权重相同）

3、初步理解

通过参数用法描述，想必大家从字面层次也能理解他是什么意思，micro就是先计算所有的TP，FN , FP的个数后，然后再利上文提到公式计算出F1

macro其实就是先计算出每个类别的F1值，然后去平均，比如下面多分类问题，总共有1,2,3,4这4个类别，我们可以先算出1的F1，2的F1，3的F1，4的F1,然后再取平均（F1+F2+F3+4）/4

　　　　y_true = [1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4]
　　　 y_pred = [1, 1, 1, 0, 0, 2, 2, 3, 3, 3, 4, 3, 4, 3]

4、进一步理解

　　我们还是以上面的例子为例说明sklearn中是如何计算micro 和 macro的：

　　micro计算原理

　　首先计算总TP值，这个很好就算，就是数一数上面有多少个类别被正确分类，比如1这个类别有3个分正确，2有2个，3有2个，4有1个，那TP=3+2+2+1=8

其次计算总FP值，简单的说就是不属于某一个类别的元数被分到这个类别的数量，比如上面不属于4类的元素被分到4的有1个

如果还比较迷糊，我们在计算时候可以把4保留，其他全改成0，就可以更加清楚地看出4类别下面的FP数量了，其实这个原理就是 One-vs-All (OvA)，把4看成正类，其他看出负类

同理我们可以再计算FN的数量

	1类	2类	3类	4类	总数
TP	3	2	2	1	8
FP	0	0	3	1	4
FN	2	2	1	1	6

所以micro的精确度P 为 TP/(TP+FP)=8/(8+4)=0.666 召回率R TP/(TP+FN)=8/(8+6)=0.571 所以F1-micro的值为：0.6153

可以用sklearn来核对,把average设置成micro

y_true = [1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4]

y_pred = [1, 1, 1, 0, 0, 2, 2, 3, 3, 3, 4, 3, 4, 3]

print(f1_score(y_true,y_pred,labels=[1,2,3,4],average='micro'))
#>>> 0.615384615385

计算macro

macro先要计算每一个类的F1，有了上面那个表，计算各个类的F1就很容易了，比如1类，它的精确率P=3/(3+0)=1 召回率R=3/(3+2)=0.6 F1=2*(1*0.5)/1.5=0.75

可以sklearn，来计算核对,把average设置成macro

#average=None,取出每一类的P,R,F1值
p_class, r_class, f_class, support_micro=precision_recall_fscore_support(y_true=y_true, y_pred=y_pred, labels=[1, 2, 3, 4], average=None)

print('各类单独F1:',f_class)

print('各类F1取平均：',f_class.mean())

print(f1_score(y_true,y_pred,labels=[1,2,3,4],average='macro'))

#>>>各类单独F1: [ 0.75        0.66666667  0.5         0.5       ]

#>>>各类F1取平均： 0.604166666667

#>>>0.604166666667

如有装载，请注明出处，谢谢

（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理的更多相关文章

sklearn中的predict与predict_proba的区别（得到各条记录每个标签的概率（支持度））
假定在一个k分类问题中,测试集中共有n个样本.则: predict返回的是一个大小为n的一维数组,一维数组中的第i个值为模型预测第i个预测样本的标签: predict_proba返回的是一个n行k列的 ...
机器学习实战基础（二十三）：sklearn中的降维算法PCA和SVD（四） PCA与SVD 之 PCA中的SVD
PCA中的SVD 1 PCA中的SVD哪里来? 细心的小伙伴可能注意到了,svd_solver是奇异值分解器的意思,为什么PCA算法下面会有有关奇异值分解的参数?不是两种算法么?我们之前曾经提到过,P ...
sklearn中的模型评估-构建评估函数
1.介绍有三种不同的方法来评估一个模型的预测质量: estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题. Scor ...
sklearn中的metrics模块中的Classification metrics
metrics是sklearn用来做模型评估的重要模块,提供了各种评估度量,现在自己整理如下: 一.通用的用法:Common cases: predefined values 1.1 sklearn官 ...
sklearn 中的交叉验证
sklearn中的交叉验证(Cross-Validation) sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好.今天主要记录一下sklearn中关于交叉验证的 ...
[原创]VS2010中创建动态链接库及其调用
[原创]VS2010中创建动态链接库及其调用一.创建动态链接库在VS2010中创建动态链接库的步骤如下: 1)生成->编译->生成MyDll 二.调用当调用DLL中的方法,程序编译产 ...
sklearn中的Pipeline
在将sklearn中的模型持久化时,使用sklearn.pipeline.Pipeline(steps, memory=None)将各个步骤串联起来可以很方便地保存模型. 例如,首先对数据进行了PCA ...
Sklearn中的回归和分类算法
一.sklearn中自带的回归算法 1. 算法来自:https://my.oschina.net/kilosnow/blog/1619605 另外,skilearn中自带保存模型的方法,可以把训练完 ...
第十三次作业——回归模型与房价预测&第十一次作业——sklearn中朴素贝叶斯模型及其应用&第七次作业——numpy统计分布显示
第十三次作业——回归模型与房价预测 1. 导入boston房价数据集 2. 一元线性回归模型,建立一个变量与房价之间的预测模型,并图形化显示. 3. 多元线性回归模型,建立13个变量与房价之间的预测模 ...

随机推荐

python 调用Linux shell
有时候难免需要直接调用Shell命令来完成一些比较简单的操作,比如mount一个文件系统之类的.那么我们使用Python如何调用Linux的Shell命令?下面来介绍几种常用的方法: 1. os 模块 ...
[Leetcode Week4]H-Index
H-Index题解原创文章,拒绝转载题目来源:https://leetcode.com/problems/h-index/description/ Description Given an arr ...
爬取genome的网页和图片
# -*- coding: utf-8 -*- # @Time : 2018/03/08 10:32 # @Author : cxa # @File : gethtmlandimg.py # @Sof ...
区块链开发（六）truffle使用入门和testrpc安装
在上篇博文中我们已经成功安装了truffle及所需相关环境,此篇就简单介绍一些truffle的使用及目录结构等. 简介truffle和testrpc truffle是本地的用来编译.部署智能合约的工具 ...
python模拟鼠标和键盘操作
import win32api import win32con import win32gui from ctypes import * import time VK_CODE = { 'backsp ...
MATLAB求解常微分方程:ode45函数与dsolve函数
ode45函数无法求出解析解,dsolve可以求出解析解(若有),但是速度较慢. 1. ode45函数 ①求一阶常微分方程的初值问题 [t,y] = ode45(@(t,y)y-2*t/y, ...
owasp zap 安全审计工具功能详解
一.persist session 该功能主要保存扫描分析的结果,方便下次继续分析二.扫描策略 1.修改策略 A.入口 B.具体设置页面 C.设置完成后,发起主动扫描,在弹出的窗口可以选择策略 D. ...
MySQL 使用硬链接配合truncate 删除2.2T的表
1 创建tmp 表并 rename 表 mysql> rename table ep to ep_bak; Query OK, 0 rows affected (0.07 sec) mysql& ...
SecureCRT的安装、介绍、简单操作
网上看到一篇名为<SecureCRT的使用方法和技巧(详细使用教程)>的secureCRT教程,可能软件版本与我不一样我安装的是8.1. 原文来源:http://www.jb51.net/ ...
NYOJ 914 Yougth的最大化【二分/最大化平均值模板/01分数规划】
914-Yougth的最大化内存限制:64MB 时间限制:1000ms 特判: No 通过数:3 提交数:4 难度:4 题目描述: Yougth现在有n个物品的重量和价值分别是Wi和Vi,你能帮他从 ...

（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理

（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理的更多相关文章

随机推荐

热门专题