在机器学习领域，对于大多数常见问题，通常会有多个模型可供选择。当然，每个模型会有自己的特性，并会受到不同因素的影响而表现不同。

　　每个模型的好坏是通过评价它在某个数据集上的性能来判断的，这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量，包括准确率（ accuracy ）、精确率（ precision ）、召回率（ recall ）等等。选择我们会根据某个特定的应用场景来选择相应的统计量。而对每个应用来说，找到一个可以客观地比较模型好坏的度量标准至关重要。

在本文，我们将会讨论目标检测问题中最常用的度量标准 --- 平均精度均值（Mean Average Precision, mAP）。

　　大多数情况下，这些度量标准都很容易理解和计算。例如，在二类分类问题中，精确率和召回率都是简单和直观的统计量。　　

　　而另一方面，目标检测则是一个相对不同且很有意思的问题。

　　即使你的目标检测器检测到一张图片中有猫，但是如果你找不到这只猫在图片中的具体位置，那么这个检测器也是没有任何用处的。

　　由于你现在需要预测一张图片中目标是否出现及其具体位置，那么我们如何计算这个度量就变得相当有意思了。

　　首先，让我们定义目标检测问题，这样我们可以对问题有一个统一的认识。

▌目标检测问题

　　对于“目标检测问题”，我的意思是，给定一张图片，找到图中的所有目标，确定他们的位置并对他们进行分类。

　　目标检测模型通常是在给定的固定类别上进行训练的，因此模型在图中只能定位和分类这些已有的类别。

　　此外，目标的位置通常是用边界矩形/边界框的形式来确定的。

　　因此，目标检测包含了两个任务，确定图片中目标的位置，以及对目标进行分类。

图1- 几个比较有名的图像处理问题，图片来自斯坦福大学 CS231n 课程幻灯片（第8讲）

　　如下文所说，平均精度均值 mAP 是预测目标位置以及类别的这一类算法的性能度量标准。因此，从图1我们可以看到， mAP 对于评估目标定位模型、目标检测模型以及实例分割模型非常有用。

▌评估模型检测模型

　　为什么选择 mAP？

　　目标检测问题中，每张图片中可能会含有不同类别的不同目标。如前文所说，模型的分类和定位性能都需要被评估。

　　因此，精确率，这个图像分类问题中使用的标准的评价度量，并不能直接用在这里。现在，是平均精度均值 mAP 发挥作用的时候了。我希望，读完本文之后你可以理解 mAP 的含义和意义。

　　关于参考标准（Ground Truth）

　　对于任何算法来说，度量的值总是把预测值和参考标准的信息进行比较之后计算得到的。我们只知道训练、验证和测试数据集的参考标准信息。

　　在目标检测问题中，参考标准的信息包括图像，图像中目标的类别，以及每个目标的真实边界框。

一个例子

　　我们给定了真实图片（jpg， png 等格式）和其他解释性文字（边界框的坐标（ x， y，宽度和高度）和类别），画在图片上的红色框和文本标签只是方便我们自己观看。

参考标准信息的可视化

　　因此，对于这个特定的例子，我们的模型在训练期间得到的其实是这张图片：

实际图片

　　以及三组定义了参考标准的数字（让我们假设这张图片的分辨率是 1000 x 800 像素，表中所有坐标的单位都是像素，坐标值大小是估计的）

　　让我们实际操作一下，看看 mAP 是如何计算的。

　　我会在另一篇文章介绍各种目标检测算法，包括它们的方法以及性能。现在，让我们假设我们手上已经有一个训练好的模型，而且我们将在验证数据集上评估它的结果。

▌计算 mAP

　　让我们假设原始图片和参考标准的解释性文字如上文所述。训练数据和验证数据的所有图像以相同的方法进行了标注。

　　训练好的模型会返回许多预测结果，但是这些预测结果中的大多数都会有非常低的置信度分数，因此我们只需考虑那些超过某个报告置信度分数的预测结果。

　　我们用模型对原始图像进行处理，下面是目标检测模型在置信度阈值化之后返回的结果。

　　带有边界框的图像：

来自我们模型的结果

　　我们可以说这些检测结果是正确的，但是我们怎么量化呢？

　　首先，我们需要知道每个检测结果的正确性。能够告诉我们一个给定的边界框的正确性的度量标准是“交并比”（Intersection over Union, IoU）。这是一个非常简单的可视量。

　　就文字而言，某些人可能会说这个量的名字本身就已经解释了自己的含义，但是我们需要更好的解释。我会简单地解释 IoU 的含义，对于那些很想深入了解 IoU 含义的读者，Adrian Rosebrock 有一篇写得非常好的文章，可以作为该内容的补充。

（https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/）

IoU

　　交并比是预测边界框和参考边界框的交集和并集之间的比率。这个统计量也叫做 Jaccard 指数（Jaccard Index），是由 Paul Jaccard 在 20 世纪初首次提出的。

　　要获得交集和并集的值，我们首先把预测边界框覆盖在参考边界框之上。（如图所示）

　　现在对于每个类别，预测边界框和参考边界框的重叠部分叫做交集，而两个边界框跨越的所有区域叫做并集。

　　我们仅以这匹马作为例子

　　上图中类别为马的交集和并集区域看上去就像这样：

　　这个例子中交集区域相当大

　　交集覆盖的是边界框重合区域（蓝绿色区域），并集覆盖的是橙色和蓝绿色的所有区域。

　　然后， IoU 可以像这样计算：

分辨正确检测结果和计算精确率

　　利用 IoU ，我们现在要分辨检测结果是否正确。最常用的阈值是0.5：如果 IoU > 0.5，那么认为这是一个正确检测，否则认为这是一个错误检测。

　　现在我们为模型生成的每一个检测框计算其 IoU 值（置信度阈值化之后）。利用该 IoU 值以及我们的 IoU 阈值（例如 0.5），我们为图片中的每一个类计算其正确检测的数量（A）。

　　现在对于每一张图片，我们都有参考标准的数据，可以告诉我们在图片中某个特定类别的真实目标数量（B）。而且我们已经计算了正确预测的数量（A）（True Positives）。因此现在我们可以用这条公式计算模型对该类别的精确率（A/B）。

　　给定的图片中类别 C 的精确率=图片中类别 C 的真正类数量/图片中类别 C 所有目标的数量

　　对于一个给定的类别，让我们对验证集中的每张图片都计算它的精确率。假设我们的验证集中有 100 张图片，并且我们知道每张图片都包含了所有的类别（根据参考标准告诉我们的信息）。这样对于每个类别，我们会有 100 个精度率的值（每张图片一个值）。让我们对这些 100 个值进行平均。这个平均值叫做该类的平均精度（Average Precision）。

　　某个类别（C）的平均精度=验证集中该类（C）的所有精确率的和/含有该类别（C）目标的图像数量

　　现在，假设在我们整个数据集中有 20 个类别。对每一个类别，我们都会进行相同的操作：计算 IoU -> 精确率（Precision）-> 平均精度（Average Precision）。所以我们会有 20 个不同的平均精度值。利用这些平均精度值，我们可以很轻松地判断我们的模型对任何给定的类别的性能。

　　为了只用一个数字来表示一个模型的性能（一个度量解决所有问题），我们对所有类别的平均精度值计算其均值（average/mean）。这个新的值，就是我们的平均精度均值 mAP （Mean Average Precision）！！（我得说，这个命名非常有创意）

　　平均精度均值=所有类别的平均精度值之和/所有类别的数目

　　所以，平均精度均值即数据集中所有类别的平均精度的均值。

　　当我们比较 mAP 值的时候要记得几个重要的点：

- mAP 总是在固定的数据集上进行计算。

- mAP 并不是量化模型输出的绝对度量，但它是一个不错的相对度量。当我们在流行的公开数据集上计算这个度量时，它可以很容易地被用来比较目标检测的新老方法的性能好坏，因此我们并不需要一个绝对度量。

- 根据不同的类别在训练数据中的分布情况不同，平均精度值可能对于某些类别（这些类别有很好的训练数据）非常高，然后对于某些类别（这些类别有更少的数据或者坏数据）可能非常低。所以，你的 mAP 值可能看上去还不错，但是你的模型可能只对某些类别较好，而对某些类别的效果非常差。因此，当分析你的模型结果时，最好单独类别的平均精度值。这些值过低的话可能意味着需要添加更多的训练样本了。

平均精度均值(mAP)——目标检测模型性能统计量的更多相关文章

目标检测模型的性能评估--MAP（Mean Average Precision）
目标检测模型中性能评估的几个重要参数有精确度,精确度和召回率.本文中我们将讨论一个常用的度量指标:均值平均精度,即MAP. 在二元分类中,精确度和召回率是一个简单直观的统计量,但是在目标检测中有所不同 ...
一个评测指标就是MAP(Mean Average Precision)平均精度均值。
一个评测指标就是MAP(Mean Average Precision)平均精度均值. 转载 2017年09月13日 10:07:12 标签: 深度学习 892 来源01:Mean Average Pr ...
谷歌大脑提出：基于NAS的目标检测模型NAS-FPN，超越Mask R-CNN
谷歌大脑提出:基于NAS的目标检测模型NAS-FPN,超越Mask R-CNN 朱晓霞发表于目标检测和深度学习订阅 235 广告关闭 11.11 智慧上云云服务器企业新用户优先购,享双11同等价格 ...
PyTorch专栏（八）：微调基于torchvision 0.3的目标检测模型
专栏目录: 第一章:PyTorch之简介与下载 PyTorch简介 PyTorch环境搭建第二章:PyTorch之60分钟入门 PyTorch入门 PyTorch自动微分 PyTorch神经网络 P ...
微调torchvision 0.3的目标检测模型
微调torchvision 0.3的目标检测模型本文将微调在 Penn-Fudan 数据库中对行人检测和分割的已预先训练的 Mask R-CNN 模型.它包含170个图像和345个行人实例,说明如何 ...
MAP(Mean Average Precision)平均精度均值
wrong 0 2 right 1 / 2 3 right 2 / 3 4 wrong 0 5 right 3 / 5 6 wrong 0 7 wrong 0 8 wrong 0 9 right 4 ...
旷世提出类别正则化的域自适应目标检测模型，缓解场景多样的痛点 | CVPR 2020
论文基于DA Faster R-CNN系列提出类别正则化框架,充分利用多标签分类的弱定位能力以及图片级预测和实例级预测的类一致性,从实验结果来看,类该方法能够很好地提升DA Faster R-CNN系 ...
DOSD用scratch的方式训练通用目标检测，性能很高
推荐一篇今年ICCV上基于DenseNet的general object detection的工作.这是目前已知的第一篇在完全脱离ImageNet pre-train模型的情况下使用deep mode ...
【目标检测】用Fast R-CNN训练自己的数据集超详细全过程
目录: 一.环境准备二.训练步骤三.测试过程四.计算mAP 寒假在家下载了Fast R-CNN的源码进行学习,于是使用自己的数据集对这个算法进行实验,下面介绍训练的全过程. 一.环境准备我这里 ...

随机推荐

Django 配置MySQL数据库
在settings.py中配置 DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', # 数据库引擎 'NAME': 'my ...
CSS margin 外边距属性的位置关系
padding:内边距 margin :外边距 margin:10px; 所有 4 个外边距都是 10px ******************************************* ma ...
HTML表单 CSS样式
1.HTML表单 <body rightmargin="50" leftmargin="50" background="未标题-1.jpg&qu ...
mssql sql server 其它系统函数 parsename 点语法字符串分割函数应用简介
转自:http://www.maomao365.com/?p=4534 一. parsename函数功能简介 parsename函数的主要功能是:可以快速的使用”.”关键字分解字符串,并返回.分解后指 ...
Eclipse引入spring约束详细教程
1.打开eclipse的window-preferences,搜索catalog. 2.点击add,点击File System,弹出页面选择spring-beans-4.2.xsd. 3.key ty ...
jvm程序执行慢诊断手册
生产环境最多的几种事故之一就是程序执行慢,如果是web服务的话,表现就是响应时间长.本文分享,从业多年形成的排查守则. 诊断步骤系统资源查看首先是系统资源查看,而且必须是在第一步.因为很多事故都是 ...
js 3d图形
使用Three.js在网上中进行3D图形的展示 Three.js的官网https://threejs.org/ 第一个Demo,生成一个旋转的正方体 <style> canvas { wi ...
c/c++ 类模板初探
类模板 1,模板类里的函数都是模板函数 2,模板类里的函数,在类外面实现的时候,要用模板函数(方法:push_back)的方式实现,在类内部实现时,不需要用模板函数(方法:show)方式实现. 3,用 ...
HTTP Health Checks
This article describes how to configure and use HTTP health checks in NGINX Plus and open source NGI ...
Kafka如何删除topic？
Kafka如何删除topic? 今天为大家带来“Kafka删除topic原理解析”,希望可以帮到那些苦于无法删除topic的朋友们. 前提条件: 在启动broker时候开启删除topic的开关,即在s ...

平均精度均值(mAP)——目标检测模型性能统计量