论文翻译 DOTA:A Large-scale Dataset for Object Detection in Aerial Images

简介：武大遥感国重实验室-夏桂松和华科电信学院-白翔等合作做的一个航拍图像数据集

摘要：

目标检测是计算机视觉领域一个重要且有挑战性的问题。虽然过去的十几年中目标检测在自然场景已经有了较重要的成就，但在遥感图像上却进展缓慢，原因不仅仅体现在图像规模的庞大及多样性、物体定位问题和地球表面物体实例的形状检测上，还因为遥感场景中具有良好注释的数据集过于匮乏。为了推进在Earth Vision，又称Earth Observation and Remote Sensing上的目标检测的研究，我们引进在遥感图像目标检测领域的一个大规模数据集。截至目前，我们从不同的传感器和平台众包收集了2806个航拍图像，每一个图像是（大小约4000*4000），目标涵盖了各种各样的规模、位置、形状。这些图像被遥感领域的专家注释并被分为15个目标类别，注释后的完整数据集图像包括188282个实例，每一个被一个任意四边形标记。为了在Earth Vision上完成目标检测的一个baseline,我们在DOTA上使用最先进水平的目标检测算法。实验说明了DOTA数据集可以很好的表示出Earth Vision应用软件并且具有挑战性

背景介绍

在Earth Vision上的目标检测是指局部化地球表面感兴趣的物体，如交通工具、飞机等，然后预测他们所属的类别。在传统的数据集上，物体的位置通常由于重力而呈现出一种整体向下的状态，相较于传统数据集来说，航拍的数据集图像常常处于各种各样奇奇怪怪的位置上，比如图一所示，这取决与航拍的平台的视角。

随着计算机视觉领域的已有的最新进展和Earth Vision应用的高需求，有大量的研究已经围绕着航拍图像开展。这些方法中绝大部分尝试着将原有的目标检测算法从自然场景中转化到遥感图像领域。最近，由于受到基于深度学习的目标检测算法成功的鼓舞，Earth Vision的研究者们继续追逐处理遥感图像数据，进行了基于网络的微小调整，使之在大规模数据训练中有所改善。当此种微调的处理方式成为一种较为可行的探索途径时，一些图像如图片1，在一些方面揭示了航拍图像目标检测任务和传统目标检测任务的清晰区别

l 航拍图像目标检测的实例数量级更大。这不仅仅因为传感器的空间分辨率，也因为同一种物体目录下大小发生了变换

l 许多小物体实例在航拍图像中是聚集在一起的。比如说海港里的船只和停车场里的车辆，如图一所示。此外航拍图像中物体出现的频率是非常不平衡的，比如一些小型的图像1k*1K中可能包含1900个实例，而一些大图4K*4K中可能只包含少数的小实例。

l 航拍图像中物体常常以任意的位置出现，有一些实例常常有着比较夸张的纵横比，比如说一座桥。

除了这些清楚明白的困难外，在Earth Vision的目标检测研究还面临着一些位置的数据集偏差问题，比如数据集的普遍性程度很低。为了缓和这些偏差，注释数据集时应该注意要反映真实世界的应用需求。

因此，不难明白，那些自然场景图片中习得的目标检测经验在航拍图像中并不适用。但是，在航拍图像的目标检测中存在注释好的数据集比如:，尝试着在理想状态(清晰的背景，不存在密集分布的实例)下使用图片，但是这样并不足以反映复杂问题

图1：DOTA数据集中的一个例子

(a)DOTA数据集的一个典型图片包括各种各样多类别的实例

(b)图解实例有着多样化的位置和大小

(c)(d)分别图解稀疏的实例和聚集的实例，在这里我们展示DOTA 15个可能类别图像中的4类

(b)(c)(d)中图像是数据源(a)的裁剪，直方图(e)(f)表示出DOTA中实例大小和位置的分布规律

l 我们认为，DOTA是Earth Vision中具有多样性目录的一个最大的有注释的数据集，它可以作为用来评价航拍图像的目标检测器。我们将会在视野和规模上继续更新DOTA，来反映不停变化的现实世界条件。

l 我们在DOTA上使用最先进的目标检测算法作为基准，它也将被作为未来算法改进的基准

为了促进Earth Vision上的目标检测研究，DOTA也将会在计算机视觉领域对传统目标检测提出感兴趣的算法问题

需求动机

近年来，在一些依赖数据的研究中，数据集扮演了较为重要的角色，一些数据集比如MSCOCO，在促进目标检测和图像捕捉方面很有助力。当涉及到分类问题和场景识别任务时，ImageNet和Places数据集也很好

但是，在航拍目标检测方面，一个像MSCOCO或是ImageNet的数据集，在图像数字和细节的注释上是有缺失的,这也是在Earth Vision上的研究中面临的主要障碍之一，特别是在使用基于深度学习的算法方面。航拍目标检测在车辆计算，远程目标追踪，和无人驾驶方面是非常有帮助的。因此，一个大规模并富有挑战的航拍目标检测基准，尽可能地接近现实世界的应用，是促进这个领域研究工作中不可避免的问题。

我们认为一个好的航拍图像数据集应该拥有四个性质 1.大量的图片 2.每一类都有许多实例 3 合适方位的目标注释 4许多不同类型的物体，使之更接近现实世界应用。但是，已有的航拍数据集都有以下的几个缺点：不完整的数据、缺乏细节的注释，低分辨率。此外，它们的复杂性并不足以将之认为是真实世界的反映。

表1：航空图像中DOTA数据集和其他目标检测数据集的比较。BB是边界框的缩写。One-dot是指只注释所提供实例的中心坐标。更细分的类别则不考虑在内。例如，DOTA由15个不同的类别组成，但实际上只有14类，因为大型车辆和小型车辆都属于车辆目录下的子目录。

像TAS [9], VEDAI [24], COWC [20] 等数据集只关注车辆，ucas-aod包含汽车和飞机，HRSC2016只包含船只，虽然有标注细致的分类信息。但所有这些数据集在类别的数量上都是少的，这对它们在复杂场景的泛化适应上有所约束。作为对比，NWPU VHR-10数据集由10种类型的物体组成，而它的总实例数大概只有3000。关于这些已存在的数据集的具体比较细节在表1中给出。我们在第四部分可以看到，对比这些航拍数据集，DOTA具有更庞大的目标实例数目、随意但是均匀的方向，多样性的分类目录和复杂的航拍场景。此外，DOTA数据集中的场景与真实场景更加一致，所以DOTA数据集对于真实世界应用开发来说是更有帮助的

当涉及到普通的目标数据集时，由于庞大的图片数目、多种多样的分类和更多的注释细节，研究者们偏向于选择ImageNet and MSCOCO。在众多目标数据集中ImageNet拥有着最大的图片数目，但是平均下来每张图片的实例数却远远小于 MSCOCO以及我们的DOTA,加之它必须有清晰背景和被精心选择过的场景限制。DOTA中的图片包含很多的目标检测实例，有一些甚至超过1000个实例。在每张图片的实例和场景上PASCAL VOC Dataset和ImageNet很相似，但是不充足的图片数量使得它不适合处理更多的检测需求。我们的DOTA在实例数量和场景类型方面很像MSCOCO，但是DOTA的分类没有MSCOC那么多，因为在航拍图片中，能被清楚看清的物体是有限的。

此外，在上文提到的大规模普遍目标检测基准中DOTA数据集的特别之处在于使用OBB方法注释，OBB可以很好的区分目标物体的离散与聚集，在第三部分详细描述了使用OBB注释目标物体的好处。在表2中对DOTA,PASCAL VOC,ImageNet and MSCOCO等的比较，找出不同

表2：DOTA数据集与其他一般目标检测数据集的比较。Bbox是边界框的缩写，Avg.BBox quantity表示每个图像的平均边界框数量。可以看到在DOTA中，每个图像的平均实例数，DOTA极大地超越了其他数据集。

DOTA数据集的注释

3.1图像的收集

正如[5]中提到的那样，在航拍数据集中，多种多样的传感器被使用，是产生数据集偏差的因素，为了消除这些偏差，我们数据集中的数据是由多分辨率多传感器和多平台来收集的，如谷歌地球。为了提高数据的多样性，我们收集的图片的城市是由图像判读方面的专家来挑选的，记录下精确的地理坐标，来捕捉图片使得确保没有重复的图像

3.2

我们的DOTA数据集注释选择了15种类别，包括飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池

目录类别是由图像判读方面的庄家根据目标物体的普遍性和现实世界中的价值型来挑选的，前十个类别在已有的数据集中很普遍，我们保留了下来，除了将交通工具的汽车分为大型和小型，因为两种类型的汽车在航拍图像上区别很大。其他的类别主要是由于现实场景的应用。我们选择直升机是考虑到航拍图像中运动物体具有重要的意义，迂回路线被选中是因为它在道路分析中具有重要意义。

要不要把“stuff”作为一类是值得探讨的，在SUN数据集中，一般说来没有明确的定义说明什么是stuff一类，比如海港、机场、停车场。但是，它们提供的语境信息是对检测有帮助的。我们只采纳了海港分类，因为它的边界容易定义，并且在我们的图片源信息中有丰富的实例。最后拓展的分类是足球场

在表2我们比较了DOTA和NWPU VHR_10，后者在先前存在的航拍图像目标检测数据集中有更多的分类数。顺便提一句，DOTA在目录分类数目和每一类下的实例数目都远超过了NWPU VHR-10

3.3注释方法

我们思考了许多不同的注释方法。在计算机视觉领域，如[12]所说许多视觉概念比如，区域说明，目标，属性，关系，都可以被一个注释边框说明，对边框的一个普遍描述是（x，y，w，h），（x，y）表示位置，（w，h）是边框的宽和高。

没有一定方向的物体可以被这种注释方式充分注释。然而，以这种方式标记的边界框不能精确或紧凑地贴合物体的轮廓，例如航空影像中的文本和物体。如图3（c）所示的极端但实际的普遍存在情况，和（d）比起来，两个边界框之间的重叠是如此之大以至于最先进的对象检测方法也不能区分它们。为了解决这一问题，我们需要一种其他更适合面向这种有一定方向物体的注释方法。

一个可能选项是采用基于theta的边界框，它被应用于一些文本检测基准（36），即（x,y,w；h,thete），其中theta表示从边界框与水平方向的夹角度。但这种方法的缺点是依旧不能贴合围绕住那些不同部分之间可能有较大变形的物体。考虑到航拍图像中物体的复杂场景和物体的各种方位，我们需要放弃这种方法选择其他更灵活易懂的方式。一种可供选择的方法是使用任意四边形边界框，它可以被描述为，其中x,y表示图像中边界框顶点们所在的位置。这些顶点按顺时针顺序排列。这种方法在定向场景的文本检测中广泛使用。我们受到这些研究的鼓舞，在注释物体时使用任意四边形边界框的方式

图 2：DOTA与NWPU VHR—10数据集的类别和相应实例数量的比较

图3：将所使用的注释方法的可视化。黄色点代表起点，可以看到不同图像的起始点位置。（a）飞机的左上角，（b）扇形棒球内场的中心，（c）大车左上角。（d）是水平矩形注释的失败案例，与（c）相比，重叠过高

为了进行更加具体的注释，如图3所示，我们强调了第一个顶点，即x1,y1的重要性，它通常意味着物体的“首部”。对于直升飞机，大型车辆小型车辆，海港，棒球内场，船只，飞机等分类来说，我们选择与之丰富的潜在用途有关的点作为起始点，而对于足球场，游泳池，桥梁，缓行线路，篮球场和网球场来说，视觉上没有线索可以决定它们的起始点，所以我们通常选择左上的顶点作为起始点。

我们在图4中展示了DOTA数据集中一些已经注释过的例子(不是全部的初始图像)

值得注意的是，Papadopoulos[22]探索了一种可选择的注释方法并验证了它的效率和鲁棒性。我们确信，只要有更多精心设计的注释方法，这种方法可以变得更加准确更具鲁棒性。并且，越来越多可选择的注释协议也会促进有效图像注释众包活动。

图4：DOTA数据集中已注释的一些图片样例。我们在每一分类下选择3个样例，大型车辆类别下选择6个

3.4 数据集的划分

为了保证训练数据和测试数据的分配可以大致匹配，我们随意选择1/2的原始图像作为训练集，1/6作为验证集，1/3作为测试集。

我们将公开带有ground truth的所有图像，作为训练集和验证集。但是没有测试集。在测试部分，我们已经创建了一个评价的服务器

DOTA数据集的性能

4.1 图片大小

航拍图像比起其他自然场景数据集中的图像来说，在尺寸方面通常更大。我们数据集的图像原始尺寸范围大概为800*800-4000*4000之间，但一般常规数据集如PASCAL_VOC和MSCOCO中大部分图像不会超过1000*1000。我们将原始图像注释而不是分区后的图像，这样避免了将一个单独的完整实例分裂成两部分。

4.2 具有多种方向的实例

就如图1(f)中所表示的那样，我们的数据集在不同方向的实例上有一个很好的平衡，这对于学习训练一个健壮的检测器来说有至关重要的帮助。进一步来说，我们的数据集通常从各个角度观察真实世界的物体，这使得它更加接近真实场景。

图5：DOTA数据集中实例的统计。AR表示纵横比。（a）水平实例边界框的AR（b）定向实例边界框的AR。（c）每个图像注释后实例的数目直方图

4.3 空间分辨率信息

对于数据集中的每一张图像我们提供了空间分分辨率，它表示了一个实例的真实大小，并且在航拍图像物体检测中具有重要意义。空间分辨率在物体检测任务中的重要性分为两个方面：1.它允许模型检测相同分类下各种各样不同的物体的时候变得更加有适应性和鲁棒性。我们都知道从远处看一个物体会显得比较小，同一个物体的不同尺寸将会影响到模型的分类。然而，使用这种方法，模型可以更关注形状的分辨率信息从而代替物体的尺寸。

2.使用空间分辨率能更好的进行详细深入的分类。比如说：从一个大的海港中区分清楚每一个小船只。

在我们的数据集中，空间分辨率还可以被用于过滤错标注的离群值，因为绝大部分分类的内部定点数据大小是有限制的。在一定的空间分辨率范围内，通过选择那些尺寸与其他同分类下物体差别很大物体可以找到离群值。

4.4 具有多种像素尺寸的分类

根据[34]所示的惯例。我们通常使用水平的边界框(又可以简称为像素值)作为实例大小的测量方式。我们将数据集中的实例根据它们水平边界框的宽度划分三类。小实例（10-50）、中等实例（50-300）、大实例（300+），表3说明了这些实例划分在不同数据集中所占的百分比。很明显，PASCAL VOC、NWPU VHR—10和DLR 3K慕尼黑车辆数据集分别由中等实例、中等实例和小实例主导构成。然而，我们的DOTA数据集在小实例和中实例之间取得了良好的平衡。它更类似于真实世界场景，从而在实际应用中有助于更好地捕捉和检测不同大小的物体。

值得注意的是，像素大小在不同的类别中有所不同。例如，车辆可以小到30，但桥又可以大到1200，这比车辆大40倍。不同类别的实例之间的巨大差异使得检测任务更具挑战性，因为模型必须更灵活，从而足够可处理极小和巨大的物体。

表3：航空图像和自然图像中一些数据集的实例大小分布的比较。

4.5 具有多种纵横比的实例

**解释：在网络节点定位技术中，根据节点是否已知自身的位置，把传感器节点分为锚节点(也称信标节点)和未知节点。

纵横比是基于锚节点的模型中一个至关重要的因素，模型比如说Faster RCNN [26] 和 YOLOv2 [25]。对于数据集中的所有实例我们计算了两种类型的横纵比，为改善模型设计提供参考。1.最低程度受限于水平边界框的横纵. 2.原始四边形边界框的横纵比。图说明了两种横纵比在我们数据集中实例的分布。我们可以看到在横纵比方面实例分布差异很大，而且，数据集中有许多横纵比较大的实例

4.6 具有多种实例密度的图像

航拍图像中常常包括数以千计的实例，它们完全与自然场景图像不同。例如，IMANEET（6）中的图像平均包含2个类别和2个实例，MSCCO共有3.5个类别，7.7个实例。我们的DOTA数据集更丰富，每个图像的实例，可以高达2000。图5说明了DOTA中的实例数。

在一幅图像中有如此多的实例，不可避免地会看到很密集的实例聚集在某个区域。在COCO数据集中，实例并不是逐个注释的，因为图像中的遮挡使之难以将实例与其相邻实例区分开来。在这些情况下，实例组被标记为一个属性名为“crowd”的片段。然而，这种情况不会在航空图像下出现，因为从航拍视角来看，很少有遮挡物。因此，我们可以在拥挤的实例场景中将实例一个个分别标注。图4展示了聚集着很多实例的一个例子。在这种情况下检测物体对现有的检测方法提出了巨大的挑战。

评价

我们在DOTA数据集上使用了目前最先进的目标检测方法来评估。对于水平物体的检测，我们选择那些在普通目标检测表现良好的算法，如选择Faster-RCNN（26）、R- FCN（4）、YOLV2（25）和SSD（16）作为我们的基准测试算法。对于定向的物体检测，我们修改原来的Faster R-CNN算法，使其能使用正确预测定向的边界框。

值得注意的是，主干网络如下：对RFNET-101使用R-FCN和Faster R-CNN，对InceptionV2使用SSD，对YOLVO2使用定制化的GoGoLeNET

5.1评价原型

DOTA的图像太大，无法直接发送到基于CNN的探测器。因此，我们将原始图像裁剪为一系列1024*1024的面片，步幅设置为512。注意在裁剪过程中，完整的物体可能会被切成两部分。为了方便起见，我们将原始对象的面积为，划分部分的面积为（i＝1,2）然后计算：

最终我们将U<0.7的部分标记为“difficult”，其他的标记和原始注释一样。对于那些新生成的部分的顶点我们需要保证它们可以被一个具有4个顺时针排列顶点的定向边界框用一种合适的方法来描述。

在测试阶段，我们首先将裁剪后的面片送到一个临时的结果中，然后将结果合并在一起，来重构原始图像的检测，最后我们对预测结果使用NMS(非极大值抑制算法)。我们设置NMS的参数阈值对于水平边界框（简称HBB）将阈值设置为0.3，定向的边界框阈值设置为0.1。通过使用这种方式，我们在基于CNN的模型上训练和测试了DOTA数据库。

对于评价的度量，我们使用和PSASCAL VOC一样的mAP计算方式

5.2 水平边界框的Baselines

HBB实验的ground truth 是通过在原始的已标注的边界框上计算轴对称边界框产生的，为了公平起见，我们将实验的配置以及超参数设置为与文章[4,16,25,26]一致

在表4中给出了HBB实验的预测结果，我们注意到SSD上的结果比其他模型低很多。我们怀疑可能是因为SSD数据集数据增长策略中的随意裁剪操作，这种操作在普通的目标检测中相当有用，但是在航拍图像目标检测的大规模小实例上作用有所降低。实验结果也进一步表明了航拍图像和普通目标图像检测在实例大小上的巨大差别。

5.3 定向边界框的Baselines

OBB的预测比较困难，因为最先进的检测方法并不是为定向的物体设计的。因此，我们将根据精度和高效性选择Faster R-CNN作为基础框架，并将其修改使之能够预测定向的边界框。

由RPN（候选区域生成网络）产生的RoIs（兴趣区域）是可以被表示为R =（ , , , ）的矩形，更详细的解释为

其中

在R-CNN程序中，每个RoI都附加有一个写作的ground truth定向边界框。然后R-CNN的输出目标由以下等式计算，

其中

其余配置和超参数设置和Faster R-CNN[26]中描述的一样，在表4中给出了实验数据结果

5.4 实验分析

当我们分析表4中呈现的数据结果时，小型汽车，大型汽车，船只的分类结果不尽人意，因为它们的尺寸较小，并且在航拍图像中位置十分密集。作为对比，大型的离散物体如飞机，游泳池、网球场等，表现出的效果较好

在图6中我们比较了HBB和OBB两种检测方式的结果。在图6(a)和6(b)中表示的紧密图像中，HBB实验的定位精度要比OBB实验差的多，并且许多结果受到先前工作的限制。所以OBB回归是定向物体检测的一个正确方式，并且可以被真正在实际中应用。在图6(c)中，使用OBB来标注纵横比较大的物体（比如桥和海港），对于现在的检测器来说很难做回归。但是在HBB方法中，这些物体通常有着较为普通的纵横比，因此结果如图6(d)看起来比OBB好很多。但是在一些极度拥挤的场景下，比如图6(e)和6(f)，HBB和OBB的结果并不尽如人意，表明了现阶段检测器具有一定的缺陷。

数据集的交叉验证

交叉数据集泛化是数据集泛化能力的一个评价方式。我们选择UCAS-AOD数据集来做交叉数据集泛化，因为它与其他航空物体检测数据集相比有着更大的数据量。因为没有UCAS-AOD数据集的官方划分方式，于是我们随机选择1110个进行训练和400个进行测试。选择YOLOv2

作为所有测试实验的检测器，并且将所有的ground truth使用HBB标注。将UCAS-AOD数据集中原始图片大小改为960*544作为输入的图片大小，其余的配置不改变

表4：Baseline模型的数据化结果（AR）.确定的分类名称缩写有BD-棒球内场，GTF --地面区域轨道，SV -小型车辆，LV -大型车辆，TC-网球场，BC-篮球场，SC –储油罐，SBF -足球场，RA –环形道路，SP -游泳池和HC -直升机。 FR-H意味着Faster R-CNN [26]将在水平边界框上被训练。FR-O意味着Faster R-CNN [26]将在定向边界框上被训练

图6：使用训练好的Faster R-CNN可视化DOTA数据集的测试结果，上下两行分别说明了在HBB和OBB方法上关于方向，大纵横比，和拥挤场景下的结果

表5给出了结果。在交叉部分两数据集表现出的不同，分别为YOLOv2-A（35.8）和YOLOv2-D（15.6）。它表明，DOTA极大地覆盖了UCAS-AOD，甚至有更多的在UCAS-AOD中没有的模式和特性。YOLOv2-A和YOLOv2-D两种模式在DOTA上得到低的结果，表明DOTA数据集更具挑战性。

表5：交叉数据集泛化的结果。上半部分：在UCAS-AOD数据集上评估检测性能下半部分：在DOTA上评估检测性能。 YOLOv2-A和YOLOv2-D都是分别被UCAS-AOD和DOTA训练集训练的。

结论

我们建立了一个大型数据集，用于航拍图像中进行定向物体检测，这个数据集比这个领域中所有现有的数据集都要大。与一般对象检测基准相反，我们使用定向边界框标注大量分布良好的定向物体。我们猜测这个数据集是具有挑战性的，并且非常类似于自然的航拍场景，更适合实际应用。我们还为航拍图像物体检测建立了基准，并展示了通过修改主流检测算法生成定向边界框的可行性。

检测密集聚在一起的小实例和任意方向非常大的实例，在一个大的图片将是特别有意义和具有挑战性的。我们相信DOTA不仅会促进Earth Vision中物体检测算法的发展，也会在计算机视觉领域的一般物体检测中提出有趣的问题