ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测

STD: Sparse-to-Dense 3D Object Detector for Point Cloud

论文链接:https://arxiv.org/pdf/1907.10471.pdf

本文在LITTI数据集3D Object Detection三维目标检测性能排名第5。

摘要

提出了一种新的两级三维目标检测框架,称为稀疏到稠密三维目标检测框架(STD)。第一阶段是一个自下而上的提案生成网络,它使用原始点云作为输入,通过为每个点播种一个新的球形锚来生成准确的提案。与以往的工作相比,该方法具有较高的查全率和较少的计算量。然后,通过将提议特征的内部点特征从稀疏表达式转换为紧凑表示,利用PointsPool生成提议特征,从而节省了更多的计算时间。在第二阶段的盒内预测中,本文实现了一个并行交并(IoU)分支,以提高定位精度,从而进一步提高了性能。本文在KITTI数据集上进行了实验,并从三维物体和鸟瞰图(BEV)检测两个方面对本文的方法进行了评价。本文的方法在很大程度上优于其他技术,特别是在硬集上,推理速度超过10 FPS。

1.       Introduction

本文在KITTI数据集上评估本文的模型[1]。实验表明,本文的模型在BEV和3D目标检测任务方面都优于其他状态下的模型,特别是对于困难的例子。本文的主要贡献是多方面的。

提出了一种基于点的球形锚定点云目标检测方案生成模型。它是通用的,以实现高召回率。

•提议的PointsPool层集成了基于点和体素的方法的优点,实现了高效的预测。              •新的3D IoU预测分支有助于分类性能和本地化之间的一致性,导致显著改善。在KITTI数据集上的实验结果表明,本框架处理了许多具有高遮挡和拥挤度的挑战性案例,并获得了最新的性能。此外,在设计中,在10 FPS的速度下可以获得良好的性能。

2.       Related Work

l  三维语义分割在点云上处理语义分割有多种方法。

在[33]中,投影函数将激光雷达点转换为紫外线地图,然后在像素级通过二维语义分割[33,36,3]对其进行分类。在[6,5]中,基于多视图的功能生成分割掩码。这种方法融合了来自不同视图的信息。其他解决方案,如[28、27、18、12、17],从原始激光雷达数据中分割点云。它们直接在每个点上生成特征,同时保留原始的结构信息。最大池化方法收集全局特征。然后将其与本地特征连接起来进行处理。

l  三维目标检测

三维目标检测有三条不同的线。它们是多视图、体素和基于点的方法。

对于多视图方法,MV3D[4]将LiDAR点云投影到BEV,并训练区域建议网络(RPN)以生成积极的建议。它融合了BEV、图像视图和前视图的功能,以生成重新定义的三维边界框。AVOD[14]通过融合图像和BEV功能(如[20])改进了MV3D。与MV3D不同,MV3D只在增强阶段合并特性,它也在RPN阶段合并来自多个视图的特性以生成积极的建议。这些方法在检测行人、自行车等小目标时仍有局限性。它们不处理深度方向上有多个对象的情况。

有几种基于LiDAR数据库的体素网格三维目标检测框架。在[32]中,每个非空体素由该体素内的点用6个统计量编码。[16]中对每个体素网格使用二进制编码。在PIXOR[35]中,每个体素网格被编码为占用。所有这些方法都使用手工制作的表示。体素网[37]相反,堆叠许多VFE层来为每个体素生成机器学习的表示。与[37]相比,第二[34]使用稀疏卷积层[10]来解析紧凑表示。PointPillars[15]使用伪图像作为体素化后的表示。

F-PointNet[26]是第一种利用原始点云预测三维物体的方法。它使用来自二维目标检测作为候选框,并基于内部点回归预测。因此,性能很大程度上依赖于二维目标检测器。不同的是,PointRCNN[30]使用整个点云来生成,而不是二维图像。它直接使用提案中心点的分段效率进行分类位置信息。其他特征如大小和方向被忽略。相比之下,设计一般是利用点云强大的表示能力。

3.       Framework

本文方法是一个两阶段的三维物体检测框架,利用了体素和基于点的方法的优点。为了产生精确的基于点的方案,设计了球形锚和一种新的策略分配标签锚。对于每个生成的方案, 部署一个新的PointsPool层,将基于点的特征从稀疏表达式转换为密集表示。采用box预测网络进行最终预测。框架如图1所示。

每个方案的动机,最直接的最终预测方法是基于内部点执行PointNet++[30,26]。尽管简单,但与传统的卷积或全连接(FC)层相比,数据集抽象(SA)等操作的计算代价更高。如表1所示,在100个方案中,PointNet++基线在推断期间需要41ms,而纯FC层需要16ms。它几乎比基线快2.5倍,性能下降仅0.4%。此外,与点网基线相比,具有FC层的模型只需额外6毫秒,性能就提高了1.6%。这是因为点网回归头使用较少的局部信息。

IoU估计分支在回顾工作[15,34,37,14,30]中,NMS被应用于box估计的结果以去除重复的预测。分类效率用于NMS期间的排名。文献[11,22,29]指出,盒子的分类效率与定位质量没有显著的相关性。同样,分类效率和盒子质量之间的弱相关性也会影响基于点的目标检测任务。考虑到用于自动驾驶的激光雷达通常以固定角度收集,并且部分覆盖物体,定位精度对可见部分与其全视图之间的相对位置极其敏感,而分类分支无法提供足够的信息。如表2所示,如果本文将每个预测框的oracle IoU值(而不是分类分数)提供给NMS进行重复删除,性能将提高约12.6%。

Loss Function

使用多任务丢失来训练本文的网络。本文的总损失由生成损耗Lprop和box预测损耗Lbox组成

4.       Experiments

为了对测试集进行评估,本文在分割的train/val集上以4:1的比率训练模型。表3列出了本文方法的性能以及与以前方法的比较。本文的模型比其他方法在汽车和自行车类上有很大的优势,特别是在hard集上。与使用其他传感器作为附加信息的多视图方法相比,本文的方法只需输入原始点云就可以获得更高的AP。与Uber-ATG-MMF[19]相比,STD在汽车三维检测的moderate水平上优于Uber-ATG-MMF[19]。在hard集上也得到了7.65%的大幅度提高,表明了本文的方案生成模块和IoU分支的有效性。

注意,在行人级别上,STD仍然是仅有激光雷达的探测器中最好的。多传感器检测器工作得更好,因为行人身上几乎没有3D点,因此很难将其与其他小物体(如指示器电传孔)区分开来,如图3所示。在这些情况下,RGB的额外信息会有所帮助。与仅使用激光雷达的探测器、体素或点方法相比,我们的方法在所有三种类型上都最有效。具体来说,在车辆检测方面,与PointRCNN[30]、PointPillars[15]和SECOND[34]相比,STD的AP分别提高了1.87%、2.64%和3.97%。hard数据集的改善更为显著,分别提高了7.74%、7.76%和9.86%。我们在图4中给出了几个定性结果。

5.       Conclusion

本文提出了一种新的两阶段三维目标检测框架,它同时利用了基于体素和基于点的方法。本文引入基于点的球形锚,并重新定义它们,以便在第一阶段准确地生成方案,而不会丢失定位信息。然后应用PointsPool层生成方案的紧凑表示,这有利于减少推理时间。第二阶段减少不正确的损失后处理,进一步提高性能。本文的模型可以很好地进行三维检测,特别是在hard 数据集上。

ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测的更多相关文章

  1. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  2. 三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection

    题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...

  3. 论文笔记:目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)

    R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...

  4. 3D目标检测(CVPR2020:Lidar)

    3D目标检测(CVPR2020:Lidar) LiDAR-Based Online 3D Video Object Detection With Graph-Based Message Passing ...

  5. 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU

    摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...

  6. 3D点云点云分割、目标检测、分类

    3D点云点云分割.目标检测.分类 原标题Deep Learning for 3D Point Clouds: A Survey 作者Yulan Guo, Hanyun Wang, Qingyong H ...

  7. CVPR2019:无人驾驶3D目标检测论文点评

    CVPR2019:无人驾驶3D目标检测论文点评 重读CVPR2019的文章,现在对以下文章进行点评. Stereo R-CNN based 3D Object Detection for Autono ...

  8. Waymo object detect 2D解决方案论文拓展

    FixMatch 半监督中的基础论文,自监督和模型一致性的代表作. Consistency regularization: 无监督学习的方式,数据\(A\)和经过数据增强的\(A\)计做\(A'\) ...

  9. 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

    论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...

随机推荐

  1. 分解uber依赖注入库dig-使用篇

    golang的依赖注入库非常的少,好用的更是少之又少,比较好用的目前有两个 谷歌出的wire,这个是用抽象语法树在编译时实现的. uber出的dig,在运行时,用返射实现的,并基于dig库,写了一个依 ...

  2. Python语言程序设计(笔记)

    1.平方根的格式化 知识点:平方根计算 pow(a,0.5)[可以计算负数,结果为复数] a**b 例题: 获得用户输入的一个整数a,计算a的平方根,保留小数点后3位,并打印输出.‪‬‪‬‪‬‪‬‪‬ ...

  3. 利用Xposed Hook打印Java函数调用堆栈信息的几种方法

    本文博客链接:http://blog.csdn.net/QQ1084283172/article/details/79378374 在进行Android逆向分析的时候,经常需要进行动态调试栈回溯,查看 ...

  4. adbi学习:安装和使用

    adbi 是一个android平台(arm 32 )的so注入+挂钩框架,源码开放在github上 :  ADBI 项目 .从github上下载来目录如下: 执行主目录下build.sh编译后目录如下 ...

  5. Google Hacking的用法

    目录 Google Hacking 基本搜索 高级搜索 Index of inurl Google Hacking Google Hacking 是利用谷歌搜索的强大,来在浩瀚的互联网中搜索到我们需要 ...

  6. CVE-2010-2553:Microsoft Cinepak Codec CVDecompress 函数堆溢出漏洞调试分析

    0x01 前言 微软提供一个叫 Cinepak 的视频解码器,通过调用 iccvid.dll 这个动态链接库文件可以使用这个解码器:微软自带的 Windows Media Player(视频音频软件) ...

  7. Intel汇编程序设计-整数算术指令(中)

    7.3  移位和循环移位的应用 7.3.1  多双字移位 要对扩展精度整数(长整数)进行移位操作,可把它划分为字节数组.字数组或双字数组,然后再对该数组进行移位操作.在内存中存储数字时通常采用的方式是 ...

  8. ppt技巧--字体变化

    常见字体搭配 Nordri Tools

  9. 并发容器-CopyOnWriteArrayList

    并发容器一览 图源:https://time.geekbang.org/column/article/90201?utm_term=pc_interstitial_938 CopyOnWriteArr ...

  10. 矩阵旋转-Eigen应用(QTCreator编辑器)

    * { font-family: "Tibetan Machine Uni", "sans-serif", STFangSong; outline: none ...