ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测

STD: Sparse-to-Dense 3D Object Detector for Point Cloud

论文链接:https://arxiv.org/pdf/1907.10471.pdf

本文在LITTI数据集3D Object Detection三维目标检测性能排名第5。

摘要

提出了一种新的两级三维目标检测框架,称为稀疏到稠密三维目标检测框架(STD)。第一阶段是一个自下而上的提案生成网络,它使用原始点云作为输入,通过为每个点播种一个新的球形锚来生成准确的提案。与以往的工作相比,该方法具有较高的查全率和较少的计算量。然后,通过将提议特征的内部点特征从稀疏表达式转换为紧凑表示,利用PointsPool生成提议特征,从而节省了更多的计算时间。在第二阶段的盒内预测中,本文实现了一个并行交并(IoU)分支,以提高定位精度,从而进一步提高了性能。本文在KITTI数据集上进行了实验,并从三维物体和鸟瞰图(BEV)检测两个方面对本文的方法进行了评价。本文的方法在很大程度上优于其他技术,特别是在硬集上,推理速度超过10 FPS。

1.       Introduction

本文在KITTI数据集上评估本文的模型[1]。实验表明,本文的模型在BEV和3D目标检测任务方面都优于其他状态下的模型,特别是对于困难的例子。本文的主要贡献是多方面的。

提出了一种基于点的球形锚定点云目标检测方案生成模型。它是通用的,以实现高召回率。

•提议的PointsPool层集成了基于点和体素的方法的优点,实现了高效的预测。              •新的3D IoU预测分支有助于分类性能和本地化之间的一致性,导致显著改善。在KITTI数据集上的实验结果表明,本框架处理了许多具有高遮挡和拥挤度的挑战性案例,并获得了最新的性能。此外,在设计中,在10 FPS的速度下可以获得良好的性能。

2.       Related Work

l  三维语义分割在点云上处理语义分割有多种方法。

在[33]中,投影函数将激光雷达点转换为紫外线地图,然后在像素级通过二维语义分割[33,36,3]对其进行分类。在[6,5]中,基于多视图的功能生成分割掩码。这种方法融合了来自不同视图的信息。其他解决方案,如[28、27、18、12、17],从原始激光雷达数据中分割点云。它们直接在每个点上生成特征,同时保留原始的结构信息。最大池化方法收集全局特征。然后将其与本地特征连接起来进行处理。

l  三维目标检测

三维目标检测有三条不同的线。它们是多视图、体素和基于点的方法。

对于多视图方法,MV3D[4]将LiDAR点云投影到BEV,并训练区域建议网络(RPN)以生成积极的建议。它融合了BEV、图像视图和前视图的功能,以生成重新定义的三维边界框。AVOD[14]通过融合图像和BEV功能(如[20])改进了MV3D。与MV3D不同,MV3D只在增强阶段合并特性,它也在RPN阶段合并来自多个视图的特性以生成积极的建议。这些方法在检测行人、自行车等小目标时仍有局限性。它们不处理深度方向上有多个对象的情况。

有几种基于LiDAR数据库的体素网格三维目标检测框架。在[32]中,每个非空体素由该体素内的点用6个统计量编码。[16]中对每个体素网格使用二进制编码。在PIXOR[35]中,每个体素网格被编码为占用。所有这些方法都使用手工制作的表示。体素网[37]相反,堆叠许多VFE层来为每个体素生成机器学习的表示。与[37]相比,第二[34]使用稀疏卷积层[10]来解析紧凑表示。PointPillars[15]使用伪图像作为体素化后的表示。

F-PointNet[26]是第一种利用原始点云预测三维物体的方法。它使用来自二维目标检测作为候选框,并基于内部点回归预测。因此,性能很大程度上依赖于二维目标检测器。不同的是,PointRCNN[30]使用整个点云来生成,而不是二维图像。它直接使用提案中心点的分段效率进行分类位置信息。其他特征如大小和方向被忽略。相比之下,设计一般是利用点云强大的表示能力。

3.       Framework

本文方法是一个两阶段的三维物体检测框架,利用了体素和基于点的方法的优点。为了产生精确的基于点的方案,设计了球形锚和一种新的策略分配标签锚。对于每个生成的方案, 部署一个新的PointsPool层,将基于点的特征从稀疏表达式转换为密集表示。采用box预测网络进行最终预测。框架如图1所示。

每个方案的动机,最直接的最终预测方法是基于内部点执行PointNet++[30,26]。尽管简单,但与传统的卷积或全连接(FC)层相比,数据集抽象(SA)等操作的计算代价更高。如表1所示,在100个方案中,PointNet++基线在推断期间需要41ms,而纯FC层需要16ms。它几乎比基线快2.5倍,性能下降仅0.4%。此外,与点网基线相比,具有FC层的模型只需额外6毫秒,性能就提高了1.6%。这是因为点网回归头使用较少的局部信息。

IoU估计分支在回顾工作[15,34,37,14,30]中,NMS被应用于box估计的结果以去除重复的预测。分类效率用于NMS期间的排名。文献[11,22,29]指出,盒子的分类效率与定位质量没有显著的相关性。同样,分类效率和盒子质量之间的弱相关性也会影响基于点的目标检测任务。考虑到用于自动驾驶的激光雷达通常以固定角度收集,并且部分覆盖物体,定位精度对可见部分与其全视图之间的相对位置极其敏感,而分类分支无法提供足够的信息。如表2所示,如果本文将每个预测框的oracle IoU值(而不是分类分数)提供给NMS进行重复删除,性能将提高约12.6%。

Loss Function

使用多任务丢失来训练本文的网络。本文的总损失由生成损耗Lprop和box预测损耗Lbox组成

4.       Experiments

为了对测试集进行评估,本文在分割的train/val集上以4:1的比率训练模型。表3列出了本文方法的性能以及与以前方法的比较。本文的模型比其他方法在汽车和自行车类上有很大的优势,特别是在hard集上。与使用其他传感器作为附加信息的多视图方法相比,本文的方法只需输入原始点云就可以获得更高的AP。与Uber-ATG-MMF[19]相比,STD在汽车三维检测的moderate水平上优于Uber-ATG-MMF[19]。在hard集上也得到了7.65%的大幅度提高,表明了本文的方案生成模块和IoU分支的有效性。

注意,在行人级别上,STD仍然是仅有激光雷达的探测器中最好的。多传感器检测器工作得更好,因为行人身上几乎没有3D点,因此很难将其与其他小物体(如指示器电传孔)区分开来,如图3所示。在这些情况下,RGB的额外信息会有所帮助。与仅使用激光雷达的探测器、体素或点方法相比,我们的方法在所有三种类型上都最有效。具体来说,在车辆检测方面,与PointRCNN[30]、PointPillars[15]和SECOND[34]相比,STD的AP分别提高了1.87%、2.64%和3.97%。hard数据集的改善更为显著,分别提高了7.74%、7.76%和9.86%。我们在图4中给出了几个定性结果。

5.       Conclusion

本文提出了一种新的两阶段三维目标检测框架,它同时利用了基于体素和基于点的方法。本文引入基于点的球形锚,并重新定义它们,以便在第一阶段准确地生成方案,而不会丢失定位信息。然后应用PointsPool层生成方案的紧凑表示,这有利于减少推理时间。第二阶段减少不正确的损失后处理,进一步提高性能。本文的模型可以很好地进行三维检测,特别是在hard 数据集上。

ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测的更多相关文章

  1. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  2. 三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection

    题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...

  3. 论文笔记:目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)

    R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...

  4. 3D目标检测(CVPR2020:Lidar)

    3D目标检测(CVPR2020:Lidar) LiDAR-Based Online 3D Video Object Detection With Graph-Based Message Passing ...

  5. 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU

    摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...

  6. 3D点云点云分割、目标检测、分类

    3D点云点云分割.目标检测.分类 原标题Deep Learning for 3D Point Clouds: A Survey 作者Yulan Guo, Hanyun Wang, Qingyong H ...

  7. CVPR2019:无人驾驶3D目标检测论文点评

    CVPR2019:无人驾驶3D目标检测论文点评 重读CVPR2019的文章,现在对以下文章进行点评. Stereo R-CNN based 3D Object Detection for Autono ...

  8. Waymo object detect 2D解决方案论文拓展

    FixMatch 半监督中的基础论文,自监督和模型一致性的代表作. Consistency regularization: 无监督学习的方式,数据\(A\)和经过数据增强的\(A\)计做\(A'\) ...

  9. 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

    论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...

随机推荐

  1. hdu1024 最大m子序列和

    题意:      给你一个序列n个数组成,然后让你在里面找到m个子序列,让这m个子序列的和最大. 思路:       dp[i][j]表示的是第j个数字在第i个子序列时的当前最优值. dp[i][j] ...

  2. Python中的BeautifulSoup模块

    目录 BeautifulSoup Tag NavigableString BeautifulSoup Comment 遍历文档树 直接子节点 所有子孙节点 ​ 节点内容 搜索标签 CSS选择器 Bea ...

  3. Windows下包管理工具Bower的安装和使用

    目录 安装Bower Bower的使用 安装Bower Windows下安装Bower之前,先安装好 nodejs 和 msysgit 环境 然后我们就可以使用npm包管理工具下载并全局安装bower ...

  4. Winamp栈溢出漏洞研究【转载】

    课程简介 Winamp是一款非常经典的音乐播放软件,它于上世纪九十年代后期问世.与现在音乐播放软件行业百家争鸣的情况不同,当时可以说Winamp就是听音乐的唯一选择了,相信那个时代的电脑玩家是深有体会 ...

  5. Ubuntu20.04安装和配置JDK

    首先在官网下载Linux系统的jdk到本地 创建/java目录 sudo mkdir /java 这是直接创建在根目录下的. 3. 将下载的jdk压缩包移动到java文件夹 sudo mv 你的安装包 ...

  6. 【实用小技巧】Access denied for user 'root'@'localhost' 报错解决

    到mysql安装目录修改my.ini文件,在文件末尾追加一句 skip-grant-tables 然后重启mysql服务即可

  7. 如何将代码托管到Github

    Github是最火热的源代码管理平台,你可以通过这个平台,将代码托管起来,防止代码丢失,或者将自己的代码展示给世界. 首先要下载Git,请自行在各大应用平台下载. 下载完成后,在你的菜单上下文中就会出 ...

  8. Blazor实现未登录重定向到登录页的方法

    今天研究了一下blazor,发现他默认启动就是类似于后台管理系统的界面,看到这个页面我就想给他写个登录,有登录就涉及到未登录重定向的问题,但是我没有找到blazor全局路由的设置,知道的老哥可以告诉我 ...

  9. BUAA软件工程热身作业

    写在前面 项目 内容 所属课程 2020春季计算机学院软件工程(罗杰 任健) (北航) 作业要求 热身作业(阅读) 课程目标 培养软件开发能力 本作业对实现目标的具体作用 深入认识自己,总结过往并展望 ...

  10. Pytorch系列:(六)自然语言处理NLP

    这篇文章主要介绍Pytorch中常用的几个循环神经网络模型,包括RNN,LSTM,GRU,以及其他相关知识点. nn.Embedding 在使用各种NLP模型之前,需要将单词进行向量化,其中,pyto ...