深度学*点云语义分割：CVPR2019论文阅读

Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning

摘要

本文提出了一个新的超级学*框架，用于将三维点云过度分割为超点。本文将此问题转化为学*三维点的局部几何和辐射测量的深度嵌入，从而使物体边界呈现高对比度。嵌入计算使用轻量级神经网络在点的局部邻域上操作。最后，本文将点云过分集描述为一个与学*嵌入相关的图划分问题。这种新方法允许本文在密集的室内数据集（S3DIS）和稀疏的室外数据集（vKITTI）上设置一个新的尖端点云过分集（显著的边缘）。本文的最佳解决方案需要比以前在S3DIS上发布的方法少五倍多的超级点才能达到类似的性能。此外，本文还展示了本文的框架可以用来改进基于超点的语义分割算法，同时也为这项工作创造了一个新的技术水平。

1. Introduction

此外，本文还定义了本文的点云过分割的最终目标，即通过提供语义上纯粹的重叠来辅助语义分割方法。本文证明，本文的方法可以与文献[27]中的超点图方法相结合，显著地改进分割步骤，从而实现语义分割。

本文的贡献如下：

•本文提出了第一个三维点云过度分割的超级框架；

•本文引入了图形结构的对比损失，它可以与本文的交叉划分加权策略相结合，在对象边界生成具有高对比度的点嵌入；

•本文引入局部点嵌入器，这是一种轻量级架构，灵感来自[36]，以紧凑的方式嵌入三维点的局部几何和辐射测量；

•本文显著改善了两个已知且非常不同的数据集的点云过度分段的最新技术；

•在结合超点图语义分割方法的基础上，本文的方法也提高了这项工作的技术水平。

2. Related work

超级像素/超级体素：

有大量关于将图像过度分割为超级像素[44]和视频过度分割为超级体素[51]的文献。这些方法可以分为两组：基于图的方法利用像素的连接性[11，16，31]和基于簇的方法利用像素的相对位置[1，46，52，28]。最*，深度学*方法被成功地用于开发超混合过分割方法，无论是基于图的方法[32]，还是基于簇的方法[24]。

三维点云的过度分段：

上述方法在图像上表现良好，但依赖于像素的规则结构。三维点云作为分布不规则的无序点集，需要特别关注。[4] 提出了二维局部变分图方法[11]的三种扩展，并研究了构造图、边权和子图合并的不同策略。[43]介绍了一种图结构方法，该方法利用激光雷达传感器的结构去除与边界点相对应的边缘。[34]提出了一种基于k-均值算法和八叉树的聚类方法。但是，此方法对群集的初始化仍然敏感。[12] 利用RGBD图像的视觉显著性初始化聚类。[30]提出了一种不需要初始化的聚类方法，因此对激光雷达点云的不规则密度不太敏感。同样，[17]引入了一个无初始化的分割模型，该模型被描述为一个图结构优化问题。所有这些方法都依赖于手工制作的几何和/或色度特征。

三维点云深度学*：

[36]中的工作开创了将深度学*用于三维点云处理的先河。然而，迄今为止，这种用法仅用于语义分割[29、45、9、41、38、37、53、49]、对象检测[56]或重建[15]。据本文所知，还没有开发出利用基于深度学*的嵌入来生成超点的有监督的三维点过度分段技术。

度量学*：

度量学*旨在学*具有与给定任务相对应的属性的数据点之间的相似函数[25]。在实际应用中，嵌入函数将每个数据点与调谐到给定目标的特征向量相关联。这些目标可以与分类[13，40]或聚类[42，19]以及许多其他应用相关（参见[2]了解有用的分类）。在深入学*的背景下，这可以通过使用精心选择的损失来实现，例如对比损失[8，5]；三重损失[20]或其一些变体[48]。值得注意的是，度量学*最*被用于提高三维点语义分割任务的学*特征的质量[10]。然而，本文的任务是不同的，因为本文的嵌入是通过一个图划分问题而不是分类来实现的。

3. Method

本文的目标是产生一个高质量的三维点云过分割，以便它可以反过来用于基于超点的语义分割算法。这转化为以下三个属性：

（P1）对象纯度：重叠点不能重叠在对象上，特别是当它们的语义不同时；

（P2）边界回忆：重叠点之间的界面必须与物体之间的边界重合；

（P3）规律性：重叠点的形状和轮廓必须简单。

本文的方法可以分为两个步骤：在第3.1节中，本文提出了局部云嵌入器，一个简单的神经网络，它将每个点与一个紧凑的嵌入相关联，该嵌入器捕获其局部几何和辐射测量。在第3.2节中，本文描述了如何使用基于图或基于簇的过分割算法从该嵌入计算点云过分割。

本文的目标是将一个紧凑的维度嵌入ei关联到每个点，该嵌入ei描述其点特征（位置、颜色等）及其局部邻域的几何和辐射测量。如[47]所建议，嵌入被限制在m单位球面Sm内，以防止在训练阶段崩溃，并使它们彼此之间的距离标准化。为此，本文引入了本地点嵌入器（LPE），这是一个受PointNet[36]启发的轻量级网络。

然而，与PointNet不同，LPE并不试图从整个输入点云中提取信息，而是基于纯本地信息对每个点进行编码。在这里，本文描述网络的不同单元。空间变换：该单元采用目标点pi及其局部k邻域pi的位置，如图2所示。它规范化了圆周率周围邻域的坐标，使得点位置的标准偏差等于1（3）。然后，利用由小点网络PTN（4）计算的2×2旋转矩阵，将该邻域绕z轴旋转。如[23]所倡导的，这些步骤旨在标准化每个点的邻域云的位置。这有助于下一个网络学*位置分布。

如前所述，语义纯度属性（P1）是超点的第一个质量。曾经可以想象，把估计（9）解的语义纯度的度量作为损失函数。然而，GMP是一个非连续的非凸优化问题，在图上计算连通分量是不可微的。这使得直接针对分区属性进行优化非常困难，甚至是不可能的。相反，本文注意到，如果实现了border recall属性（P2）（即，超级点和对象共享相同的边界），那么（P1）随之发生。因此，本文提出了一种称为图结构对比损失的替代损失，重点在于正确检测对象之间的边界。为此，本文定义了入口一组内部边缘为同一对象内的点。

本文使用了一种改进版的“0-cut追踪算法”[26]，主要有两个不同点：

•为了防止在高对比度区域产生许多小的超点，本文贪婪地合并（9）中定义的目标能量，只要它们小于给定的阈值；

•本文从[26]中试探性地改进了前进步骤（8），使得正则化强度沿着迭代几何地增加了一个因子（0.7）。

这有助于提高检索到的较低的optima的质量，从而提高过度分段的质量。为了限制重叠点的大小，本文将它们的三维坐标嵌入（9）乘以参数αspatial，如[1]所示。这决定了超级点可以达到的最大大小。在所有的实验中，本文把m的嵌入维数设为4。本文为LPE选择了一个光架构，参数小于15000。附录中详细说明了每个数据集的确切网络配置。

4. Numerical Experiments

本文在两个不同性质的数据集上评估本文的方法。第一个是S3DIS[3]，由办公室环境中房间的密集室内扫描组成。第二个是vKITTI[9]，一个模拟稀疏激光雷达采集的室外城市场景数据集。注意，只有S3DIS有单独的对象注释。本文将vKITTI的对象看作是邻接图G中语义标签的连通成分，对于vKITTI，本文考虑了算法在有无颜色信息的情况下的性能。这两个数据集都是大规模的（S3DIS接*6亿点，vKITTI接*1500万点）。本文使用规则的体素网格对它们进行子采样（对于S3DIS为3cm宽，对于vKITTI为5cm宽）。在每个体素中，本文平均包含点的位置和颜色。这样可以减少计算时间和内存负载。

5. Conclusions

在本文中，本文提出了第一个超级三维点云过分割框架。使用一个简单的点嵌入网络和一个新的图形结构损失函数，本文能够实现显著的改善相比，最先进的点云过度分段。当与基于超点的语义分割方法相结合时，本文的方法也为语义分割的研究开辟了一个新的领域。

视频插图可在https://youtu.be/bKxU03tjLJ4上获取。源代码将在superpointgraph repository2的更新中提供给社区和经过培训的网络。今后的工作将着重于改进广义最小分块问题的求解方法，以更好地处理球有界变量，提高其计算性能。

深度学*点云语义分割：CVPR2019论文阅读的更多相关文章

CVPR2020：4D点云语义分割网络（SpSequenceNet）
CVPR2020:4D点云语义分割网络(SpSequenceNet) SpSequenceNet: Semantic Segmentation Network on 4D Point Clouds 论 ...
多目标跟踪：CVPR2019论文阅读
多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.0385 ...
快速人体姿态估计：CVPR2019论文阅读
快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...
深度学习笔记（七）SSD 论文阅读笔记简化
一. 算法概述本文提出的SSD算法是一种直接预测目标类别和bounding box的多目标检测算法.与faster rcnn相比,该算法没有生成 proposal 的过程,这就极大提高了检测速度.针 ...
深度学习笔记（七）SSD 论文阅读笔记
一. 算法概述本文提出的SSD算法是一种直接预测目标类别和bounding box的多目标检测算法.与faster rcnn相比,该算法没有生成 proposal 的过程,这就极大提高了检测速度.针 ...
3D点云深度学*
3D点云深度学* 在自动驾驶中关于三维点云的深度学*方法应用.三维场景语义理解的方法以及对应的关键技术介绍. 1. 数据但是对于3D点云,数据正在迅速增长.大有从2D向3D发展的趋势,比如在open ...
CVPR2020：点云弱监督三维语义分割的多路径区域挖掘
CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...
语义分割--全卷积网络FCN详解
语义分割--全卷积网络FCN详解 1.FCN概述 CNN做图像分类甚至做目标检测的效果已经被证明并广泛应用,图像语义分割本质上也可以认为是稠密的目标识别(需要预测每个像素点的类别). 传统的基于C ...
几篇关于RGBD语义分割文章的总结
最近在调研3D算法方面的工作,整理了几篇多视角学习的文章.还没调研完,先写个大概. 基于RGBD的语义分割的工作重点主要集中在如何将RGB信息和Depth信息融合,主要分为三类:省略. 目录 ...

随机推荐

03- HTML基本结构
初始HTML HTML(英文Hyper Text Markup Language的缩写)中文译为"超文本标签语言",主要是通过HTML标签对网页中的文本.图片.声音等内容进行描述. ...
基于frida框架Hook native中的函数(1)
作者:H01mes撰写的这篇关于frida框架hook native函数的文章很不错,值得推荐和学习,也感谢原作者. 0x01 前言关于android的hook以前一直用的xposed来hook j ...
XML和JSON数据格式
目录 XML DTD(文档类型定义) DTD实体 JSON 使用python解析JSON数据 XML和JSON的区别 XML的优缺点 JSON的优缺点 XML和JSON都是web存储和传输过程中数据的 ...
windows-DLL注入
DLL注入刚刚整理的代码注入(远程线程注入)现在整理这个DLL注入,DLL注入比较常用,相比远程代码注入DLL注入没有什么太多的限制,而且实现起来比较简单,当然远程线程需要注意的问题DLL很 ...
scrapy爬虫案例--爬取阳关热线问政平台
阳光热线问政平台:http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1 爬取最新问政帖子的编号.投诉标题.投诉内容以 ...
《前端运维》一、Linux基础--基础命令（1）
在开始之前,你需要做一些准备工作,去阿里买一台服务器,服务器的具体细节其实并不是十分重要,我也不会在这里一步一步的教大家如何去买一个服务器.百度一下足够了,但是还是要贴一下这篇文章中,我所使用的服务器 ...
【python】Leetcode每日一题-寻找旋转排序数组中的最小元素2
[python]Leetcode每日一题-寻找旋转排序数组中的最小元素2 [题目描述] 已知一个长度为 n 的数组,预先按照升序排列,经由 1 到 n 次旋转后,得到输入数组.例如,原数组nums ...
pr加字幕
选择免费字体自由字体整理了免费的商用字体安装字体将下载好的.ttf文件,右键选择为所有用户安装如果没有选择为所有用户安装,你在Arctime或者premiere中可能无法找到这个字体而且想要 ...
逆向工程初步160个crackme-------3
这个Crackme3 涉及到浮点指令以及浮点数的存储与运算,我没学习过浮点指令,不得不从网上恶补了1个小时,一边看汇编指令一边百度其指令含义. 回头得好好补补这方面的知识了,太菜了! 我大致了解了一下 ...
逆向工程初步160个crackme-------7
这两天有点发烧,被这个疫情搞得人心惶惶的.我们这里是小镇平常过年的时候人来人往的,今年就显得格外的冷清.这是老天帮让在家学习啊,破解完这个crackme明天就去接着看我的加密解密,算了算没几天就开学了 ...

深度学*点云语义分割：CVPR2019论文阅读

深度学*点云语义分割：CVPR2019论文阅读的更多相关文章

随机推荐

热门专题