语义SLAM的数据关联和语义定位（一）

语义SLAM和多传感器融合是自动驾驶建图和定位部分比较热门的两种技术。语义SLAM中，语义信息的数据关联相较于特征点的数据关联有所不同。我们一般用特征描述子的相似性来匹配和关联不同图像中的特征点。特征点的描述子会受到光照、视角和传感器的影响，不太适用于大尺度长周期的任务，比如自动驾驶的高精度地图。得益于深度学习的快速发展，这些影响因素对于目标识别、语义分割来说已经不是最本质的困难，因此语义信息在高精度地图中越来越受重视。

语义SLAM数据关联的基本考虑

在SLAM中，语义信息的数据关仍然是一个值得研究的问题。这个问题的关键在于，一幅图像中可能检测出数个相同类别的目标物体，如何能够正确地将其对应于地图数据中已有的该类别的3D物体。

在语义SLAM中，虽然语义目标同样可以产生某种描述子（比如深度网络中的某些层），但对于相同类别且距离较近的目标，我们可能无法确定合理的对应关系。考虑到图像中的目标（10个左右）并不如特征点那样丰富（1000个左右），错误的匹配并不方便通过RANSAC算法来排除（样本不足）。

下面列出几种有用的因素。

较为准确的先验估计（姿态），比如通过IMU、GPS、里程计等。
能够得到VO和目标的准确位置，比如双目、深度摄像头、结合激光等。
地图中有很多（局部）唯一确定的路标物体。
考虑所有可能的数据关联。

利用第一点，我们能够使用一些简单的方法建立数据关联，但此时仍需考虑错误关联的影响。

利用第二点，我们能够准确地重建出语义目标的几何特性（空间位置、朝向等）。X-View: Graph-Based Semantic Multi-View Localization这篇文章将多帧的语义目标位置组合成图，利用图匹配算法求解相机在全局地图中的位置（只定位不建图）。

利用第三点，我们能够方便地确定关联关系。比如，行车道上的交通指示牌结合文字OCR识别，能够唯一确定该路牌的位置，相当于一个全局观测。比如，考虑到交通指示牌相互之间的间距很大，在局部唯一，因此结合GPS和指示牌即可唯一确定该指示牌的位置。根据Mobileye的REM的专利描述，它们可能利用了该类信息。

第四点即是本文想讲解的一种方法。

文章的出发点和创新点

本文主要想介绍一篇基于概率模型的语义定位方法。文章名字是Semantic Localization Via the Matrix Permanent，是 University of Pennsylvania 的GRASP实验室。还有一篇类似的文章，名字是Localization from semantic observations via the matrix permanent。他们组后续一篇文章Probabilistic Data Association for Semantic SLAM得了ICRA2018最佳论文奖。

本篇文章的出发点是用概率模型建模数据关联过程，通过求解后验概率\(p(Z|Y,X)\)，利用粒子滤波的框架求解姿态\(X\)。其中，\(Z\)是观测，\(Y\)是地图中的路标点（landmark），\(X\)是姿态（pose）。这里假设地图已经建立，其中路标点的位置、类别等信息已经包含在地图中。文章的模型基于很少的先验假设，只需要语义信息和一些识别算法的先验概率，因此有很广的适用范围。

这篇文章的创新点个人总结有以下几点。

尝试去建立路标点和观测之间的所有可能的概率关联，而不是一对一的数据关联。这样的好处是避免一对一关联中错误关联的影响。因为在语义SLAM中，语义信息的数量相比于特征点而言是稀少的，因此不当的数据关联的个数应当尽可能的少，否则可能导致姿态估计很快出现漂移。
考虑了目标识别中的错误率和漏检率。
优化了后验概率的计算方法。建立整个概率分布是一个\(N!\)复杂度的问题，作者将其转化为一个多项式复杂度的问题。

作者在文章中只用了语义信息，还没有应用传统SLAM和多传感器融合的方法。如果要应用到实际中，可能可以融合一些其它的想法。另外，这篇文章并没有开源代码能够参考，运行速度上肯定也需要优化。

先写这些吧，下次再介绍一些具体的内容。