Type: ICRA

Year: 2022

tag: SLAM

参考与前言

论文链接：https://arxiv.org/abs/2109.10165

代码链接：https://github.com/ethz-asl/panoptic_mapping

1. Motivation

为了和环境内其他机器人进行交互，access to volumetric and semantic maps是很重要的。而对于长时间段，环境多少都会发生变化，而构建地图时我们也应当考虑到这点

提出了一种针对变换环境的 novel representation panoptic multi-TSDFs for multi-resolution volumetric mapping

背景介绍

volumetric representations:

occupancy
Truncated Signed Distance Fields (TSDF)

但是这类fixed grid结构使得这一类方法耗memory 而且对于变化的东西渲染也不灵活变化，本篇工作主要是 invert this paradigm and explore how semantic information can be leveraged to improve the modeling of geometry and achieve temporal consistency，也就是如何利用语音信息进行改进几何建模并实现时空上的连续性

[11, 12] spatially consistent volumetric mapping
[5, 6, 13] moving object reconstruction

Contribution

提出了全景 multi-TSDF 作为可调整的volumetric map representation，这样能满足capture long-term object-level scene changes
提出了能使全景 multi-TSDF 在 online operation 对 temporally consistent mapping
相关实验及开源

2. Method

本工作并不是优化 segmantic labeling，而是 explore high-level information 以便能实现多分辨率三维重建和temporal consistency

2.1 框架

输入是RGBD相机上的彩色图像和深度图像，由此来预测我们的语义信息，此处主要使用了[33]的语义输出，所以文章整体的重点并不是在如何构建语义地图，而是从别的模块拿取这一信息

2.2 地图表示

主要是使用object作为最小的单位，然后整个world就是 a collection of panoptic entities, structured as submaps，所以我们将分为三类：objects, background, free space，每一个submaps包含有这个entity的信息，比如类别或是free space ，为了是实现每个submap的temporal consistency，我们将其分为active和inactive的，其中

active 表明现在正在被跟踪、建立
inactive则是过去的观测 observations

为了表示几何，我们选取TSDF grids[2]进行表示，同时TSDF可以融合多帧观测；被object占据的空间会分成blocks，只有blocks才包含有surface information

对于traversal submap，则是将object在blocks上用一个球进行扩展；每个block都包含有 a dense grid of voxels 去存储TSDF值

2.3 Label Tracking

首先是使用了marching cubes [34] 对每个submap的iso-surface进行计算，随后将view frustum上的点投影到图像平面中

对于点的深度有tolerance \(\xi_d=\nu\) 其中v表明TSDF的voxel size，当此深度被认为是有效的时候，填充此patch为v，注意input segment以IoU进行筛选

在label tracking和更新时，submaps为被跟踪t=3帧来确保它被kept，如果submaps在t=5帧间没有被检测，则视为deactivated

2.4 Integration 集成

TSDF的更新权重 [2]，其中fx, fy为相机的参数，z(v)为v voxel的深度值

\[w_{i n}(v)=\frac{f_x * f_y * \nu^2}{z(v)^4}
\]

对应函数：

float ProjectiveIntegrator::computeWeight(const Point& p_C,

                                          const float voxel_size,

                                          const float truncation_distance,

                                          const float sdf) const {

  // This approximates the number of rays that would hit this voxel.

  float weight =

      cam_config_->fx * cam_config_->fy * std::pow(voxel_size / p_C.z(), 2.f);

  // Weight reduction with distance squared (according to sensor noise models).

  if (!config_.use_constant_weight) {

    weight /= std::pow(p_C.z(), 2.f);

  }

  // Apply weight drop-off if appropriate.

  if (config_.use_weight_dropoff) {

    const float dropoff_epsilon =

        config_.weight_dropoff_epsilon > 0.f

            ? config_.weight_dropoff_epsilon

            : config_.weight_dropoff_epsilon * -voxel_size;

    if (sdf < -dropoff_epsilon) {

      weight *=

          (truncation_distance + sdf) / (truncation_distance - dropoff_epsilon);

      weight = std::max(weight, 0.f);

    }

  }

  return weight;

}

关于每个voxel上的概率更新

代码对应 count probability 公式(2)

float BinaryCountVoxel::getBelongingProbability() const {

  return static_cast<float>(belongs_count) /

         static_cast<float>(belongs_count + foreign_count);

}

void BinaryCountVoxel::incrementCount(const int id, const float weight) {

  // ID 0 is used for belonging voxels.

  if (id == 0u) {

    belongs_count++;

  } else {

    foreign_count++;

  }

}

2.4 Map Management

首先是关于inactive submaps会frozen 仅对他们状态进行更新 \(C(S) \in \{\text{persistent, unobserved, absent}\}\)

为了对比两个submaps，我们对每个iso-surface point的SDF和weight进行插值。

如果sdf小于一个值，则加入进更新和计算。

\[\hat{w}(p)=\sqrt{\min \left(\frac{w(p)}{\xi_w}, 1\right) * \min \left(\frac{w_{r e f}(p)}{\xi_w}, 1\right)} \tag{5}
\]

结合TSDF权重，再给对应每个点权重的更新

float TsdfRegistrator::computeCombinedWeight(float w1, float w2) const {

  if (w1 <= 0.f || w2 <= 0.f) {

    return 0.f;

  } else if (w1 >= config_.normalization_max_weight &&

             w2 >= config_.normalization_max_weight) {

    return 1.f;

  } else {

    return std::sqrt(std::min(w1 / config_.normalization_max_weight, 1.f) *

                     std::min(w2 / config_.normalization_max_weight, 1.f));

  }

}

// Compute the weight to be used for counting.

if (config_.normalize_by_voxel_weight) {

  weight = computeCombinedWeight(weight, point.weight);

  total_weight += weight;

} else {

  weight = 1.f;

}

为了在下游任务中使用，efficient queries are 是很重要的（迅速查询）。为了实现这一特性，对于我们的hierarchical map representation 我们仅考虑与查询点p相交的submaps和blocks

如果这个点是处于active submap，直接使用最高的分辨率
否则sdf(p) 则为到 any persistent submap 的最小距离

3. 实验及结果

首先是我们的方法在重建误差上最小，同时因为multi-resolution，能保持与其他方法在相同范围分辨率情况下的map size也更小

monolithic map as in [3,8,9]
Long-term fusion: [26] for volumetric maps (our implementation)

从图六折线图，可以看到一开始 Monolithic no map的误差还比较低，但会随时间而类似误差，其他with map和fusion等都会误差降低，由于semantic consistency的加入，我们的方法可以保持稳定误差范围内

如上更多关于误差和计算时间的表格，下面为定性图：

4. Conclusion

主要是提出了全景的multi-TSDFs，是一种可以多分辨率volumetric mapping下新型的representation

我们提出的submap-based方法能实现语义上在时间上的连续性，同样保证高分辨率的准确度

未来的工作可以在segmentation refinement 和 short-term dynamics，同时也可以提升在变化环境下的重定位算法效果

碎碎念

第一次看mapping类，cpp代码真的是套娃(继承)起飞，感觉完全弄懂代码还需要点时间，不过大概就是以下几点：

得益于TSDFs 信息配合下一条，能有效降低map size
根据不同的物体进行不同的分辨率赋值
时间上 binary, count 概率，同时配合TSDF有权重更新，所以可以建出变化图形
一种 map 新型的表达方式

赠人点赞手有余香；正向回馈才能更好开放记录 hhh

【论文阅读】ICRA2022: Panoptic Multi-TSDFs: a Flexible Representation for Online Multi-resolution Volumetric Mapping and Long-term Dynamic Scene Consistency的更多相关文章

【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes ECCV2018 北京大学.face++ 思路: ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
BITED数学建模七日谈之三：怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
论文阅读笔记六：FCN：Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
论文阅读：Prominent Object Detection and Recognition: A Saliency-based Pipeline
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline 如上图所示,本文旨在解决一个问题:给定一张图像, ...

随机推荐

C#使用MX Component实现三菱PLC软元件数据采集的完整步骤（仿真）
前言本文介绍了如何使用三菱提供的MX Component插件实现对三菱PLC软元件数据的读写,记录了使用计算机仿真,模拟PLC,直至完成测试的详细流程,并重点介绍了在这个过程中的易错点,供参考. 用 ...
ansible系列(24)--ansible的loop循环语句
目录 1. loop循环语句 1.1 使用循环批量安装软件 1.2 使用循环批量启动服务 1.3 使用循环批量创建用户 1.4 使用循环批量拷贝文件 1. loop循环语句在写 playbook 的 ...
海康威视web插件安装后，谷歌浏览器还是不能看视频问题
首先要根据弹出的信息提示,下载并安装视频播放插件, 安装完成后重新打开谷歌浏览器,重新登录系统,如果还是不能看视频,请按下面的方法设置: 步骤1:谷歌浏览器,地址栏中输入:chrome://flags ...
addEventListener添加事件监听
removeEventListener移除事件监听 window.addEventListener('mousedown', e => this.closeMenu(e)) window.add ...
jeecg-boot中分页接口用自定义sql和实体实现
1.controller实现 @RequestMapping(value = "/list", method = RequestMethod.GET) public Result& ...
Spring 对于事务上的应用的详细说明
1. Spring 对于事务上的应用的详细说明 @ 目录 1. Spring 对于事务上的应用的详细说明每博一文案 2. 事务概述 3. 引入事务场景 3.1 第一步:准备数据库表 3.2 第二步: ...
Google出品的NotebookLM 人工智能笔记本，一款基于RAG的personalized AI产品
Google推出了实验性的NotebookLM产品,一款基于RAG的个性化AI助手产品,基于用户提供的可信信息,通过RAG,帮助用户洞察和学习参考内容,然后借助AI整理笔记,转换为用户最终需要的大纲. ...
Github打不开解决办法（最新有效）
Github打不开解决办法(最新有效) 1. 先看没解决之前的截图: 2. 解决方法(手动修改DNS): 2.1 以win11为例,第一步:打开设置 - 网络和Internet,找到高级网络 ...
vue我自己的动态菜单思路
1.在router里把所有的路由都加上. 2.后端存储路由path和其他设计需要的信息. 3.登录后,后端返回菜单树,根据权限不同,返回的菜单不同,并且还要返回每个path代表的页面具有的权限数组.可 ...
使用Docker安装Odoo 17(非Docker Compose)
使用Docker安装Odoo 17(非Docker Compose) 前言最近在学习Odoo,先是windows 安装企业版,多年不用windows的服务器操作系统,一看windows的ECS那么贵 ...

【论文阅读】ICRA2022: Panoptic Multi-TSDFs: a Flexible Representation for Online Multi-resolution Volumetric Mapping and Long-term Dynamic Scene Consistency