再一次轮到讲自己的paper！耶，宣传一下自己的工作，顺便完成中文博客的解读方便大家讨论。

Title Picture

Reference and pictures

paper: https://arxiv.org/abs/2401.16122

code: https://github.com/KTH-RPL/DeFlow

b站视频: https://www.bilibili.com/video/BV1GH4y1w7LQ

1. Introduction

这个启发主要是和上一篇动态障碍物去除的有一定的联系，去除完了当然会开始考虑是不是可以有实时识别之类的，比起只是单纯标记1/0 的动和非动分割以外会是什么？然后就发现了任务：scene flow，其实在2D可能更为人所熟知一些：光流检测，optical flow，也就是输入两帧连续的图片，输出其中一张的每个pixel的运动趋势，NxNx2，其中N为图片大小，2为x，y两个方向上的速度

对应的 3D情况下则是切换为输入是两帧连续的点云帧，输出一个点云帧内每个点的运动，Nx3，N为点云帧内点的个数，3为x, y, z三个轴上的速度

Motivation

首先关于在自动驾驶的光流任务，我们希望的是能满足以下两个点：

Real Time Running 10Hz
能负担的起大量点云的输入 32或64线至少都是6万个点/帧起步了随便选kitti 一帧点数是：125883~=12万；而之前大部分光流论文还停留在max point=8192，然后我当时（2023年8月附近）随手选了最新cvpr的sota：SCOOP一文，一运行就cuda out of memory；问作者才知道领域内默认max=8192 number of point

那么Voxelization-based method就是其中大头 or 唯一选择了；

接着故事就来到了启发DeFlow的点：在查看最近工作（于2023年8月附近查看），阅读相关资料时发现，很多自监督的paper都声称自己超过了某篇监督的模型效果，也就是Waymo在RA-L发的一篇dataset顺带提出了FastFlow3D（官方闭源，民间有复现）；但是实际上 FastFlow3D本身就是参考3D detection那边网络框架进行设计的，仅将最后的decoder 连一个 MLPs 用以输出point flow

在我们的实验中发现，特别是在resolution用的20cm的时候，效果确实不好，主要原因集中在于下图2，统计发现如果一个点在动（速度≥0.5m/s），那么绝大多数都是在0.2以下的距离内运动；那么动一动脑筋，我们就想到了调参，直接把resolution调到10cm不就行了？没错！DeFlow 实验表格 Table III 第三行证明确实直接double kill

那么我们就知道了20cm 的栅格化分辨率下，点都在一个栅格里运动，所以前期pillar encoder 根本无法学出同一个voxel内不同点的feature，而FastFlow3D本身的decoder又是非常简单的MLP提取，无法实现voxel-to-point feature extraction

Contribution

所以我们的贡献就以以上为基础来讲述的啦，总结就是：1、提出了一个基于GRU voxel-to-point refinement的decoder；2、同时分析了以下loss function的影响并快速提了一个新的；3、最后实验到 AV2 官方在线榜单的SOTA

note：所有代码，各种对比消融实验和刷榜所用的model weight全部都开源供大家下载查阅，欢迎star和follow up：https://github.com/KTH-RPL/DeFlow

2. Method

非常简单易懂的方法部分，特别配合代码使用

2.1 Input & Output

输入是两帧点云，具体一点和FastFlow3D还有一系列的3D detection 一样；我们会先做地面去除，所以实际输入已经去掉了地面的 $P_t, P_{t+1}$

然后我们要估计的是 P_t 的 flow F，其中根据ego pose信息，我们也专注于预测除pose flow外的，也就是环境内的属于动态物体带速度的点

2.2 Decoder

看代码可能更快一点，论文和图主要是给了一个insight ：

从pillar point feature提过来走MLP extend feature channel 作为更新门 Z_t
然后由经过U-Net后的voxel feature 作为initial H_0，之后由再根据迭代次数每次得到更新的 H_

此处为对照代码，方便大家直接对照查看，具体在以下两个文件：

def forward_single(self, before_pseudoimage: torch.Tensor,

                   after_pseudoimage: torch.Tensor,

                   point_offsets: torch.Tensor,

                   voxel_coords: torch.Tensor) -> torch.Tensor:

    voxel_coords = voxel_coords.long()

    after_voxel_vectors = after_pseudoimage[:, voxel_coords[:, 1],

                                            voxel_coords[:, 2]].T

    before_voxel_vectors = before_pseudoimage[:, voxel_coords[:, 1],

                                              voxel_coords[:, 2]].T

    # [N, 64] [N, 64] -> [N, 128]

    concatenated_vectors = torch.cat([before_voxel_vectors, after_voxel_vectors], dim=1)

    # [N, 3] -> [N, 64]

    point_offsets_feature = self.offset_encoder(point_offsets)

    # [N, 128] -> [N, 128, 1]

    concatenated_vectors = concatenated_vectors.unsqueeze(2)

    for itr in range(self.num_iters):

        concatenated_vectors = self.gru(concatenated_vectors, point_offsets_feature.unsqueeze(2))

    flow = self.decoder(torch.cat([concatenated_vectors.squeeze(2), point_offsets_feature], dim=1))

    return flow

然后self.gru则是由这个常规ConvGRU module生成，forward和如下公式直接对应

\[ \mathbf{H}_t=\mathbf{Z}_t \odot \mathbf{H}_{t-1}+\left(1-\mathbf{Z}_t\right) \odot \tilde{\mathbf{H}}_t \tag{3}
\]

# from https://github.com/weiyithu/PV-RAFT/blob/main/model/update.py

class ConvGRU(nn.Module):

    def __init__(self, input_dim=64, hidden_dim=128):

        super(ConvGRU, self).__init__()

        self.convz = nn.Conv1d(input_dim+hidden_dim, hidden_dim, 1)

        self.convr = nn.Conv1d(input_dim+hidden_dim, hidden_dim, 1)

        self.convq = nn.Conv1d(input_dim+hidden_dim, hidden_dim, 1)

    def forward(self, h, x):

        hx = torch.cat([h, x], dim=1)

        z = torch.sigmoid(self.convz(hx))

        r = torch.sigmoid(self.convr(hx))

        rh_x = torch.cat([r*h, x], dim=1)

        q = torch.tanh(self.convq(rh_x))

        h = (1 - z) * h + z * q

        return h

所以和其他对GRU的用法不同，主要是我们将其用于voxel和point 之间细化特征提取了，当然代码里也有我第一次的MM TransformerDecoder 和直接的 LinearDecoder尝试 hahah；前者太慢了，主要是点太多我分了batch；后者效果不行，带代码就当附带都留下来了

然后论文里讲了以下loss function的设计，过程简化以下就是：之前的工作一般，在和gt的norm基础上都自己给设计不同的权重，比如这里的 $\sigma$

结论就是我们这样设计的，根据ZeroFlow的三种速度划分，我们不用权重而是直接unified average；实验部分会说明各个module的进步

OK 方法到这里就结束了，自认为非常直觉性的讲故事下来的 hahaha，然后很多实验在各种角度模块进行证明我们的statement

3. Experiments

这个是直接抽的leaderboard的表格，具体每个方法的文件见 https://github.com/KTH-RPL/DeFlow/discussions/2

前三者都是自监督每篇都说超过了监督方法 FastFlow3D，但实际上只是baseline weak了，或者说他们比不过 FastFlow3D 10cm (0.1m)的分辨率，ZeroFlow XL就是把分辨率降到了0.1 然后加大了网络；OK leaderboard (test set 只能上传到在线平台评估) 的分析就这样了，知道SOTA就行

接下来的所有评估都是本地的，因为在线平台有提交次数限制 hahaha；首先贴出 Table III：注意这之中仅改变了decoder，其他loss func, learning rate, 训练条件均保持一致

这张表格也就是我们说的我们的decoder提出不需要细化10cm分辨率；因为这样GPU的Memory 大大上升了，总得留点给其他模块用嘛，见FastFlow3D 0.1 第三行

而我们保持了20cm的分辨率速度和GPU内存使用均无太多上涨的情况下，我们的EPE 3-Way的分数甚至比FastFlow3D 细化10cm的还要好，误差比原来的低了33%

Ablation Study

Loss Function：注意此处我们全部使用FastFlow3D的network，仅loss function不同而已

decoder iter number：其实我不太想做这个实验，但耐不住可能审稿人要问，所以我当时initial是选2/4跑的，毕竟多了降速 hahaha；此处全部使用deflow，仅iteration number不同，所以第二行可以认为是deflow: our decoder+our loss的效果（因为Table III为了对decoder的消融，所以其实我们使用的是fastflow3d提出的loss function；途中有韩国老哥没看论文，只要结果，所以他跑提供的weight的结果比我好，其实是他看错了表 lol）

结果可视化

主要就是快速看看就行，code那边还有10秒 demo视频可看

4. Conclusion

结论重复了一遍贡献

然后说了以下future work：自监督的模型训练，毕竟gt难标呀；欢迎查看最新ECCV2024的工作SeFlow，也就是我当时写下future work的时候已经在尝试路上的时候了；同开源（只要我主手的工作都开源并在文章出版前 code上传完全能复现论文结果，我的信条 hahaha）

https://github.com/KTH-RPL/SeFlow

赠人点赞手有余香；正向回馈才能更好开放记录 hhh

【论文阅读】自动驾驶光流任务 DeFlow: Decoder of Scene Flow Network in Autonomous Driving的更多相关文章

论文阅读（XiangBai——【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification )
目录 XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文 ...
论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录作者和相关链接方法概括创新点和贡献方法 ...
论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）
Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录作者 ...
论文阅读（Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement）
Lukas Neuman--[ICDAR2015]Efficient Scene Text Localization and Recognition with Local Character Refi ...
激光雷达Lidar与毫米波雷达Radar：自动驾驶的利弊
激光雷达Lidar与毫米波雷达Radar:自动驾驶的利弊 Lidar vs Radar: pros and cons for autonomous driving 新型无人驾驶汽车的数量在缓慢增加,各 ...
斯坦福发布2019全球AI报告：中国论文数量超美国，自动驾驶汽车领域获投资最多
近日,斯坦福联合MIT.哈佛.OpenAI等院校和机构发布了一份291页的<2019年度AI指数报告>. 这份长达291页的报告从AI的研究&发展.会议.技术性能.经济.教育.自动 ...
ICCV 2019|70 篇论文抢先读，含目标检测／自动驾驶／GCN／等（提供PDF下载）
虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(http ...
论文阅读笔记四十三：DeeperLab: Single-Shot Image Parser（CVPR2019）
论文原址:https://arxiv.org/abs/1902.05093 github:https://github.com/lingtengqiu/Deeperlab-pytorch 摘要本文提 ...
自动驾驶研究回顾:CVPR 2019摘要
我们相信开发自动驾驶技术是我们这个时代最大的工程挑战之一,行业和研究团体之间的合作将扮演重要角色.由于这个原因,我们一直在通过参加学术会议,以及最近推出的自动驾驶数据集和基于语义地图的3D对象检测的K ...
多目标跟踪：CVPR2019论文阅读
多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.0385 ...

随机推荐

Python 潮流周刊#49：谷歌裁员 Python 团队，微软开源 MS-DOS 4.0
本周刊由 Python猫出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...
4.10 + (double)(rand()%10)/100.0
黑色星期四坏消息: 没有奥赛课,所以大概率调不出来 CF1479D 好消息: 5k 回来了,调题有望中午起床直接来的机房,有学科自习就说氟硫氢不知道结果被叫回去了而且今天班里没水了,趁着大 ...
【详细教程】手把手教你开通YouTube官方API接口(youtube data api v3)
一.背景调查 1.1 youtube介绍众所周知,youtube是目前全球最大的视频社交平台,该平台每天产生大量的视频内容,涵盖各种主题和类型,从音乐视频到教育内容,再到娱乐节目和新闻报道等.You ...
08. C语言函数
[函数基础] 函数用于将程序代码分类管理,实现不同功能的代码放在不同函数内,一个函数等于一种功能,其它函数可以调用本函数执行. C语言规定所有的指令数据必须定义在函数内部,比如之前介绍的程序执行流程控 ...
JavaScript中对数组.map()、some()、every()、filter()、forEach的区别
1.区别说明共同点: 不会对原数组发生修改,而是返回新的变量,用变量接收. 不同点: 1.some():返回一个Boolean类型变量,判断是否有元素符合func条件 2.every():返回一个B ...
html布局浅谈
现在布局方式主要分为三种传统css布局方案(position,float,line-height等配合).实现复杂,需要多种属性配合使用,兼容性最好. flex布局方案.弹性布局,实现方便,兼容性较 ...
C语言：输入一串字符串，统计字符串中有多少个数字
gets函数会在输入完字符后自动补上一个\0,所以用这个特性可以计算出字符串是否结束. 因为数字在字符中对应的ascii码就是0~9,只要遇到小于9的字符就是数字,所以计数器加一 #include&l ...
C 语言编程 — 头文件
目录文章目录目录前文列表头文件只引用一次头文件有条件引用 global.h 前文列表 <程序编译流程与 GCC 编译器> <C 语言编程 - 基本语法> <C ...
腾讯、阿里、B站最新面经汇总，有的妥妥的凉经
除了BAT(没错我说的B是B站的B),还有网易.希音科技.美柚等中小厂的最新面经. 这次投稿的同学行文幽默风趣,处处透漏着不成功便搞笑的骚气. 祝他早日上岸,也欢迎大家在评论区讨论这些面试题,有哪些面 ...
linux下常用的快捷键和$参数
1.下面介绍两个在linux下非常有用的$参数 2.!$ 表示引用上一个命令的最后一个参数,例子如下: [root@node5 ~]# echo '!$的作用是引用上一个命令的最后一个参数' > ...

【论文阅读】自动驾驶光流任务 DeFlow: Decoder of Scene Flow Network in Autonomous Driving