Column: January 6, 2022 7:18 PM

Last edited time: January 30, 2022 12:14 AM

Sensor/组织: Oxford

Status: Finished

Summary: RIP out-of-distribution，怎样考虑不确定性识别现象做出处理

Type: ICML

Year: 2020

引用量: 46

正在进行中 → 参考的Youtube 比论文更好懂

参考与前言

项目主页：

Robust Imitative Planning

PMLR pdf + supplementary pdf：

Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts?

github：https://github.com/OATML/oatomobile

arxiv 地址：

Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts?

youtube (建议看看虽然有点长讲的比较通俗易懂型)：

https://youtu.be/p73GZZFGkq4

1. Motivation

友情链接：out-of-distribution

深度神经网络通常使用 封闭世界假设进行 训练即假设测试数据分布与训练数据分布相似。然而，当在现实世界的任务中使用时，这个假设并不成立，导致它们的性能显着下降。

为什么模型具有 OOD 脆性？
1. 神经网络模型可能严重依赖训练数据中存在的虚假线索和注释伪像 (spurious cues and annotation artifacts)，而 OOD 示例不太可能包含与分布中示例相同的虚假模式。
2. 训练数据不能涵盖分布的所有方面，因此限制了模型的泛化能力。

熟悉一下缩写：

OOD = out of distribution / 不在训练集出现的数据

RIP = robust imitative planning

Ada RIP = adaptive robust imitative planning

也就是如果在运行时遇到训练时没有遇到的场景/数据，模型虽然方差比较大，但是并没有利用上这个信息进行处理，本文主要做了：

在测试模型的时候，识别训练集中没遇到的场景，即OOD场景
在OOD场景中对模型进行判断是否相信及相信哪一个 或选择AdaRIP进行采样

问题场景

[Sugiyama & Kawanabe, 2012; Amodei et al., 2016; Snoek et al., 2019] 已经多次证明，当 ML 模型暴露于新环境时（即在 偏离训练集 观察到的分布的情况下）时，由于它们无法泛化，其可靠性会急剧下降，从而导致灾难性的结果

举例：在这幅图中，不同的Model给出了\(\mathbf y^1, \mathbf y^3\) 都不错，但这是因为这个场景 (大圆盘) 没有在训练集中出现过而现有模型评估的时候并没有考虑完全，所以本文提出的RIP会在这种场景下给出针对于follow path来说更好的 \(\mathbf y^3\)，图中 \(\text{min}_k\) 是指同一个轨迹 \(y_i\) 对应 q1, q2, q3 最小的

RIP 考虑模型之间的分歧，避免在 OOD 任务中过度自信导致灾难性路径结果外扩

虽然有其他比较trick的方法，比如直接限制车辆在车道线内，基于感知、e2e方法，但是这种也容易受到 spurious correlations. 也就会获得非因果特征而导致在OOD场景中动作的混乱

套娃一下关于 non-causal features that lead to confusion in OOD scenes (de Haan et al., 2019).

在介绍后半部分引用了一些人的工作现有的Baseline 但是他们都无法解决这个 out of distribution 问题比如 lbc, R2P2

Contribution

在 conclusion结论里有简洁版本主要就是：formulate out of distribution dataset的不确定性问题，提出RIP去解决这个不确定性问题使得model robust，最后提一个benchmark用来给大家进行自己模型 robust和OOD事件下的表现。

Epistemic uncertainty-aware planning：RIP 其实可以看做一个 Simple quantification of epistemic uncertainty with deep ensembles enables detection of distribution shifts.

通过采用贝叶斯决策理论和稳健的控制目标，展示了如何在不熟悉的状态下采取保守的行动，这通常使我们能够从分布变化中恢复（如图 1）

友情链接：Monte-Carlo Dropout（蒙特卡罗 dropout），Aleatoric Uncertainty，Epistemic Uncertainty
Uncertainty-driven online adaptation：自适应鲁棒模仿规划 (AdaRIP)，使用 RIP 的认知不确定性估计来有效地查询专家的反馈，用于即时适应，而不会影响安全性。因此，AdaRIP 可以部署在现实世界中：它可以推理它不知道的东西，并在这些情况下要求人工指导以保证当前的安全并提高未来的性能。
Autonomous car novel-scene benchmark：一个benchmark用来评估自动驾驶对一组分布外任务的鲁棒性。评估指标：
1. 检测 OOD 事件，通过违规和模型不确定性的相关性来衡量
2. recover from distribution shift，通过新场景中成功机动的百分比进行量化
3. 有效地适应 OOD 场景，提供在线监督

2. Method

首先是几点假设和公式说明：

专家数据：\(\mathcal{D}=\left\{\left(\mathbf{x}^{i}, \mathbf{y}^{i}\right)\right\}_{i=1}^{N}\)；其中，\(\mathbf x\) 是高维的观测输入， \(\mathbf y\) 是 time-profiled 专家轨迹，那么专家策略 expert policy 可以这样表示：\(\mathbf{y} \sim \pi_{\text {expert }}(\cdot \mid \mathbf{x})\)

方法中会使用模仿学习 approximate the unkonwn expert policy
假设 Inverse Dynamics：使用PID进行Low-level control，这样只需针对轨迹 \(\mathbf y=(s_1,\cdots,s_T)\) 动作由 low-level controller 来输出 \(a_{t}=\mathbb{I}\left(s_{t}, s_{t+1}\right), \forall t=1, \ldots, T-1\)
假设全局规划已有，假设真值定位信息get

简洁：模仿学习结果用高斯概率表示，学习分布的参数即可；然后在经过 aggregate和 plan 做出最后的选择

图一：摘自链接 youtube

其中aggregate步骤也就是上面的 \(⊕\) 算子，有图一中黄框计算所示的两种：

取策略中最差的选差的里面较高的（RIP-WCM） worst case model

受启发于 (Wald,1939)
另一种是全部相加除以数量（RIP-MA） model averaging

受启发于 Bayesian decision theory (Barber, 2012)
还有一种在论文中 RIP-BCM 是作者经验上找到的→ \(\max_k \log q_k\)

公式表示

2.1 专家数据

给出 experts plan 的分布情况 → 因为通常一般都直接是一个action但是softmax之前的应该也能算distribution吧？

Bayesian Imitative Model

training via MLE

在数据集 \(\mathcal{D}\) 下 distribution density models \(q(\mathbf y|\mathbf x; \theta)\) 的后验 \(p(\boldsymbol{\theta}|\mathcal{D})\) ，也就是通过数据集先学习到的模型参数，然后将其作为先验，进入 probabilisitc imitative mode

\[\boldsymbol{\theta}_{\mathrm{MLE}}=\underset{\boldsymbol{\theta}}{\arg \max } \mathbb{E}_{(\mathbf{x}, \mathbf{y}) \sim \mathcal{D}}[\log q(\mathbf{y} \mid \mathbf{x} ; \boldsymbol{\theta})] \tag{1}
\]
using probabilisitc imitative model \(q(\mathbf y|\mathbf x; \theta)\)；不同于之前(Rhinehart et al., 2020; Chen et al., 2019) 这里有一个关于模型参数的先验分布 \(p(\boldsymbol\theta)\) 用来代入

在观测 \(\mathbf x\) 下，专家做出 \(\mathbf y\) 的概率为 → 作者自己也说了 经验上 发现这样很有效

\[\begin{aligned}q(\mathbf{y} \mid \mathbf{x} ; \boldsymbol{\theta}) &=\prod_{t=1}^{T} p\left(s_{t} \mid \mathbf{y}_{<t}, \mathbf{x} ; \boldsymbol{\theta}\right) \\&=\prod_{t=1}^{T} \mathcal{N}\left(s_{t} ; \mu\left(\mathbf{y}_{<t}, \mathbf{x} ; \boldsymbol{\theta}\right), \Sigma\left(\mathbf{y}_{<t}, \mathbf{x} ; \boldsymbol{\theta}\right)\right)\end{aligned} \tag{2}
\]

其中 \(\mu(\cdot ; \boldsymbol \theta)\) , \(\Sigma(\cdot ; \boldsymbol \theta)\) 是两个RNN，尽管正态分布具有单峰性 unimodality ，但自回归（即，未来样本依赖于过去的正态分布的顺序采样）允许对多峰分布 multi-model distribution 进行建模

整个过程

使用 deep imitative models 的集合作为后验 \(p(θ|D)\) 的简单近似
考虑一个 K 个组件的集合，使用 \(θ_k\) 来指代我们的第 k 个模型 \(q_k\) 的参数
通过最大似然训练（参见公式 1和框架图 b 部分）

2.2 识别OOD

主要对比后验 \(p(\boldsymbol{\theta}|\mathcal{D})\) 下各个规划的disagreement 使用 \(\log q(\mathbf{y} \mid \mathbf{x} ; \boldsymbol{\theta})\) 的方差来指出同policy对不同轨迹的差异性有多大

\[u(\mathbf{y}) \triangleq \operatorname{Var}_{p(\boldsymbol{\theta} \mid \mathcal{D})}[\log q(\mathbf{y} \mid \mathbf{x} ; \boldsymbol{\theta})]\tag{3}
\]

低方差证明 in-distribution，高方差则是OOD

这个高低阈值怎么确定？

2.3 后规划

认知不确定性下的替代规划策略（下图红色部分）

摘自youtube中ppt

首先公式化在认知不确定性下对目标位置 G 的规划问题，即模型参数 \(p(\boldsymbol{\theta}|\mathcal{D})\) 的后验，作为通用目标的优化 (Barber, 2012)，我们称之为鲁棒模仿规划 (RIP)

\[\begin{aligned}\mathbf{y}_{\text {RIP }}^{\mathcal{G}} &\triangleq \underset{\mathbf{y}}{\arg \max } \overbrace{\underset{\boldsymbol{\theta} \in \text { supp }(p(\boldsymbol{\theta} \mid \mathcal{D}))}{\oplus}}^{\text {aggregation operator }} \log \underbrace{p(\mathbf{y} \mid \mathcal{G}, \mathbf{x} ; \boldsymbol{\theta})}_{\text {imitation posterior }} \\&=\underset{\mathbf{y}}{\arg \max } \underset{\boldsymbol{\theta} \in \text { supp }}{\oplus} \log \underbrace{q (\mathbf{y} \mid \mathbf{x} ; \boldsymbol{\theta})}_{\text {imitation prior }}+\log \underbrace{p(\mathcal{G} \mid \mathbf{y})}_{\text {goal likelihood }}\end{aligned}\tag{4}
\]

其中 \(⊕\) 是应用于后验 \(p(\boldsymbol{\theta}|\mathcal{D})\) 的算子（定义见前），并且目标似然由例如以最终目标位置 \(s^\mathcal{G}_T\) 为中心的高斯和预先指定的容差 \(p\) 给出 \(p(\mathcal{G} \mid \mathbf{y})=\mathcal{N}\left(\mathbf{y}_{T} ; \mathbf{y}_{T}^{\mathcal{G}}, \epsilon^{2} I\right)\)

这里有点像高斯过程了因为要在整个T时间内的高斯过程分布值

正如公式 4 里 plan \(\mathbf y_{RIP}^{G}\) ，我们最大化的主要是两个部分：来自专家数据下的 imitation prior，和接近最终目标点 G

原文中指出的关于后验 \(p(\boldsymbol{\theta}|\mathcal{D})\) 是表示的 our belief about the true expert model

emmm 但是这个不是通过数据集训练出来的模型参数吗？为什么是一个对expert model的true概率呢？需要对着代码看看这个

是说这个对应模型参数下有多像这个expert plan吗？ → 好像是这样的

虽然说明深度模仿模型 DML (Rhinehart et al., 2020) 是把 \(⊕\) selects a single \(\theta_k\) from posterior 实验部分证明了这样对于OOD 直接gg

2.4 AdaRIP

can we do better? → 专家介入蓝色部分

3. 实验结果

在nuScenes：关于 out-of-distribution 怎么处理的呢？自己进行手动分割数据吗？

因为在carla里能看出来是手动选择了这几个场景进行测试

在nuScenes数据集上做的

自己提出了一个benchmark CARNOVEL

4. Conclusion

提出RIP 对 distribution shift 场景进行识别和恢复
AdaRIP 在了解不确定性后做出动作，根据在线专家的feedback进行参数自适应
提出一个benchmark baseline 去做这个 out of distribution 问题

原文摘取

碎碎念

这篇作者的youtube 比论文真的好懂太多了 hhhh ppt做的是真的好，每个步骤也很清晰，关于open-question 也同样在视频中自己提出了不足（还挺多不足的主要就是涉及实车的real-time）

实时的认知不确定性评估器
实时的在线planning
在线适应中对灾难性遗忘的抵抗力 → 增量学习是怎么做的？

Resistance to catastrophic forgetting in online adaptation

但是我感觉第一个实时从论文里的方法来看是可以做到的，而且全文没有关于对时间的对比？为什么会open question提出呢？就是：实验部分没有说明实时性效果

后面看代码的时候再把代码贴进来

组会讨论时，小伙伴指出 \(q_1, q_2, q_3\) 如果都是从同一个数据集，同样的训练超参数，应该训练出来的模型是差不多的吧，不会呈现多样性的选择如图1
还有就是其实本篇主旨应该是要做自适应的... 但其实是没做... adapt 人为弄得，用大哥们的话：原来就是加了一层embedding.

【论文阅读】ICML2020: Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts?的更多相关文章

【论文阅读】Motion Planning through policy search
想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔 ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
BITED数学建模七日谈之三：怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
论文阅读笔记六：FCN：Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
论文阅读：Prominent Object Detection and Recognition: A Saliency-based Pipeline
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline 如上图所示,本文旨在解决一个问题:给定一张图像, ...

随机推荐

goland配置在远程linux里运行代码开发，并debug调适
环境: windows 10 phpstudy8.1.1.3 Vmware安装centos7.6 场景 window10里goland开发,在远程linux里运行,并debug断点调适步骤: win ...
C语言：找到在文件单词中字符个数最多的单词。
第一点:这是一个传回指针的指针函数,所以在定义的时候是char*类型的函数,传进的参数是一个文件指针,(敲重点了,一定一定一定要把文件打开了才能传这个文件指针进来!!)因为这是在你的文本文件里面进行查 ...
JDK源码阅读-------自学笔记(十四)(java.util.Calendar日历类)
Calendar 提供了关于日期计算的相关功能,比如:年.月.日.时.分.秒的展示和计算. GregorianCalendar 是 Calendar 的一个具体子类,提供了世界上大多数国家/地区使用的 ...
IPv6 — 实践
目录文章目录目录前文列表常用命令开启/关闭 IPv6 支持在 CentOS7 上配置 IPv6 地址自动获取链路本地地址配置静态全球唯一地址配置临时 IPv6 地址添加 IPv6 ...
关于Nacos身份认证绕过漏洞默认密钥和JWT的研究
前言由于本人的一个习惯,每次遇到漏洞并复现后都要编写poc,以便下一次的直接利用与复测使用.研究Nacos默认密钥和JWT的爱恨情仇的过程中遇到了莫名其妙的问题,在此做以记录,方便日后有大佬遇到相同 ...
线程安全使用 HashMap 的四种技巧
这篇文章,我们聊聊线程安全使用 HashMap 的四种技巧. 1方法内部:每个线程使用单独的 HashMap 如下图,tomcat 接收到到请求后,依次调用控制器 Controller.服务层 Ser ...
Java中CAS算法的集中体现：Atomic原子类库，你了解吗？
一.写在开头在前面的博文中我们学习了volatile关键字,知道了它可以保证有序性和可见性,但无法保障原子性,结局原子性问题推荐使用synchronized.Lock或者AtomicInteger: ...
k8s 1.24 service account 版本以后怎么获取永不过期token?
问题产生背景: 一个服务操作多个k8s集群, 这个时候就会出现授权问题.k8s 1.24版本之前sa账号产生的token在secret中是永久不过期的.在1.24版本以后secret将不再保留toke ...
Android 11(R) MultiMedia（十五）MediaCodec同步模式实现一个简易播放器
这一节是实践,学习android原生SimplePlayer并自己码一遍,果然学到很多. MyPlayer.h #include <media/stagefright/foundation/AH ...
7.21考试总结(NOIP模拟22)[d·e·f]
你驻足于春色中,于那独一无二的春色之中. 前言首先,这套题的暴力分数十分丰厚,大概是 81+89+30=200 . T1 的特殊性质比较多,也都很好想,于是考场 81pts 是没有问题的. T2 暴 ...

【论文阅读】ICML2020: Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts?