文献阅读报告 - Context-Based Cyclist Path Prediction using RNN
原文引用
Pool, Ewoud & Kooij, Julian & Gavrila, Dariu. (2019). Context-based cyclist path prediction using Recurrent Neural Networks. 824-830. 10.1109/IVS.2019.8813889.
概览
前段时间读了几篇有关轨迹预测的文章,这些文章大多在鸟瞰监控视角下,以提升准确性、多样性和合理性为目的,提出对各情景通用的轨迹预测模型。今天这篇文章则有所不同,是我目前看到少有的基于RNN的轨迹预测落地应用的文章,其针对T字形路口情景中,车前骑行者的轨迹(直行/借道转弯)预测,在考虑了常用的认知特点后,RNN序列模型表现出相较Dynamic Model较大的提升。
HighLights
- 基于常见认知的多种类输入:针对路口的骑行轨迹预测,模型加入了骑行者距离路口的距离、速度不变时汽车超越骑行者所需时间和骑行者的手臂是否举起三个特征作为轨迹以外的语义信息,符合人类在常见情况下的认知规律。
- 动态输入,定点预测,更符合模型实际应用情景:模型最终衡量的是\(p(x_{t+n}|y_{0:t})\),也就是Prediction Point(预测点\(t\))后的第\(n\)步预测结果。其中\([0:t]\)的定义比较特别,其长度是动态的(在实际情况中,我们可以理解成骑行者被检测到时就开始输入RNN模型),在模型训练和测试时,都是通过指定不同的预测点\(t\)来产生多组数据和情景。
- 通过实验证明模型对语义信息的捕捉能力和语义信息抽取的合理性:文章在后面实验中着重探究了模型在“紧急/非紧急”和“挥手/不挥手”的情景数据下表现能力。对于模型对语义信息的捕捉能力,并不是一味地高准确率就好,只有正常语境下的正确预测与不正常语境下的错误预测才反映出模型对语义与轨迹行为相关性的捕捉;而对于语义信息抽取的合理性,则是通过模型能够学习出语义信息与行为的相关性而间接反映的。
- 充分的测试与细致的定性分析
- 对数据标准化和隐藏状态重置两种正则化方法必要性进行研究,得出对准确性提升的结论。
- 路口转向时,不确定性分布的可视化。
- 通过设定不同时刻的Prediction Point(开始预测的时间点),观察准确性变化,研究过拟合的情况。
- 探讨训练数据中加入不正常行为后预测准确性增加的原因。
- 利用GRU序列模型,减少训练参数数量,匹配于有限数据量
Questions
- “隐藏状态重置”的正则化方法理解:随机失活?全盘重置?
- TTE定义的合理性:TTE=0被定义为骑行者跨过某个点的时刻,这个点被定义为数据集中25%的转弯者已经左转弯。如何定义左转弯?25%选择的合理性?
- 合理情形和不合理情形分类的标准。
模型
简介
如下图所示,预测模型整体是一个RNN模型,输入RNN的数据由两部分组成,首要的是模型下方的轨迹数据\(x_0,x_1,x_2...\)(具体作为模型输入时还需再处理,详见下文),其次是三个语义环境信息组成的\(c_t\)向量:
- Static Context:骑行人沿主干方向距离路口的距离。
- Dynamic Context:汽车与骑行人保持同样速度,发生超越的时间。
- Object Context:行人挥手行人。(通过CNN网络预训练得到,用\(0-1\)之间的置信度表示。
通过指定预测点\(t\)和预测长度\(n\),预测点后的轨迹将以二维高斯分布的形式进行预测:
- When Training:损失函数的计算将评估\([x_{t},x_{t+n}]\)整个区间。
- When Interface:评价指标将只关注\(x_{t+n}\)的预测情况。
RNN模型
受限于训练数据的有限性,文章选择了GRU作为RNN模型的单位,虽然轨迹与语义情景的输入与输出由同一个RNN序列完成,但我们可以大致将其分为输入和预测两个阶段。
输入阶段:
对于每一步的GRU Cell的输入\(y_t\),其是轨迹输入和语义情景输入经过处理和拼接后得到的,实际上\(y_t\)中的轨迹坐标部分,其输入实际为当前位置相对于上一时刻的偏移(offset):
\[y_t = [x_t-x_{t-1},c_t]^T\]
而经过GRU Cell得到的隐藏状态\(h_t\),会用解码器得到隐藏状态的解码值\(h_{t,dec}\),并与\(\tilde y_t\)做减法运算,得到的差经过编码器处理作为下一步GRU的输入。
\[u_t = W_{enc}(\tilde y_t - W_{dec}(h_t)) = W_{enc}(\begin{bmatrix} {x_t - x_{t-1} \\ c_t}\end{bmatrix} - \begin{bmatrix} W_{pos}(h_t) \\ W_{cues}(h_t)\end{bmatrix})\]
[注意]这篇文章中的RNN模型输入与常见模型有着很大的不同,其在输入阶段就已经有迭代化(上一步输出参与当前步的输入运算)的现象。而将预测与输入做差结果作为GRU的输入其实就反映RNN模型的输入是真实与预测之间的差异。
预测阶段:
在输入阶段,每一步GRU的输入均是“Offset的预测值与Offset的真实值差异”的编码值,而在预测阶段真实值肯定是不存在的,因此这时我们每次传递给编码器的值就是\(0\)(言下之意:神经网络你太棒啦!分毫不差!)
\[u_t = W_{enc}(0).\]
由于每步输出的都是相对上一步的偏移值Offset,因此\(t+n\)时刻的坐标计算如下:
\[\hat x_{t+n} = x_t + \sum_{i=1}^nW_{pos}(h_{t+i})\]
文献阅读报告 - Context-Based Cyclist Path Prediction using RNN的更多相关文章
- 文献阅读报告 - Social LSTM:Human Trajectory Prediction in Crowded Spaces
概览 简述 文献所提出的模型旨在解决交通中行人的轨迹预测(pedestrian trajectory prediction)问题,特别是在拥挤环境中--人与人交互(interaction)行为常有发生 ...
- 文献阅读报告 - Pedestrian Trajectory Prediction With Learning-based Approaches A Comparative Study
概述 本文献是一篇文献综述,以自动驾驶载具对外围物体行动轨迹的预测为切入点,介绍了基于运动学(kinematics-based)和基于机器学习(learning-based)的两大类预测方法. 并选择 ...
- 文献阅读报告 - 3DOF Pedestrian Trajectory Prediction
文献 Sun L , Yan Z , Mellado S M , et al. 3DOF Pedestrian Trajectory Prediction Learned from Long-Term ...
- 文献阅读报告 - Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model
目录 概览 描述:模型基于LSTM神经网络提出新型的Spatio-Temporal Graph(时空图),旨在实现在拥挤的环境下,通过将行人-行人,行人-静态物品两类交互纳入考虑,对行人的轨迹做出预测 ...
- 文献阅读报告 - Social BiGAT + Cycle GAN
原文文献 Social BiGAT : Kosaraju V, Sadeghian A, Martín-Martín R, et al. Social-BiGAT: Multimodal Trajec ...
- 文献阅读报告 - Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs
文献引用 Amirian J, Hayet J B, Pettre J. Social Ways: Learning Multi-Modal Distributions of Pedestrian T ...
- 文献阅读报告 - Move, Attend and Predict
Citation Al-Molegi A , Martínez-Ballesté, Antoni, Jabreel M . Move, Attend and Predict: An Attention ...
- 文献阅读报告 - Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks
paper:Gupta A , Johnson J , Fei-Fei L , et al. Social GAN: Socially Acceptable Trajectories with Gen ...
- Adaptively handling remote atomic execution based upon contention prediction
In one embodiment, a method includes receiving an instruction for decoding in a processor core and d ...
随机推荐
- git 的一些基本命令
基本命令 1.返回上一级目录:cd ../ 2.进入某一目录:cd git (进入 git 目录) 3. 显示当前路径:pwd 4.显示当前文件目录的文件 : dir 5.新建文件夹:mkdir +文 ...
- Java设计模式之适配器模式(Adapter)
通常,在代码已经存在的情况下编写客户端代码(客户端就是需要调用我们代码的对象),开发人员可以采取模拟客户端的方式调用我们提供的接口对象.然而,客户端代码也可能与你的代码单独进行开发,这种情况下,会发现 ...
- HihoCoder第四周:Trie图
第四周的题目是前两周的综合,综合在一个是KMP算法的思想,一个是树的这么一个数据结构. 题目 : Trie图 输入 每个输入文件有且仅有一组测试数据. 每个测试数据的第一行为一个整数N,表示河蟹词典的 ...
- Flutter Web环境搭建
接上篇Flutter Windows下AndroidStudio环境搭建 1.https://github.com/flutter/flutter_web 下载放到本地路径下 2.系统Path增加(根 ...
- Day5 - D - Conscription POJ - 3723
Windy has a country, and he wants to build an army to protect his country. He has picked up N girls ...
- Spark Shuffle 过程
本文参考:http://www.cnblogs.com/cenyuhai/p/3826227.html 在数据流动的整个过程中,最复杂最影响性能的环节,就是 Shuffle 过程,本文将参考大神的博客 ...
- 关于 CDN 负载均衡 网页请求过程等
链接 1 [转]浅谈一个网页打开的全过程(涉及DNS.CDN.Nginx负载均衡等) https://www.cnblogs.com/xuan52rock/p/6845637.html 2 闲话 C ...
- TCP/IP 三次握手,四次断开
TCP/IP 三次握手,四次断开 一.TCP报文格式 TCP/IP协议的详细信息参看<TCP/IP协议详解>三卷 本. 下面是TCP报文格式图: 图 ...
- 51nod 1439:互质对 容斥原理
1439 互质对 题目来源: CodeForces 基准时间限制:2 秒 空间限制:131072 KB 分值: 160 难度:6级算法题 收藏 取消关注 有n个数字,a[1],a[2],-,a[n ...
- C++ 根据日期判断星期几
int CaculateWeekDay(int y,int m, int d) { ||m==) { m+=; y--; } *m+*(m+)/+y+y/-y/+y/)%; ; }