论文翻译-SELF TRAINING AUTONOMOUS DRIVING AGENT

文献地址

链接：https://pan.baidu.com/s/1gHrpnOf1FXLp9u8OJ2-oCg
提取码：y2w6

作者

Shashank Kotyan, Danilo Vasconcellos Vargas and Venkanna U.

摘要

从本质上讲，驾驶是一个适合强化学习范式的马尔可夫决策过程。本文提出了一种不需要人工辅助就能学会驾驶汽车的新型算法。我们使用强化学习和进化策略的概念在二维仿真环境中训练我们的模型。通过在自动编码器中引入不同的图像，我们的模型的架构超越了世界模型(World Model's)。这种新颖的涉及不同图像的自动编码器提供了更好的表现与车辆运动有关的潜在空间，并帮助自主代理学习如何更有效地驾驶车辆。结果表明，与原体系结构相比，我们的方法需要更少的agents (96%)、每代代理(减少了87.5%)、每代代理(70%)和滚转(90%)，同时达到与原体系结构相同的精度(Results show that our method requires fewer (96% less) total agents, (87.5% less) agents per generations, (70% less) generations and (90% less) rollouts than the original architecture while achieving the same accuracy of the original.)。

背景介绍

今天，随着世界开始进入自动化事物的时代，尚未完全自动化的行业的关键产品之一是智能化的车辆。根据Pcmag的说法，“自动驾驶汽车是一种自行驾驶的计算机控制汽车”[1]。有许多行业正在引领自动驾驶汽车的研究，其中最着名的是谷歌和特斯拉。如今的研究倾向于成为无人驾驶汽车新时代的领导者。然而，目前的无驾驶汽车还远未成为智能自动驾驶汽车。当前的自动驾驶车辆使用LiDAR（光探测和测距）技术，该技术通过用脉冲激光照射目标并用传感器测量反射脉冲来测量到目标的距离。这种测量和分析有助于自动驾驶车辆保持跟踪。但是，与激光雷达相关的各种限制是：

a）高度依赖于防止物体碰撞而不是驾驶。

b）移动车辆的LiDAR传感器范围非常低。

c）在物体远离汽车的环境中无法工作。

d）需要转向的引导机构，例如放置在转弯边缘的弯曲物体。

e）在消费者车辆中部署LiDAR是昂贵的[2],[3]。

因此新一代自动驾驶汽车基于图像分析更为现实。这种使用视觉的方法受益于图像作为原始输入以驱动车辆。它有助于以更真实的方式驾驶车辆，作为人类，我们使用我们的视觉来驾驶而不是触觉（LiDAR）。在文献中，对摄像机的角度进行了各种研究，有些使用第三人称视角，有些使用第一人称视角，有些则选择轨道的鸟瞰图。在过去的十年中，自动驾驶的研究由监督学习方法主导，其中人类专家的数据被Agent学习。监督学习方法更适合基于广义公式（如分类和回归）的任务。由于监督学习的内在属性，它创建了从输入到输出的功能图。在这种情况下，监督学习方法的主要限制是需要用于驾驶的数据集，其可能存在或可能不存在于将部署自主车辆的所有环境中。此外，在某些情况下，创建此类数据集可能既昂贵又不可行[4]。在监督学习方法中，代理人学习模仿人类专家（人类专家遵循的策略），而不是实际学习驾驶车辆的最佳策略。直观地说，驾驶是马尔可夫的决策过程（MDP）问题，其中处理涉及控制理论概念的一系列状态。但是，对于少数较小的数据集，输入和输出的通用映射有效，但同时对于多个环境的部署，它不具有可扩展性或通用性。强化学习是一种处理马尔可夫决策过程问题的策略。我们通过抽样行动然后观察哪一个达到我们期望的结果来学习最佳策略。与监督方法相比，我们不是从经典标签而是从称为奖励的延时标签中学习这种最佳动作。这个标量值告诉我们，我们的任何行为结果是好还是坏。因此，强化学习的目标是采取行动以最大化奖励[5]。监督学习有两个主要任务，即回归和分类，而强化学习有不同的任务，如开发或探索，马尔可夫的决策过程，策略学习，深度学习和价值学习[6]。自深度学习开始以来，强化学习的研究得到了推动。强化学习已被证明可以克服Go和Atari Games等各种控制理论问题中的监督学习。我们开发了一种基于强化学习的Agent来解决驾驶问题。开发自动驾驶汽车Agent的动机源于作者的经验，我们与视障人士密切合作，并理解他们的需求。一辆自动驾驶汽车确实可以帮助视觉上有问题的人们轻松安全地到达目的地。下面的文章组织如下，第2节介绍了在自动驾驶汽车领域和强化学习领域所做的相关工作，第3节解释了用于开发自我训练自动驾驶代理的方法和算法。第4节介绍了用现有技术测试所提方法的实验，第5节分析了对所提方法进行的实验结果并对其进行了讨论。第6节通过迭代项目中的发现来结束本文。

相关工作

本节介绍自动驾驶文献中现有的Agent及其对自动驾驶汽车和自动驾驶汽车研究贡献的简要总结。在文献中，有各种类型的模拟工具可用于训练自动驾驶的Agent。其中一些是Open AI的赛车[11]，Udacity的自动驾驶车模拟器[12]，Carla [13]，Torcs [14]等。虽然所有的模拟器各有优缺点，但我们发现在Open AI上的赛车测试更简单——2D比3D环境简单的多。2015年，使用深度确定性策略梯度（DDPG）算法，Google能够使用LiDAR技术模拟复制和增强自动驾驶的结果。在实验阶段，他们在Torcs环境中测试了算法，并且在这种环境里表现良好。虽然这种方法是使用感官数据模拟，例如距离轨道中心的距离，汽车在轨道方向上的速度以及与轨道正交的速度，但它无法适应直接将图片作为原始数据输入的环境，因为它解决了其他Mujoco环境(as it has solved other gym environments of Mujoco)。他们的方法是使用演员评论(actor-critic method)方法进行连续控制，这种方法既有演员评价算法又有Q-Learning[7]。Koutnik等人在他们的研究中展示了在简单跟随中使用奖励的驾驶员Agent的初步学习。在他们的研究中，他们展示了使用简单曲目奖励的驾驶员代理的初步学习。在他们的方法中，他们依靠卷积网络的边缘检测机制来确定汽车的位置。他们表明强化学习可以应用于涉及图像作为输入的困难问题。他们的核心策略是使用进化算法来优化Agent的情景性奖励[8]，[9]。在许多机器学习和深度学习应用中，从年龄分类到图像生成，对连续空间进行离散是一种常见的做法。其背后的一个直觉认为，诸如交叉熵损失之类的分类损失可以发出比均方误差损失更清晰的训练信号，特别是如果结果显示出聚类的迹象。这种用于通过对转向角，加速度和制动值进行离散化来使驾驶员学习的策略开辟了传统强化学习算法的领域，如Q-Learning和演员评论方法。但离散也会导致一些值得丢失。这些算法往往比它们的连续域计数器部分（如DDPG算法）表现更好。最近，世界模型体系结构解决了连续域中先前未解决的CarRacing环境。该架构利用MDN-RNN模块利用时间特征，并使用进化策略优化情节奖励。我们的模型使用世界模型的修改架构来提升原始架构的性能。

模型介绍

实验

结果

我们具有差异图像的代理能够实现900+场景奖励的平均分数，有效地解决任务并获得与现有技术相似的结果。我们的Agent在仅仅600代的培训中实现了这一平均奖励，而在世界模型的原始论文中，与2000代相比，只有1000代推出了10000次推出。与原始论文中的64种Agent相比，我们每代使用8种Agent。实验结果表明，差异图像的参与通过在相当少的训练中有效地解决环境来提高架构的性能。在数字上，我们的控制器接受了较少（96％）总代理，（87.5％）代理，每代（70％）更少代和（90％）使用的原始纸张进行培训，以获得类似的结果。表1显示了与其他强化学习算法的性能比较，表2显示了训练参数与世界模型的差异。图5表示该一代中8个人口的成员收到的最低或最低奖励。图6表示该代人中8个人口的成员所获得的平均回报。图7表示该代人中8个人口的成员所获得的最高或最高奖励。通过情节奖励结果，我们可以说向模型添加差异图像可以提升架构的性能。图中的X轴表示生成，y轴表示表演者的偶发奖励。在这一代中表现最佳的代理人是代代表，在这一代中具有最高的情节奖励，而代代表中最差的表演者，是代代表中具有最低的情节奖励的代理人。这一代中的平均表现者是代代理人的平均情节奖励。我们能够在训练中找到表现最佳的929.82幕式奖励，即在702帧中访问赛道磁贴。我们发现，对于不同的图像，最佳表现者相对较早地实现稳定性，然后没有差异图像。我们还能够在911.73的情节奖励中找到训练中的平均表现者。然而，在100次随机推出的测试中，由于100次中偶数性差很少，因此这些代理人无法取得那么高的成绩。前90个测试集的平均情节奖励大约为915-925。

结论

我们提出了一种基于差异图像的自动驾驶新型代理。代理的结构灵感来自世界模型建筑，这是目前最先进的赛车环境。我们的研究结果表明，在输出和输入中包含差异图像，它提高了现有技术的性能，并在模型训练量减少96％的情况下达到了现有技术的效果。我们展示了在涉及运动的活动中使用差异图像的重要性。我们的模型也在早于现有技术的人群中实现了奖励的稳定性。我们的模型证明了自我训练的合理性，因为没有人类专家参与培训和协助代理人。代理人学会在环境指定奖励的帮助下顺利驾驶汽车。

然而，由于目前涉及差异图像，在自驾车的第一人称视角中仍然存在产生相同效果的限制。在现实环境中，代理很少会看到它所处理的汽车的俯视图。它主要是第三人称视角或第一人称视角。因此，有必要开发一种体系结构，该体系结构不仅可以处理静止帧中的运动参数，而且对于代理的视图也是不变的。我们未来的工作将涵盖开发一种模型架构，该架构对于自我训练汽车来说是视图不变的。

论文翻译-SELF TRAINING AUTONOMOUS DRIVING AGENT的更多相关文章

Visual-Based Autonomous Driving Deployment from a Stochastic and Uncertainty-Aware Perspective
张宁 Visual-Based Autonomous Driving Deployment from a Stochastic and Uncertainty-Aware Perspective Le ...
论文翻译：2018_Source localization using deep neural networks in a shallow water environment
论文地址:https://asa.scitation.org/doi/abs/10.1121/1.5036725 深度神经网络在浅水环境中的源定位摘要: 深度神经网络(DNNs)在表征复杂的非线性关 ...
tensorfolw配置过程中遇到的一些问题及其解决过程的记录（配置SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving）
今天看到一篇关于检测的论文<SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real- ...
SSD: Single Shot MultiBoxDetector英文论文翻译
SSD英文论文翻译 SSD: Single Shot MultiBoxDetector 2017.12.08 摘要:我们提出了一种使用单个深层神经网络检测图像中对象的方法.我们的方法,名为SSD ...
Autonomous driving - Car detection YOLO
Andrew Ng deeplearning courese-4:Convolutional Neural Network Convolutional Neural Networks: Step by ...
【论文翻译】NIN层论文中英对照翻译--（Network In Network）
[论文翻译]NIN层论文中英对照翻译--(Network In Network) [开始时间]2018.09.27 [完成时间]2018.10.03 [论文翻译]NIN层论文中英对照翻译--(Netw ...
深度学习论文翻译解析（十七）：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
论文标题:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 论文作者:Andrew ...
[论文翻译] 分布式训练 Parameter sharding 之 ZeRO
[论文翻译] 分布式训练 Parameter sharding 之 ZeRO 目录 [论文翻译] 分布式训练 Parameter sharding 之 ZeRO 0x00 摘要 0x01 综述 1.1 ...
[论文翻译] 分布式训练 Parameter Sharding 之 Google Weight Sharding
[论文翻译] 分布式训练 Parameter sharding 之 Google Weight Sharding 目录 [论文翻译] 分布式训练 Parameter sharding 之 Google ...

随机推荐

Codeforces Round #355 (Div. 2)-B. Vanya and Food Processor，纯考思路~~
B. Vanya and Food Processor time limit per test 1 second memory limit per test 256 megabytes input s ...
c/c++ 位域的概念
位域有些信息在存储时,并不需要占用一个完整的字节, 而只需占几个或一个二进制位.例如在存放一个开关量时,只有0和1 两种状态, 用一位二进位即可.为了节省存储空间,并使处理简便,C语言又提供了一种数 ...
【BZOJ4403】序列统计（Lucas定理，组合计数）
题意:给定三个正整数N.L和R, 统计长度在1到N之间,元素大小都在L到R之间的单调不降序列的数量. 输出答案对10^6+3取模的结果. 对于100%的数据,1≤N,L,R≤10^9,1≤T≤100, ...
主席树初探--BZOJ3524: [Poi2014]Couriers
n<=500000个数,m<=500000个询问,每次问区间里出现次数>(R-L+1)的数字是谁,没有输出0. 写了带修改发现不会不带修改了.... 不带修改的话,n个点,每个点表示 ...
动态链接 - dll和so文件区别与构成
动态链接,在可执行文件装载时或运行时,由操作系统的装载程序加载库.大多数操作系统将解析外部引用(比如库)作为加载过程的一部分.在这些系统上,可执行文件包含一个叫做import directory的 ...
baidu 和 es 使用
http://www.cnblogs.com/kangoroo/p/8047586.html
HDU——2874 Connections between cities
Connections between cities Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (J ...
输入一个URL之后。。。
1.输入URL2.浏览器去浏览器缓存.系统缓存.路由器缓存查找缓存记录,有则直接访问URL对应的IP,无则下一步3.DNS解析URL,获得对应的IP4.浏览器通过TCP/IP三次握手连接服务器5.客户 ...
Ubuntu 16.04设置Redis为开机自动启动服务
继上一篇文章http://www.cnblogs.com/EasonJim/p/7599941.html安装好Redis后,假设文件已经安装到/usr/local/redis目录下.假设我安装的版本为 ...
HTTPS 是如何保证安全的？
每当我们讨论到信息安全的时候,我们最长接触到的信息加密传输的方式莫过于 HTTPS 了,当我们浏览器地址栏闪现出绿色时,就代表着这个网站支持 HTTPS 的加密信息传输方式,并且你与它的连接确实被加密 ...

论文翻译-SELF TRAINING AUTONOMOUS DRIVING AGENT

论文翻译-SELF TRAINING AUTONOMOUS DRIVING AGENT的更多相关文章

随机推荐

热门专题