APRIL 2022-Explanation-Aware Experience Replay in Rule-Dense Environments
I. INTRODUCTION
解释是人类智能的关键机制,这种机制有可能提高RL代理在复杂环境中的表现
实现这一目标的一个核心设计挑战是将解释集成到计算表示中。即使在最小的规则集变化下,将规则集(或部分规则集)编码到智能体的观察空间等方法也可能导致严重的重新训练开销,因为规则的语义被明确地作为输入提供。这最大限度地减少了与现有方法的兼容性,并可能掩盖性能差异是由于体系结构的更改还是规则集的复杂性。本文提出一种与显式设计状态和观察空间无关的解决方案,使用一种解释感知的经验回放机制。
这些解释不需要被智能体理解传统意义上的解释,但如果示例是在语义和有意义的过程中标记/解释的,则仍然可以传达含义。
所提出方法通过将回放缓冲区(或内存)划分为多个簇,每个簇代表与作为示例的经验集合相关的不同解释,从而修改了传统的经验回放结构。
解释者用解释e标记a state-transition τ
contributions:
- 展示了** explanations的不同类型和实例**如何用于划分重播缓冲区并提高采样经验的规则覆盖率
- 设计了离散和连续的环境(GridDrive和GraphDrive),与任意复杂度的模块化规则集(文化)兼容。
- 引入了传统算法(如DQN、TD3和SAC)的xaer修改版本,并在我们提出的环境中测试了这些修改版本的性能
II. RELATED WORK
B. Explanations in RL
一般来说,许多向RL代理解释的基于规则的方法通常属于称为安全RL的子学科
安全强化学习包括以下两种技术:在最优性准则中编码规则 以及将这些外部知识纳入动作/状态空间
我们感兴趣的是对最有用的经验进行抽样,以弥补特定智能体的知识缺口。以智能体为中心的解释过程是一个迭代过程,它跟踪智能体的学习过程,并在每个时间步为其选择最有用的解释。
C. Prioritised Experience Replay
与我们的类似,旨在根据其explanatory content抽象地organise experience——被定义为回答相对于average experience的a sequence of state-transitions有多好/有多坏的能力。该工作只考虑对代理的直接表现的解释(即如何解释),而缺乏对其他更丰富类型(即为什么)以及课程优先化设施的考虑。
III. EXPLANATION-AWARENESS
APRIL 2022-Explanation-Aware Experience Replay in Rule-Dense Environments的更多相关文章
- 论文阅读之:PRIORITIZED EXPERIENCE REPLAY
PRIORITIZED EXPERIENCE REPLAY ICLR 2016 经验回放使得 online reinforcement learning agent 能够记住并且回放过去的经验.在先前 ...
- (zhuan) Prioritized Experience Replay
Prioritized Experience Replay JAN 26, 2016 Schaul, Quan, Antonoglou, Silver, 2016 This Blog from: ht ...
- 【深度强化学习】Curriculum-guided Hindsight Experience Replay读后感
目录 导读 目录 正文 Abstract[摘要] Introduction[介绍] 导读 看任何一个领域的文章,一定要看第一手资料.学习他们的思考方式,论述逻辑,得出一点自己的感悟.因此,通过阅读pa ...
- 强化学习中的经验回放(The Experience Replay in Reinforcement Learning)
一.Play it again: reactivation of waking experience and memory(Trends in Neurosciences 2010) SWR发放模式不 ...
- Revisiting Fundamentals of Experience Replay
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICML 2020 Abstract 经验回放对于深度RL中的异策算法至关重要,但是在我们的理解上仍然存在很大差距.因此,我们对Q学习方法 ...
- 强化学习(十一) Prioritized Replay DQN
在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差.今天我 ...
- 【转载】 强化学习(十一) Prioritized Replay DQN
原文地址: https://www.cnblogs.com/pinard/p/9797695.html ------------------------------------------------ ...
- (转) Deep Reinforcement Learning: Playing a Racing Game
Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playi ...
- (转) Deep Learning in a Nutshell: Reinforcement Learning
Deep Learning in a Nutshell: Reinforcement Learning Share: Posted on September 8, 2016by Tim Dettm ...
- (zhuan) Deep Deterministic Policy Gradients in TensorFlow
Deep Deterministic Policy Gradients in TensorFlow AUG 21, 2016 This blog from: http://pemami49 ...
随机推荐
- 一天吃透Git面试八股文
什么是Git? Git是一个版本控制系统,用于跟踪计算机文件的变化.Git是一个跟踪计算机文件变化的版本控制系统,用于帮助协调一个项目中几个人的工作,同时跟踪一段时间的进展.换句话说,我们可以说它是一 ...
- 声网 X 在线自习室 同学陪伴、老师监督的在线自习是如何火出圈的?
实时互联网像触角一样,通过情景的共享延伸开来,链接着我们彼此的线下.线上生活,形成一张不可分割的网络.随着社交直播.在线教育.视频会议成为大众生活不可或缺的一部分的同时,智能手表.智能作业灯.视频双录 ...
- 第四朵“云”!全托管的时序数据云平台 TDengine Cloud 正式支持阿里云
3 月 13 日,全托管的时序数据处理云服务平台 TDengine Cloud 正式支持阿里云,这是继 Microsoft Azure.AWS.Google Cloud 后 TDengine Clou ...
- Windows无线连接路由器成功但无法网
Windows10连接Wifi成功,任务栏无线图标没有感叹号,但是无法连接到网络,重启电脑才能连接上,手机连接这个网络却可以一直联通.本人使用的是intel 9260无线网卡,经过测试,我通过这个方法 ...
- Nmap学习
Nmap学习 一.主机发现 1.全面扫描/综合扫描 nmap -A 192.168.142.201 2.Ping扫描 nmap -sP 192.168.142.0/24 3.免Ping扫描,穿透防火墙 ...
- 怎么在php7项目中安装event扩展
今天就跟大家聊聊有关怎么在php7项目中安装event扩展,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获. 安装支持库libevent wget ...
- Spring Boot 中的 ApplicationRunner 和 CommandLineRunner
前言 一般项目中的初始化操作,初次遇见,妙不可言.如果你还有哪些方式可用于初始化操作,欢迎在评论中分享出来~ ApplicationRunner 和 CommandLineRunner Spring ...
- Windows11快捷键大集合+手动给程序添加快捷键
本文收集了170多个windows11上的快捷键,其中有少部分是windows11新添加的.大部分的win10快捷键也适用于win11.这些快捷键涵盖了系统设置.命令行程序执行.Snap布局切换.对话 ...
- 火山引擎 A/B 测试产品——DataTester 私有化架构分享
作为一款面向 ToB 市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向 ToB 客户私有化的实际落地中,火 ...
- 企事业单位通用版招采系统(SRM),招采全过程闭环流程
前言 采购供应商管理的难点:沟通耗费精力,业务协同难,管控混乱.优质的供应商,是直接能够影响采购成本和企业采购战略落地的,而供应商管理的终极路径是建立企业自己的供应商私域流量池. 一.供应商管理 1. ...