I. INTRODUCTION

解释是人类智能的关键机制，这种机制有可能提高RL代理在复杂环境中的表现

实现这一目标的一个核心设计挑战是将解释集成到计算表示中。即使在最小的规则集变化下，将规则集(或部分规则集)编码到智能体的观察空间等方法也可能导致严重的重新训练开销，因为规则的语义被明确地作为输入提供。这最大限度地减少了与现有方法的兼容性，并可能掩盖性能差异是由于体系结构的更改还是规则集的复杂性。本文提出一种与显式设计状态和观察空间无关的解决方案，使用一种解释感知的经验回放机制。

这些解释不需要被智能体理解传统意义上的解释，但如果示例是在语义和有意义的过程中标记/解释的，则仍然可以传达含义。

所提出方法通过将回放缓冲区(或内存)划分为多个簇，每个簇代表与作为示例的经验集合相关的不同解释，从而修改了传统的经验回放结构。

解释者用解释e标记a state-transition τ

contributions:

展示了** explanations的不同类型和实例**如何用于划分重播缓冲区并提高采样经验的规则覆盖率
设计了离散和连续的环境(GridDrive和GraphDrive)，与任意复杂度的模块化规则集(文化)兼容。
引入了传统算法(如DQN、TD3和SAC)的xaer修改版本，并在我们提出的环境中测试了这些修改版本的性能

II. RELATED WORK

B. Explanations in RL

一般来说，许多向RL代理解释的基于规则的方法通常属于称为安全RL的子学科

安全强化学习包括以下两种技术:在最优性准则中编码规则以及将这些外部知识纳入动作/状态空间

我们感兴趣的是对最有用的经验进行抽样，以弥补特定智能体的知识缺口。以智能体为中心的解释过程是一个迭代过程，它跟踪智能体的学习过程，并在每个时间步为其选择最有用的解释。

C. Prioritised Experience Replay

与我们的类似，旨在根据其explanatory content抽象地organise experience——被定义为回答相对于average experience的a sequence of state-transitions有多好/有多坏的能力。该工作只考虑对代理的直接表现的解释(即如何解释)，而缺乏对其他更丰富类型(即为什么)以及课程优先化设施的考虑。

III. EXPLANATION-AWARENESS

APRIL 2022-Explanation-Aware Experience Replay in Rule-Dense Environments的更多相关文章

论文阅读之：PRIORITIZED EXPERIENCE REPLAY
PRIORITIZED EXPERIENCE REPLAY ICLR 2016 经验回放使得 online reinforcement learning agent 能够记住并且回放过去的经验.在先前 ...
(zhuan) Prioritized Experience Replay
Prioritized Experience Replay JAN 26, 2016 Schaul, Quan, Antonoglou, Silver, 2016 This Blog from: ht ...
【深度强化学习】Curriculum-guided Hindsight Experience Replay读后感
目录导读目录正文 Abstract[摘要] Introduction[介绍] 导读看任何一个领域的文章,一定要看第一手资料.学习他们的思考方式,论述逻辑,得出一点自己的感悟.因此,通过阅读pa ...
强化学习中的经验回放（The Experience Replay in Reinforcement Learning）
一.Play it again: reactivation of waking experience and memory(Trends in Neurosciences 2010) SWR发放模式不 ...
Revisiting Fundamentals of Experience Replay
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICML 2020 Abstract 经验回放对于深度RL中的异策算法至关重要,但是在我们的理解上仍然存在很大差距.因此,我们对Q学习方法 ...
强化学习(十一) Prioritized Replay DQN
在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差.今天我 ...
【转载】强化学习(十一) Prioritized Replay DQN
原文地址: https://www.cnblogs.com/pinard/p/9797695.html ------------------------------------------------ ...
(转) Deep Reinforcement Learning: Playing a Racing Game
Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playi ...
(转) Deep Learning in a Nutshell: Reinforcement Learning
Deep Learning in a Nutshell: Reinforcement Learning Share: Posted on September 8, 2016by Tim Dettm ...
(zhuan) Deep Deterministic Policy Gradients in TensorFlow
Deep Deterministic Policy Gradients in TensorFlow AUG 21, 2016 This blog from: http://pemami49 ...

随机推荐

一天吃透Git面试八股文
什么是Git? Git是一个版本控制系统,用于跟踪计算机文件的变化.Git是一个跟踪计算机文件变化的版本控制系统,用于帮助协调一个项目中几个人的工作,同时跟踪一段时间的进展.换句话说,我们可以说它是一 ...
声网 X 在线自习室同学陪伴、老师监督的在线自习是如何火出圈的？
实时互联网像触角一样,通过情景的共享延伸开来,链接着我们彼此的线下.线上生活,形成一张不可分割的网络.随着社交直播.在线教育.视频会议成为大众生活不可或缺的一部分的同时,智能手表.智能作业灯.视频双录 ...
第四朵“云”！全托管的时序数据云平台 TDengine Cloud 正式支持阿里云
3 月 13 日,全托管的时序数据处理云服务平台 TDengine Cloud 正式支持阿里云,这是继 Microsoft Azure.AWS.Google Cloud 后 TDengine Clou ...
Windows无线连接路由器成功但无法网
Windows10连接Wifi成功,任务栏无线图标没有感叹号,但是无法连接到网络,重启电脑才能连接上,手机连接这个网络却可以一直联通.本人使用的是intel 9260无线网卡,经过测试,我通过这个方法 ...
Nmap学习
Nmap学习一.主机发现 1.全面扫描/综合扫描 nmap -A 192.168.142.201 2.Ping扫描 nmap -sP 192.168.142.0/24 3.免Ping扫描,穿透防火墙 ...
怎么在php7项目中安装event扩展
今天就跟大家聊聊有关怎么在php7项目中安装event扩展,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获. 安装支持库libevent wget ...
Spring Boot 中的 ApplicationRunner 和 CommandLineRunner
前言一般项目中的初始化操作,初次遇见,妙不可言.如果你还有哪些方式可用于初始化操作,欢迎在评论中分享出来~ ApplicationRunner 和 CommandLineRunner Spring ...
Windows11快捷键大集合+手动给程序添加快捷键
本文收集了170多个windows11上的快捷键,其中有少部分是windows11新添加的.大部分的win10快捷键也适用于win11.这些快捷键涵盖了系统设置.命令行程序执行.Snap布局切换.对话 ...
火山引擎 A/B 测试产品——DataTester 私有化架构分享
作为一款面向 ToB 市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向 ToB 客户私有化的实际落地中,火 ...
企事业单位通用版招采系统（SRM），招采全过程闭环流程
前言采购供应商管理的难点:沟通耗费精力,业务协同难,管控混乱.优质的供应商,是直接能够影响采购成本和企业采购战略落地的,而供应商管理的终极路径是建立企业自己的供应商私域流量池. 一.供应商管理 1. ...

APRIL 2022-Explanation-Aware Experience Replay in Rule-Dense Environments