Statistics and Samples in Distributional Reinforcement Learning

【Statistics and Samples in Distributional Reinforcement Learning】的更多相关文章

Statistics and Samples in Distributional Reinforcement Learning

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1902.08102v1 [stat.ML] 21 Feb 2019 Abstract 我们通过递归估计回报分布的统计量,提供了一个统一的框架,用于设计和分析分布强化学习(DRL)算法.我们的主要见识在于,可以将DRL算法分解为一些统计量估计和一种方法的组合,该方法插补与该统计集一致的回报分布.有了这种新的理解,我们就能对现有DRL算法进行改进的分析,并基于对回报分布期望的估计来构造新的算法(EDRL).我们将EDRL与各…

3. Distributional Reinforcement Learning with Quantile Regression

C51算法理论上用Wasserstein度量衡量两个累积分布函数间的距离证明了价值分布的可行性,但在实际算法中用KL散度对离散支持的概率进行拟合,不能作用于累积分布函数,不能保证Bellman更新收敛:且C51算法使用价值分布的若干个固定离散支持,通过调整它们的概率来构建价值分布. 而分位数回归(quantile regression)的distributional RL对此进行了改进.首先,使用了C51的"转置",即固定若干个离散支持的均匀概率,调整离散支持的位置:引入分位数回归的思…

Distributional Reinforcement Learning with Quantile Regression

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1710.10044v1 [cs.AI] 27 Oct 2017 In AAAI Conference on Artificial Intelligence (2018). Abstract 在强化学习中,智能体通过采取动作并观察下一个状态和奖励来与环境交互.当概率采样时,这些状态转换,奖励和动作都会在观察到的长期回报中引起随机性.传统强化学习算法会对此随机性求均值以估计价值函数.在本文中,我们以最近的工作为基础,该工作提…

2. A Distributional Perspective on Reinforcement Learning

本文主要研究了分布式强化学习,利用价值分布(value distribution)的思想,求出回报\(Z\)的概率分布,从而取代期望值(即\(Q\)值). Q-Learning Q-Learning的目标是近似Q函数,即在策略\(\pi\)下回报\(Z_t\)的期望值: \[Q^{\pi}(s,a)=\mathbb{E}[Z_t|s,a] \] Q-Learning的核心是Bellman方程.它可以通过时序差分学习迭代更新Q函数 \[Q^{\pi}(s,a)=r+\gamma \max_{a'}…

(转) Deep Reinforcement Learning: Playing a Racing Game

Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playing Out Run, session 201609171218_175epsNo time limit, no traffic, 2X time lapse Above is the built deep Q-network (DQN) agent playing Out Run, trained…

(转) Deep Reinforcement Learning: Pong from Pixels

Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from Pixels May 31, 2016 This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatica…