分布式强化学习基础概念(Distributional RL) from: https://mtomassoli.github.io/2017/12/08/distributional_rl/ 1. Q-learning 在 Q-learning 中,我们想要优化如下的 loss: Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expec…
马尔可夫决策过程MDP,是强化学习的基础. MDP --- <S,A,P,R,γ> AGENT STATE ENV REWARD ,由ENV给出.agent处于状态s下,采取action之后离开状态获得一个reward.即f:S x A --->R 所有强化学习问题解决的目标都可以描述成最大化累积奖励.All goals can be described by the maximisation of expected cumulative reward.即我们的目标是最大化Gt .…