在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化.而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法.本文我们讨论A3C的算法原理和算法流程. 本文主要参考了A3C的论文,以及ICML 2016的deep RL tutorial. 1. A3C的引入 上一篇Actor-Critic算法的代码,其实很难收敛,无论怎么调参