一. 概述 强化学习算法可以分为三大类:value based, policy based 和 actor critic. 常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络. 说到DQN中有值函数网络,这里简单介绍一下强化学习中的一个概念,叫值函数近似.一个state action pair (s,a)对应一个值函数Q(s,a).理论…