在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们很难具体知道转移概率P.伴随着这类问题的产生,Q-Learning通过迭代来更新Q表拟合实际的转移概率矩阵 P,实现了强化学习在大多数实际场景中的应用.但是,在很多情况下,诸多场景下的环境状态比较复杂,有着极大甚至无穷的状态空间,维护这一类问题的Q表使得计算代价变得很高,这时就有了通过Deep网络来…