在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题. 动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲. 1. 动态规划和强化学习问题的联系 对于动态规划,相信大家都很熟悉,很多使用算法的地方都会用到.就算是机器学习相关的算法,使用动态规划的也很多,比如之前讲到的隐马尔科夫模型HMM(二)前向后向算法…