Dictum: A man who is willing to be a slave, who does not know the power of freedom. -- Beck 动态规划(Dynamic Programming, DP)是基于模型的方法,即在给定一个利用MDP描述的完备的环境模型下可以计算出最优策略的优化算法. DP的两种性质:1.最优子结构:问题的最优解法可以被分为若干个子问题:2.重叠子问题:子问题之间存在递归关系,解法是可以被重复利用的.在强化学习中,MDP满足两个…