本篇请结合课本Reinforcement Learning: An Introduction学习 Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租车问题”吧.租车问题的描述如下: Jack’s Car Rental Jack manages two locations for a nationwide car rental company. Each day, some number of customers arrive at each l
在介绍马尔可夫决策过程之前,我们先介绍下情节性任务和连续性任务以及马尔可夫性. 情节性任务 vs. 连续任务 情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作为有限步骤的任务. 连续任务(Continuing Tasks),所有的任务不能分解,可以看作为无限步骤任务. 马尔可夫性 引用维基百科对马尔可夫性的定义: 马尔可夫性:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态. 用数学形式表示如下: A state