强化学习之 免模型学习(model-free based learning) ------ 蒙特卡罗强化学习 与 时序查分学习 ------ 部分节选自周志华老师的教材<机器学习> 由于现实世界当中,很难获得环境的转移概率,奖赏函数等等,甚至很难知道有多少个状态.倘若学习算法是不依赖于环境建模,则称为“免模型学习(model-free learning)”,这比有模型学习要难得多. 1. 蒙特卡罗强化学习: 在免模型学习的情况下,策略迭代算法会遇到几个问题: 首先,是策略无法评估,因为无法做全…