上篇文章讲到Q-learning, Sarsa与Q-learning的在决策上是完全相同的,不同之处在于学习的方式上 这次我们用openai gym的Taxi来做演示 Taxi是一个出租车的游戏,把顾客送到目的地+20分,每走一步-1分,如果在路上把乘客赶下车的话扣10分 简要 Sarsa是一种在线学习算法,也就是on-polic,Sarsa在每次更新算法时都是基于确定的action,而Q-learning还没有确定 Sarsa相对比较保守,他的每一步行动都是基于下一个Q(s',a')来完成的…