上一篇笔记认识了Sarsa,可以用来训练动作价值函数\(Q_\pi\):本篇来学习Q-Learning,这是另一种 TD 算法,用来学习 最优动作价值函数 Q-star,这就是之前价值学习中用来训练 DQN 的算法. 8. Q-learning 承接上一篇的疑惑,对比一下两个算法. 8.1 Sarsa VS Q-Learning 这两个都是 TD 算法,但是解决的问题不同. Sarsa Sarsa 训练动作价值函数 \(Q_\pi(s,a)\): TD target:\(y_t = r_t +…