在 强化学习实战 | 自定义Gym环境之井子棋 中,我们构建了一个井字棋环境,并进行了测试.接下来我们可以使用各种强化学习方法训练agent出棋,其中比较简单的是Q学习,Q即Q(S, a),是状态动作价值,表示在状态s下执行动作a的未来收益的总和.Q学习的算法如下: 可以看到,当agent在状态S,执行了动作a之后,得到了环境给予的奖励R,并进入状态S'.同时,选择最大的Q(S', a),更新Q(S, a).所谓表格型Q学习,就是构建一个Q(S, a)的表格,维护所有的状态动作价值. 一个很好的