强化学习概况 正如在前面所提到的,强化学习是指一种计算机以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使程序获得最大的奖赏,强化学习不同于连督学习,区别主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作.唯一的目的是最大化效率和/或性能.算法对正确的决策给予奖励,对错误的决策给予惩罚,如下图所示: 持续的训练是为了不断提高效率.这里的重点是性能,这意味着我们需要,在看不见的数据和算…