探索与利用增强学习任务的最终奖赏是在多步动作之后才能观察到,于是我们先考虑最简单的情形:最大化单步奖赏,即仅考虑一步操作.不过,就算这样,强化学习仍与监督学习有显著不同,因为机器要通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做什么动作.简而言之:缺少标记: 想最大化单步奖赏要考虑两个方面:一是需要知道每个动作带来的奖赏,而是要执行奖赏最大的动作. 实际上,单步强化学习任务对应了一个理论模型,即“K-摇臂赌博机”.什么是摇臂赌博机,就是,如图所示,赌徒投入一个硬币后,选择一个摇杆,…