在强化学习任务中,学习的目的就是找到能够长期累积奖赏最大化的策略.这里的策略实际上就相当于监督学习中的分类器或回归器,模型的形式并无差别.但不同的是,在强化学习中并没有监督学习中的有标记样本,换言之,没有人直接告诉机器在什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习.因此,强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题. 实际上,单步强化学习任务对应了一个理论模型---K-摇臂赌博机. 有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以…