郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 我们提出了一种基于情绪的分层强化学习(HRL)算法,用于具有多种奖励来源的环境.该系统的架构受到大脑神经生物学的启发,特别是负责情绪,决策和行为执行的区域,分别是杏仁核,眶额皮质和基底神经节.学习问题根据奖励的来源而分解.奖励源用作给定子任务的目标.为每个子任务分配了一个人工情绪指示(AEI),该AEI可预测与该子任务相关的奖励成分.同时学习AEI和顶层策略,并在AEI发生重大变化时中断子任务的执行.该算法在具有两个…