郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 尽管存在神经元变异性,但是群体编码被广泛认为是实现可靠行为响应的重要机制.但是,随着全局奖励信号与任何单独神经元的性能越来越不相关,标准的强化学习随着群体规模的增长而减慢.我们发现,如果除了全局奖励之外,有关群体响应的反馈能够调节突触可塑性,则学习会随着群体规模的增加而加快. 已经深入研究了神经元群体在编码感觉刺激中的作用1,2.但是,大多数带有脉冲神经元的强化学习模型都只关注单独神经元或小的神经元组件3-6.此外,…