Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!


Abstract
动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明。一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面,强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性(R-STDP)的最新模型已迈出了弥合两种方法之间差距的第一步,但仍面临两个问题。首先,强化学习通常是在不适合自然情况描述的离散框架中制定的。其次,生物学合理的R-STDP模型需要精确计算奖励预测误差,但神经元如何计算该价值仍有待证明。在这里,我们通过将Doya(2000)的连续时序差分(TD)学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况,以提出这些问题的解决方案。在我们的模型中,评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励,决定了向其自身和执行者传递神经调节性TD信号的能力,而后者负责选择动作。在仿真中,我们通过许多与报道的动物表现相符的试验,证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外,从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。
Author Summary
每只狗的主人都知道,动物会重复能够获得奖励的行为。但是,基于奖励的学习所基于的大脑机制是什么?实验研究指出,神经元之间的突触连接具有可塑性,神经调节剂多巴胺起着重要作用,但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里,我们提出一个模型,解释奖励信号如何与突触可塑性相互作用,并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念:一组神经元形成一个“执行者”,负责选择动物的运动方向。另一组神经元,即“评论者”,其作用是预测智能体将获得的奖励,它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫,以找到奖励。值得注意的是,我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。
Introduction
动物行为学习的许多实例,例如觅食中的寻路,或者——一个更加人为的例子——Morris水迷宫导航,可以解释为探索和反复试验学习。 在两个例子中,动物最终学会的行为都是导致高报酬的行为。 这些可以是食欲奖励(即食物)或更间接的奖励,例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面,强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。 强化学习的一种特别吸引人的形式是时差(TD)学习[2]。
在标准设置中,该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。 奖励是在状态和行动的某些结合中给出的,代理商的目的是选择其行动,以最大程度地获得其所获得的奖励。 已经开发了几种算法来解决该问题的标准格式,其中一些算法已与尖峰神经系统一起使用。 这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6],以防代理商对自己的状态不完全了解。
另一方面,实验表明,当发生奖励或奖励预测事件时,与愉悦相关的神经递质多巴胺会释放到大脑中[7]。 多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。 多巴胺最近还显示出可调节依赖于时机的可塑性(STDP),尽管尚不清楚诱导长期增强(LTP)和长期抑郁(LTD)的确切时机和多巴胺的要求[12]。 –14]。
将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态,动作和时间的离散描述,而尖峰神经元会在连续时间内自然进化,并且生物学上合理的“时间步伐”很难 预见。较早的研究表明,可能涉及外部复位[15]或theta振荡[16],但尚无证据支持这一点,并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。 实际上,生物学决策通常是通过连续时间中的整合过程来建模的[17],其中当整合值达到阈值时触发实际决策。
Results
Spiking Neuron Critic
Linear Track Simulation
Spiking Neuron Actor
Water-Maze Simulation
Acrobot Task
Cartpole Task
Discussion
Biological Plausibility
Limitations
Synaptic Plasticity and Biological Relevance of the Learning Rule
Insights for Reward-Modulated Learning in the Brain
Models
Neuron Model
Acrobot Task
Cartpole Task
Actor Dynamics
Other Reward-Modulated Synaptic Learning Rules
Simulation Details
Derivation of δV/δwij
Derivation of the Squared TD Gradient Learning Rule
Noise Correlation Problem
Noise Correlation in the TD-LTP Rule
The Trouble with Continuous Q-Learning
Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章
- Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...
- Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
- DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control
1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比 ...
- 论文笔记之:Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
- Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
- 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
- [Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
- 18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
- 深度强化学习:入门(Deep Reinforcement Learning: Scratching the surface)
RL的方案 两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...
随机推荐
- Centos 7下编译安装Apache
(1)下载apr.apr-util.httpd源码包 百度云下载地址:https://pan.baidu.com/s/1HyW_9XTLhhhf5j_IuNCQsQ 提取码:pg4d (2)安装编译工 ...
- 在CentOS 7 上为docker配置端口转发以兼容firewall
在CentOS 7上当我们以类似下列命令将主机端口与容器端口映射时可能遇到无法访问容器服务的问题 docker run --name web_a -p 192.168.1.250:803:80 -d ...
- Django开发之ORM批量操作
版本 1 Python 3.8.2 2 Django 3.0.6 批量入库 场景: 前端页面通过 textarea 文本框提交一列多行数据到Django后台,后台通过ORM做入库操作 表名: Tabl ...
- Using platform encoding (UTF-8 actually) to copy filtered resources, i.e. build is platform!
原文链接:https://blog.csdn.net/u012700515/article/details/56009429 Maven 打包时有标题中警告,需要在pom.xml文件中添加 <p ...
- 重置spyder 解决 gbk 编码不能读取问题
重置spyder 解决 gbk 编码不能读取问题 2020-06-18
- PDOStatement::setAttribute
PDOStatement::setAttribute — 设置一个语句属性(PHP 5 >= 5.1.0, PECL pdo >= 0.2.0)高佣联盟 www.cgewang.com 说 ...
- BZOJ3772精神污染&BZOJ3488&luogu3242接水果
LINK1:精神污染 LINK2:[ONTAK2010Highways](http://www.lydsy.com/JudgeOnline/problem.php?id=3488) LINK3:[接水 ...
- Docker学习日记-安装Docker
Docker是什么: 简单理解就是基于go语言开发的开源的应用容器引擎. 对进程进行封装隔离,属于操作系统层面的虚拟化技术. Docker的优势: 1.更高效的利用系统资源 2.更快速的启动时间 3. ...
- Spring Security和Swagger2集成报错
出现问题的项目算是一个新项目,但基本的脚手架代码是从另一个项目里迁过来的,原项目并没有报错,只有新项目才报异常.看报错内容,判断发生冲突的主要是spring-boot-starter-security ...
- Tarjan算法 学习笔记
前排提示:先学习拓扑排序,再学习Tarjan有奇效. -------------------------- Tarjan算法一般用于有向图里强连通分量的缩点. 强连通分量:有向图里能够互相到达的点的集 ...