Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　动物会重复奖励的行为，但基于奖励的学习的生理基础仅得到了部分阐明。一方面，实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面，强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性（R-STDP）的最新模型已迈出了弥合两种方法之间差距的第一步，但仍面临两个问题。首先，强化学习通常是在不适合自然情况描述的离散框架中制定的。其次，生物学合理的R-STDP模型需要精确计算奖励预测误差，但神经元如何计算该价值仍有待证明。在这里，我们通过将Doya（2000）的连续时序差分（TD）学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况，以提出这些问题的解决方案。在我们的模型中，评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励，决定了向其自身和执行者传递神经调节性TD信号的能力，而后者负责选择动作。在仿真中，我们通过许多与报道的动物表现相符的试验，证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外，从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。

Author Summary

　　每只狗的主人都知道，动物会重复能够获得奖励的行为。但是，基于奖励的学习所基于的大脑机制是什么？实验研究指出，神经元之间的突触连接具有可塑性，神经调节剂多巴胺起着重要作用，但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里，我们提出一个模型，解释奖励信号如何与突触可塑性相互作用，并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念：一组神经元形成一个“执行者”，负责选择动物的运动方向。另一组神经元，即“评论者”，其作用是预测智能体将获得的奖励，它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫，以找到奖励。值得注意的是，我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。

Introduction

　　动物行为学习的许多实例，例如觅食中的寻路，或者——一个更加人为的例子——Morris水迷宫导航，可以解释为探索和反复试验学习。在两个例子中，动物最终学会的行为都是导致高报酬的行为。这些可以是食欲奖励（即食物）或更间接的奖励，例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面，强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。强化学习的一种特别吸引人的形式是时差（TD）学习[2]。
在标准设置中，该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。奖励是在状态和行动的某些结合中给出的，代理商的目的是选择其行动，以最大程度地获得其所获得的奖励。已经开发了几种算法来解决该问题的标准格式，其中一些算法已与尖峰神经系统一起使用。这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6]，以防代理商对自己的状态不完全了解。
另一方面，实验表明，当发生奖励或奖励预测事件时，与愉悦相关的神经递质多巴胺会释放到大脑中[7]。多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。多巴胺最近还显示出可调节依赖于时机的可塑性（STDP），尽管尚不清楚诱导长期增强（LTP）和长期抑郁（LTD）的确切时机和多巴胺的要求[12]。 –14]。

将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态，动作和时间的离散描述，而尖峰神经元会在连续时间内自然进化，并且生物学上合理的“时间步伐”很难预见。较早的研究表明，可能涉及外部复位[15]或theta振荡[16]，但尚无证据支持这一点，并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。实际上，生物学决策通常是通过连续时间中的整合过程来建模的[17]，其中当整合值达到阈值时触发实际决策。

Results

Spiking Neuron Critic

Linear Track Simulation

Spiking Neuron Actor

Water-Maze Simulation

Acrobot Task

Cartpole Task

Discussion

Biological Plausibility

Limitations

Synaptic Plasticity and Biological Relevance of the Learning Rule

Insights for Reward-Modulated Learning in the Brain

Models

Neuron Model

Acrobot Task

Cartpole Task

Actor Dynamics

Other Reward-Modulated Synaptic Learning Rules

Simulation Details

Derivation of δV/δw_ij

Derivation of the Squared TD Gradient Learning Rule

Noise Correlation Problem

Noise Correlation in the TD-LTP Rule

The Trouble with Continuous Q-Learning

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...
Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control
1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比 ...
论文笔记之：Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
[Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)
RL的方案两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...

随机推荐

解决移动端rem加载瞬间页面错乱的方法（放大或者缩小）
移动端布局有很多种,这里我们最常使用到rem+百分比的布局方式(高度/字体设置rem单位,宽度设置百分比)来处理屏幕兼容,这种方法在兼容上是比较不错的,可以使得字体以及整体适应各种大小的屏幕,可以解决 ...
Django学习路18_F对象和Q对象
F 对象: 可以使用模型的 A 属性和 B 属性进行比较写法: 需要的数据对象 = 数据表(类名).objects.filter(列名__条件=F('列名2')) 需求: 查看男生数量比女生少的公 ...
pandas_DateFrame的创建
# DateFrame 的创建,包含部分:index , column , values import numpy as np import pandas as pd # 创建一个 DataFrame ...
记一次mysql关于limit和orderby的优化
针对于大数据量查询,我们一般使用分页查询,查询出对应页的数据即可,这会大大加快查询的效率: 在排序和分页同时进行时,我们一定要注意效率问题,例如: select a.* from table1 a i ...
PHP fgetss() 函数
定义和用法 fgetss() 函数从打开的文件中返回一行,并过滤掉 HTML 和 PHP 标签. fgetss() 函数会在到达指定长度或读到文件末尾(EOF)时(以先到者为准),停止返回一个新行. ...
HTML与XHTML之间的区别
HTML与XHTML之间的差别,粗略可以分为两大类比较:一个是功能上的差别,另外是书写习惯的差别.关于功能上的差别,主要是XHTML可兼容各大浏览器.手机以及PDA,并且浏览器也能快速正确地编译网页. ...
【FZYZOJ】「Paladin」瀑布题解（期望+递推）
题目描述 CX在Minecraft里建造了一个刷怪塔来杀僵尸.刷怪塔的是一个极高极高的空中浮塔,边缘是瀑布.如果僵尸被冲入瀑布中,就会掉下浮塔摔死.浮塔每天只能工作 $t$秒,刷怪笼只能生成 $N$ ...
数据结构中的树(二叉树、二叉搜索树、AVL树)
数据结构动图展示网站树的概念树(英语:tree)是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合.它是由n(n>=1)个有限节点组成一个具有 ...
JVM系列之:JIT中的Virtual Call接口
目录简介最常用的接口List 多个List的调用不一样的List调用总结简介上一篇文章我们讲解了Virtual Call的定义并举例分析了Virtual Call在父类和子类中的优化. J ...
用var声明变量，在java中居然有这么多细节，你都了解么？
简介 Java SE 10引入了局部变量的类型推断.早先,所有的局部变量声明都要在左侧声明明确类型. 使用类型推断,一些显式类型可以替换为具有初始化值的局部变量保留类型var,这种作为局部变量类型的 ...

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

随机推荐

热门专题