利用强化学习算法解释人类脑对高维状态的抽象表示：how humans can map high-dimensional sensory inputs in actions

论文：

《Using deep reinforcement learning to reveal how the brain encodes abstract state-space representations in high-dimensional environments》

地址：

https://www.cell.com/neuron/fulltext/S0896-6273(20)30899-0

正文：

https://www.cell.com/neuron/pdf/S0896-6273(20)30899-0.pdf

补充信息：

https://www.cell.com/cms/10.1016/j.neuron.2020.11.021/attachment/57cc3979-b15e-468c-a4df-e8927360c70e/mmc1

文章的主要表达思想：

In Brief

Cross et al. scanned humans playing Atari

games and utilized a deep reinforcement

learning algorithm as a model for how

humans can map high-dimensional

sensory inputs in actions.

Representations in the intermediate

layers of the algorithm were used to

predict behavior and neural activity

throughout a sensorimotor pathway.

由于这个论文是生命科学的，属于生物学论文，虽然是使用AI算法中的DQN算法的原理来类比人类脑，但是主要的内容还是围绕生命科学的，因此没有太多的理解，不过文章中的一个观点感觉还是有些启发的：

分别使用CNN和VAE作为强化学习算法DQN的特征提取部分对算法性能的影响？

标准的DQN是使用CNN网络模型的，但是如果我们把一个训练好的基于CNN的DQN模型作为对比，把这个DQN模型对某个游戏环境运行得到的数据来训练一个VAE，然后用这个VAE来训练一个新的基于VAE的DQN，那么这个基于VAE的DQN的性能是会差于基于CNN模型的DQN的；文章中把这个分析为在训练基于神经网络的DQN时，如果把映射的动作信息和奖励回报值加入到训练中，也就是使用CNN模型的DQN，那么会得到更好的算法性能；在使用CNN的DQN进行训练时会把high level的特征提取出来，而不会把low level的特征提取出来，而VAE则是会报所有的信息都提取出来，而像基于CNN的DQN算法最后进行策略训练时使用的状态特征是筛除更高特征的信息，是和动作和奖励回报相关的，因此性能会更好。

利用强化学习算法解释人类脑对高维状态的抽象表示：how humans can map high-dimensional sensory inputs in actions的更多相关文章

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
强化学习算法DQN
1 DQN的引入由于q_learning算法是一直更新一张q_table,在场景复杂的情况下,q_table就会大到内存处理的极限,而且在当时深度学习的火热,有人就会想到能不能将从深度学习中借鉴方法 ...
强化学习算法Policy Gradient
1 算法的优缺点 1.1 优点在DQN算法中,神经网络输出的是动作的q值,这对于一个agent拥有少数的离散的动作还是可以的.但是如果某个agent的动作是连续的,这无疑对DQN算法是一个巨大的挑战 ...
【转载】准人工智能分享Deep Mind报告 ——AI“元强化学习”
原文地址: https://www.sohu.com/a/231895305_200424 ------------------------------------------------------ ...
【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...
强化学习Q-Learning算法详解
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
强化学习论文（Scalable agent alignment via reward modeling: a research direction）
原文地址: https://arxiv.org/pdf/1811.07871.pdf ======================================================== ...
【转载】 DeepMind发表Nature子刊新论文：连接多巴胺与元强化学习的新方法
原文地址: baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc 机器之心 18-05-15 14:26 - ...

随机推荐

C#.NET 国密 BASE64编码的私钥提取16进制私钥（锦州银行、建行轻应用）
C#.NET 国密 BASE64编码的私钥提取16进制私钥 (锦州银行.建行轻应用), 从BASE64编码的公钥中提取16进制字符串公钥, 从BASE64编码的私钥中提取16进制字符串私钥, 锦州银行 ...
如何发现及处理 MySQL 主从延迟问题
在 Percona MySQL 支持团队中,我们经常看到客户抱怨复制延迟的问题.当然,这对 MySQL 用户来说并不是什么新鲜事,多年来我们在 MySQL 性能博客上发表过一些关于这个主题的文章(过去 ...
(十)selenium实现微博高级搜索信息爬取
1.selenium模拟登陆 2.定位进入高级搜索页面 3.对高级搜索进行定位,设置. 4.代码实现 import time from selenium import webdriver from l ...
spark读取hive表,org.apache.spark.sql.AnalysisException: Unsupported data source type for direct query on files: hive;
异常出现:spark读取hive表时,spark.read.table(hive.test) hdp版本的spark默认的catalog是spark,配置项 metastore.catalog.def ...
用cvCvtColor转化RGB彩色图像为灰度图像时发生的小失误
版本信息 MAC版本:10.10.5 Xcode版本:7.2 openCV版本:2.4.13 在运行程序的时候发现cvCvtColor的地方程序报错 error: (-215) src.depth() ...
invalid comparison: java.util.Date and java.lang.String异常的原因
mybatis查询时使用date类型与""比较导致的例 <if test="params.applicationEndTime != null and param ...
Android Framework：如何让 App 拿到Power key 值
Android app:如何让 App 拿到Power key 值原文(有删改):https://blog.csdn.net/qq_37858386/article/details/10383566 ...
socket 端口复用 SO_REUSEPORT 与 SO_REUSEADDR
背景在学习 SO_REUSEADDR 地址复用的时候,看到有人提到了 SO_REUSEPORT .于是也了解了一下. SO_REUSEPORT 概述 SO_REUSEPOR这个socket选项可以让 ...
阿里云日志Nginx日志分析
每分钟接口访问次数的前200条统计 not request_uri : "/heartbeat.html" | SELECT time_series(time, '1m', '%H ...
Linux 中 WIFI 和热点的使用
之前一直在 ubuntu 的图形界面中使用,突然需要在 ARM 板上打开热点,一时给弄蒙了,在此记录一下一.网卡命令显示所有网络信息 sudo ip link show 关闭或打开网络 sudo ...

利用强化学习算法解释人类脑对高维状态的抽象表示：how humans can map high-dimensional sensory inputs in actions

利用强化学习算法解释人类脑对高维状态的抽象表示：how humans can map high-dimensional sensory inputs in actions的更多相关文章

随机推荐

热门专题