论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs

Deep Recurrent Q-Learning for Partially Observable MDPs

　 摘要：DQN 的两个缺陷，分别是：limited memory 和 rely on being able to perceive the complete game screen at each decision point.

　　为了解决这两个问题，本文尝试用 LSTM 单元替换到后面的 fc layer，这样就产生了 Deep Recurrent Q-Network （DRQN），虽然每一个时间步骤仅仅能看到一张图像，仍然成功的结合了相关信息，在Atari games 和 partically observed equivalents feature flikering game screens，得到了 DQN 相当的效果。另外，当用部分观测进行训练，并且用逐渐增加的完整的观测时，DRQN 的性能和观测成一定的函数关系。相反的，当用全屏进行训练的时候，用部分观测进行评估，但是DRQN 的性能却比 DQN 的效果要差。所以，给定同样长度的历史，recurrency 是一种实际可行的方法来存储 DQN 的输入层的历史。

　引言：开头讲了 DQN 取得的成功，后面开始说他的两个弱点，使得 MDP问题逐渐变成了部分观测的马尔科夫决策过程（partically-observable markov decision process）。

　　像下图所展示的那样，仅仅给定一帧图像，许多游戏就变成了 POMDPs。一个例子就是，我们只能知道这个球的位置，但是无法得知其速度。但是知道球的运动方向是非常重要的，因为这将会决定最优的踏板的位置。

　　我们观测到 DQN 的性能在给定不完全的状态观测时，性能就会下降。我们假设 DQN 可以被改善的能够处理 POMDPs，通过引入 RNN 的 advances 。所以，我们引入了 Deep Recurrent Q-Network (DRQN)，组合了 LSTM 和 Deep Q-network。关键的是，我们表明 DRQN 能够处理部分观测的情况，and that recurrency confers benefits when the quality of observations change during evaluation time .

　　Deep Q-learning 的简介（略）

　　Partical Observability :

　　在真实世界的环境中，很少有 full state of the system 可以提供给 agent 。换句话说，马尔科夫属性在这样的环境中，几乎不成立。部分观测的 MDPs 可以更好的抓住环境的动态，通过显示的认识到：agent 接受到的感知都是潜在系统状态的部分glimpse （only partical glimpses of the underlying system state）。形式上来说，POMDP 可以表达为 6个变量：

　　(S, A, P, R, X, O). 假设这几个变量分别为：状态，动作，转移函数，奖励，X 表示真实的环境，但是agent 只能感知其部分信息 o 。

　　在一般情况下，预测一个 Q-value 可能是不准确的，是因为： $Q(o, a|\theta) != Q(s, a|\theta)$ 。

　　我们的实验表明，添加了 recurrency 到 DQN 当中，允许 Q-network 能够更好的预测潜在的系统状态，缩小上述不等式两者之间的差距。从而更加准确的预测 Q values ，进一步的提升学习到的策略。

　　DRQN Architecture：

　　像图 2 所示的那样，DRQN 的结构是将 DQN 上的第一个 fc layer 替换成了 LSTM 单元。

　　对于输入来说，Recurrent network 输入一张 84*84 的图像。

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs的更多相关文章

论文笔记(2)：A fast learning algorithm for deep belief nets.
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm ...
论文笔记——A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding
论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Prunin ...
论文笔记之： Recurrent Models of Visual Attention
Recurrent Models of Visual Attention Google DeepMind 模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也 ...
论文笔记：Deep feature learning with relative distance comparison for person re-identification
这篇论文是要解决 person re-identification 的问题.所谓 person re-identification,指的是在不同的场景下识别同一个人(如下图所示).这里的难点是,由于不 ...
论文笔记：Deep Residual Learning
之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记.在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域, ...
论文笔记：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
论文笔记之：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS ICLR 2 ...
论文笔记 — L2-Net: Deep Learning of Discriminative Patch Descriptor in Euclidean Space
论文: 本文主要贡献: 1.提出了一种新的采样策略,使网络在少数的epoch迭代中,接触百万量级的训练样本: 2.基于局部图像块匹配问题,强调度量描述子的相对距离: 3.在中间特征图上加入额外的监督: ...
论文笔记 - An Explanation of In-context Learning as Implicit Bayesian Inference
这位更是重量级.这篇论文对于概率论学的一塌糊涂的我简直是灾难. 由于 prompt 的分布与预训练的分布不匹配(预训练的语料是自然语言,而 prompt 是由人为挑选的几个样本拼接而成,是不自然的自然 ...

随机推荐

关于xcode不同版本打开相同工程问题
今天刚下好了xcode7正式版,于是乎用其创建一个工程.随后关闭此工程用xcode6.3打开此工程.发现报错不能运行,随后网上查资料,可惜中文版的资料几乎可以说是没有,因此写下此文,以方便其他遇到此情 ...
Integer
import static java.lang.System.*; public class IntegerTestOne{ public static void main(String []args ...
Gson手动序列化POJO(工具类)
gson2.7版本只是简单的工具类(练习所用): package pojo; import javax.xml.bind.annotation.XmlSeeAlso; import com.goog ...
【linux】linux下yum安装后Apache、php、mysql默认安装路径
原文:http://blog.csdn.NET/u010175124/article/details/27322757apache:如果采用RPM包安装,安装路径应在 /etc/httpd目录下apa ...
js问题解释
今天群里有人问一个js问题,现列出以便其他人参考. Function.prototype.curry=function(){ var slice=Array.prototype.slice, args ...
ajax 异步插入图片到数据库（单图上传）
其实也没啥如图: 点击按钮选择图片,选择完成后无需点击确定 ,自动上传到服务器指定文件夹然后插入到数据库中. 下面来看看这要代码 index.php <!DOCTYPE HTML> ...
iOS开发UI篇—Quartz2D使用(信纸条纹)
iOS开发UI篇—Quartz2D使用(信纸条纹) 一.前导程序新建一个项目,在主控制器文件中实现以下几行代码,就能轻松的完成图片在视图中的平铺. #import "YYViewContr ...
荣品RP4412开发板摄像头驱动调用及对焦控制
1.关于更换不同摄像头驱动调用问题. 问:RP4412开发板,我用的摄像头640*480图像预览时OK的,但是我调用1280*720的初始化预览,摄像头没有图像了,是不是camera程序也需要修改? ...
WinRT知识积累1之读xml数据
前述:这个知识是在Windows8.1或WP8.1中运用Linq to xml获取一个xml文件里的数据.(网上也很多类似的知识,可以借鉴参考) 平台:windows8.1 metro 或者WP8.1 ...
WPF之MVVM模式讲解
WPF技术的主要特点是数据驱动UI,所以在使用WPF技术开发的过程中是以数据为核心的,WPF提供了数据绑定机制,当数据发生变化时,WPF会自动发出通知去更新UI. 恰当的模式可以让我们轻松达到“高内聚 ...

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs的更多相关文章

随机推荐

热门专题