1. 前言

在前面的章节中我们介绍了时序差分算法（TD）和Q-Learning，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不动作空间和状态太大十分困难。所以论文Human-level control through deep reinforcement learning提出了用Deep Q Network（DQN）来拟合Q-Table，使得Q-Table的更新操作包在一个黑盒里面，使强化学习的过程更加的通用化，自动化。

2. DQN的结构

我们可以把DQN理解为在Q-Learning的整体框架大体不改的情况下，对于\((S,A)->R\)奖励的获取方式的一种改进。

DQN有两个大的创新点：

Replay Buffer样本回放缓冲区或者叫做（Experience replay）
Target Network目标网络

2.1 Replay Buffer

使用DQN模型代替Q-Table会遇到两个问题

交互得到的序列存在一定的相关性：交互序列中的状态行动存在着一定的相关性，而对于基于最大似然法的机器学习模型来说，我们有一个很重要的假设：训练样本是独立且来自相同分布的，一旦这个假设不成立，模型的效果就会大打折扣。而上面提到的相关性恰好打破了独立同分布的假设，那么学习得到的值函数模型可能存在很大的波动。
交互数据的使用效率：采用梯度下降法进行模型更新时，模型训练往往需要经过多轮迭代才能收敛，每一次迭代，需要使用一定数量的样本计算梯度，如果每次计算的样本在计算一次梯度后就被丢弃，那么我们就需要花费更多的时间与环境交互并收集样本。

Replay Buffer结构图：

总的来说，Replay Buffer含了收集样本和采样样本两个过程。

收集样本：按照时间先后顺序存入结构中，如果Replay Buffer经存满样本，那么新的样本会将时间上最久远的样本覆盖。
采样样本：如果每次都取最新的样本，那么算法就和在线习相差不多；般来说，Replay Buffer会从缓存中均匀地随机采样一批样本进行学习。

均匀采样的好处是什么呢？前面提到我们交互得到的序列在时间维度上存在一定的相关性。我们希望学习得到的值函数能够表示在当前状态行动下的长期收益的期望，然而每一次交互得到的序列，只能代表当前状态一行动下的一次采样轨迹，并不能代表所有可能的轨迹。这样估计的结果就和期望的结果存在一定的差距。随着交互时间不断拉长，这个差距的累积会越来越大。如果完全使用序列的估计值进行训练，某一轮训练时模型会朝着一个序列的估计训练，另一轮训练又会朝着另一个序列的估计训练，那么模型很容易产生较大波动采用均匀采样后，每次训练的样本通常来自多次交互序列，这样单一序列的波动就被减轻很多，训练效果也就稳定了很多。同时，一份样本也可以被多次训练，提高了样本的利用。

2.2 Target Network

模型不稳定的另外一个原因来自算法本身，Q-Learning的计算公式可以看出，算法可以分成如下两个步骤：

计算当前的状态行动下的价值目标值:\(\nabla{q(s,a)}=\gamma(s^{'})+max_{a^{'}}q^{T-1}(s^{'},a^{'})\)
网络模型的更新:\(q^T(s,a)=q^{T-1}(s,a)+\frac{1}{N}[\nabla{q(s,a)}-q^{T-1}(s,a)]\)

可以看出模型通过当前时刻的回报和下一时刻的价值估计进行更新，这里存在一些隐患，前面提到数据样本差异可能造成一定的波动，由于数据本身存在着不稳定性每一轮轮迭代都可能产生一些波动，如果按照上面的计算公式，这些波动会立刻反映到下一个迭代的计算中，这样我们就很难得到一个平稳的模型。为了减轻相关问题带来的影响，我们要尽可能地将两个部分解耦。所以引入了Target Network，而原本的模型被称为Behavior Network。

在训练开始时，两个模型使用完全相同的参数。
在训练过程中， Behavior Network负责与环境交互，得到交互样本。
在学习过程中，由Q-Learning得到的目标价值由Target Network算得到;然后用它和Behavior Network的估计值进行比较得出目标值并更新Behavior Network。
每当训练完成一定轮数的迭代，Behavior Network模型的参数就会同步给Target Network，这样就可以进行下一个阶段的学习了。
通过使用 Target Network，计算目标价值的模型在一段时间内将被固定，这样模型可以减轻模型的波动性。

2.3 DQN的算法过程

（欢迎转载，转载请注明出处。欢迎沟通交流： 339408769@qq.com）

Deep Q Network(DQN)原理解析的更多相关文章

强化学习系列之:Deep Q Network (DQN)
文章目录 [隐藏] 1. 强化学习和深度学习结合 2. Deep Q Network (DQN) 算法 3. 后续发展 3.1 Double DQN 3.2 Prioritized Replay 3. ...
【转】【强化学习】Deep Q Network(DQN)算法详解
原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...
深度增强学习--Deep Q Network
从这里开始换个游戏演示,cartpole游戏 Deep Q Network 实例代码 import sys import gym import pylab import random import n ...
AlphaGo的前世今生（一）Deep Q Network and Game Search Tree：Road to AI Revolution
这一个专题将会是有关AlphaGo的前世今生以及其带来的AI革命,总共分成三节.本人水平有限,如有错误还望指正.如需转载,须征得本人同意. Road to AI Revolution(通往AI革命之路 ...
深度强化学习（DQN-Deep Q Network）之应用-Flappy Bird
深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
论文翻译：2022_PACDNN: A phase-aware composite deep neural network for speech enhancement
论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware compo ...
[原][Docker]特性与原理解析
Docker特性与原理解析文章假设你已经熟悉了Docker的基本命令和基本知识首先看看Docker提供了哪些特性: 交互式Shell:Docker可以分配一个虚拟终端并关联到任何容器的标准输入上, ...
【算法】(查找你附近的人) GeoHash核心原理解析及代码实现
本文地址原文地址分享提纲: 0. 引子 1. 感性认识GeoHash 2. GeoHash算法的步骤 3. GeoHash Base32编码长度与精度 4. GeoHash算法 5. 使用注意点( ...

随机推荐

scrapy 爬取图片
scrapy 爬取图片 1.scrapy 有下载图片的自带接口,不用我们在去实现 setting.py设置 # 保存log信息的文件名 LOG_LEVEL = "INFO" # L ...
AtCoder Grand Contest 037
Preface 这篇咕了可能快一个月了吧,正好今天晚上不想做题就来补博客现在还不去复习初赛我感觉我还是挺刚的(微笑) A - Dividing a String 考虑最好情况把每个字符串当作一个来看 ...
pymysql 读取大数据内存卡死的解决方案
背景:目前表中只有5G(后期持续增长),但是其中一个字段(以下称为detail字段)存了2M(不一定2M,部分为0,平均下来就是2M),字段中存的是一个数组,数组中存N个json数据.这个字段如下: ...
按照官网的升级完socket.io报错Manager is being released。
查阅了很多资料和英文官网自己也提出了一些问题,估计官网以前有该类的问题历史,懒得回复. 终于功夫不负有心人原因竟然是:你的manager被释放了. you need to make sure the ...
jvm的组成入门
JVM的组成分为整体组成部分和运行时数据区组成部分. JVM的整体组成 JVM的整体组成可以分为4个部分:类加载器(Classloader).运行时数据区(Runtime Data Area).执行引 ...
etcd 开启auth认证
一.概述 1.etcd的v2和v3的认证有些不同,需要分别设置2.Etcd通过用户(user)-角色(role)-权限的方式来控制访问,用户关联角色,角色拥有权限,从而用户也就拥有了相应的权限3.Et ...
基于OceanStor Dorado V3存储之数据保护 Hyper 特性
基于OceanStor Dorado V3存储之数据保护 Hyper 特性 1.1 快照 1.2 HyperCDP 1.3 HyperCopy 1.4 克隆(HyperClone) 1.5 ...
DAX 第七篇：分组聚合
DAX有三个用于生成分组聚合数据的函数,这三个函数有两个共同的特征:分组列和扩展列. 分组列是用于分组的列,只能来源于基础表中已存的列,分组列可以来源于同一个表,也可以来源于相关的列. 扩展列是由na ...
OWIN,Katana,identity整体概述
在用asp.net identity的时候,发现很多概念不是很懂,特地去查资料了解了一些相关信息,现在做下笔记. 1.OWIN,OWIN是Open Web Server Interface for . ...
NeatUpload .NetFromWork4.0 config配置
NeatUpload使用---config配置(可进行大文件传输) configuration> 下增加: <configSections> <sectionGroup nam ...

Deep Q Network(DQN)原理解析