1. 前言

我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差，模型不是很稳定。本节我们介绍时序差分法，时序差分法不需要完整的序列，并且利用Bellman公式和动态规划进行迭代。

2. 时序差分和蒙特卡洛比较

前面提到蒙特卡罗的计算方法由于使用了完整的采样得到了长期回报值，所以在价值的估计上的偏差更小，但同时它需要收集完整序列的信息，而序列存在一定的波动，所以价值的方差会比较大。

而时序差分法只考虑了当前一步的回报值，其余的计算均使用了之前的估计值，所以当整体系统没有达到最优时，这样的估计都是存在偏差的，但是由于它只估计了一步，所以它在估计值方面受到的波动比较小，因此方差也会相应减小许多

所以前人发现，蒙特卡罗法和TD算法象征着两个极端：一个为了追求极小的误差使方差变大，一个为缩小方差使误差变大

3. SARAS法

SARAS是时序差分法的一种。

SARAS假设前一时刻的状态价值的值是最优的$q_{t-1}(s_{t-1},a_{t-1})$，利用当前的行动状态值$q_{t-1}(s_t,a_t)$和奖励值$r_t$来更新$q_{t}(s_{t},a_{t})$，公式如下：

\[q_{t}(s_{t},a_{t}) = q_{t-1}(s_{t-1},a_{t-1}) + \frac{1}{N}(r_t + \gamma*q_{t-1}(s_t,a_t) - q_{t-1}(s_{t-1},a_{t-1}))
\]

从上面的公式可以看出SARAS的字母的意思，分别代表了$s_{t-1},a_{t-1},r_t,a_t,s_t$这5个状态值。

4. SARAS代码介绍

SARAS的强化学习的过程也分为策略评估和策略提升。

策略提升和之前的Model Base都差不多，借鉴策略迭代和价值迭代。

策略评估中有比较大的区别，下面给出策略评估的代码，完整代码GitHub

# sarsa的策略评估

def sarsa_eval(self, agent, env):

    state = env.reset()

    prev_state = -1

    prev_act = -1

    while True:

        act = agent.play(state, self.epsilon)

        next_state, reward, terminate, _ = env.step(act)

        if prev_act != -1:

            # SARSA的迭代公式

            return_val = reward + agent.gamma * (0 if terminate else agent.value_q[state][act])

            agent.value_n[prev_state][prev_act] += 1

            agent.value_q[prev_state][prev_act] += (return_val - agent.value_q[prev_state][prev_act]) / agent.value_n[prev_state][prev_act]

        prev_act = act

        prev_state = state

        state = next_state

        if terminate:

            break

5. 总结

SARSA法和动态规划法比起来，不需要环境的状态转换模型(Model Free)，和蒙特卡罗法比起来，不需要完整的状态序列，因此比较灵活。在传统的强化学习方法中使用比较广泛。

但是SARSA算法也有一个传统强化学习方法共有的问题，就是无法求解太复杂的问题。在SARSA算法中，$q(s,a)$的值使用一张大表来存储的，如果我们的状态和动作都达到百万乃至千万级，需要在内存里保存的这张大表会超级大，甚至溢出，因此不是很适合解决规模很大的问题。当然，对于不是特别复杂的问题，使用SARSA还是很不错的一种强化学习问题求解方法。

强化学习-时序差分算法（TD）和SARAS法的更多相关文章

强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...
【强化学习】DQN 算法改进
DQN 算法改进 (一)Dueling DQN Dueling DQN 是一种基于 DQN 的改进算法.主要突破点:利用模型结构将值函数表示成更加细致的形式,这使得模型能够拥有更好的表现.下面给出公式 ...
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...
强化学习（五）用时序差分法（TD）求解
在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列.如果我 ...
强化学习4-时序差分TD
之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s ...
强化学习（七）时序差分离线控制算法Q-Learning
在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learn ...
【转载】强化学习（七）时序差分离线控制算法Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9669263.html ------------------------------------------------ ...
【转载】强化学习（五）用时序差分法（TD）求解
原文地址: https://www.cnblogs.com/pinard/p/9529828.html ------------------------------------------------ ...
强化学习（三）—— 时序差分法（SARSA和Q-Learning）
1.时序差分法基本概念虽然蒙特卡洛方法可以在不知道状态转移概率矩阵的前提下,灵活地求解强化学习问题,但是蒙特卡洛方法需要所有的采样序列都是完整的状态序列.如果我们没有完整的状态序列就无法用蒙特卡洛方 ...

随机推荐

Jenkins不同job之间传递参数
有的时候不同job直接需要传递一个文件名或者路径,这个时候我们不需要传递文件实体,那这个路径如何传递呢?比如有如下两个项目,我想把A的工作目录传递给B,让B使用. A job配置首先需要安装一个Pa ...
学习DRF之前
在学习DRF之前~我们要先复习一些知识点~~ FBV和CBV的区别学习Django的时候~我们已经了解过CBV以及FBV 什么是FBV和CBV呢~~ FBV 基于函数的视图 CBV 基于类的视图也 ...
web前端知识大纲：系列三 html篇
web前端庞大而复杂的知识体系的组成:html.css和 javascript 三.HTML 1.BOM BOM 是 Browser Object Model的缩写,即浏览器对象模型,当一个浏览器页面 ...
python基础一 -------如何在列表字典集合中根据条件筛选数据
如何在列表字典集合中根据条件筛选数据一:列表先随机生成一个列表,过滤掉负数 1,普通for循环迭代判断 2,filter()函数判断,filter(函数,list|tuple|string) fi ...
BZOJ3022 : [Balkan2012]The Best Teams
将选手和询问按照年龄排序,即可去掉年龄的限制. 将所有选手按水平排序后维护线段树,显然最优解一定是从大到小贪心选择. 线段树上每个节点维护: $g[0/1]:r+1$不选/选的时候,$l$选不选. $ ...
HashMap实现原理（jdk1.7/jdk1.8）
HashMap的底层实现: 1.简单回答 JDK1.7:HashMap的底层实现是:数组+链表 JDK1.8:HashMap的底层实现是:数组+链表/红黑树为什么要红黑树? 红黑树:一个 ...
java第七周动手动脑
public class ParentChildTest { public static void main(String[] args) { Parent parent=new Parent(); ...
小甲鱼Python第十三讲课后题--014字符串
字符串的方法及注释 capitalize() 把字符串的第一个字符改为大写 casefold() 把整个字符串的所有字符改为小写 center(width) ...
Linux命令之yum篇
作业六:yum命令1) 自定义yum仓库:createrepo[root@localhost /]#mkdir /rpm_bak[root@localhost /]#cp /media/Package ...
Redis连接出现Error: Connection reset by peer的问题是由于使用Redis的安全模式
现在网上一查出现安全模式的连接,基本都是要关闭服务端的操作,其实这种方式是不正确的,最有效的解决方式是使用stunnel进行安全模式的连接. 我碰到的问题是微软云(其实我不想用!)连接Redis,默认 ...

强化学习-时序差分算法（TD）和SARAS法