Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢?

这里已经必须引入新的概念

时序差分控制算法的分类:在线和离线

在线控制算法:一直使用一个策略选择动作和更新价值函数,如Sarsa

离线控制算法:两个策略,一个选择新的动作,一个更新价值函数,如Q-Learning

Q-Learning简介

在S下基于ε-贪心策略选择动作A,执行A,获得奖励R,并进入下一个状态S’,

接下来如果是Sarsa,将继续基于ε-贪心策略选择动作A’,利用Q(S',A')更新价值函数,并在下一轮执行A’,这就是在线算法,学到什么就执行什么

但是Q-Learning则不同,它将基于贪心策略选择动作A’,利用Q(S',A')更新价值函数,但是在下一轮并不执行A',而是又基于ε-贪心策略选择动作,这就是离线算法,学到什么不一定执行什么

价值更新方式  Q(S,A)=Q(S,A)+α(R+γmaxaQ(S′,a)−Q(S,A))

对比Sarsa    Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A))

对比MC     Q(S,A)=Q(S,A)+(1/N)(Gt−Q(S,A))

在更新q值时,选择什么就执行什么,

在选择动作时,sarsa选择什么就执行什么,Q-Learning选择什么不一定执行什么

Q-Learning算法描述

输入:{S A R γ α ε},迭代轮数T

输出:所有的状态和动作对应的价值Q

1. 随机初始化所有的状态和动作对应的价值Q. 对于终止状态其Q值初始化为0.

2. for i from 1 to T,进行迭代。

  a) 初始化S为当前状态序列的第一个状态。

  b) 用 ε-贪婪法 在当前状态S选择动作A

  c) 在状态S执行当前动作A,得到新状态S’和奖励R

  d) 更新价值函数Q(S,A)=Q(S,A)+α(R+γmaxaQ(S′,a)−Q(S,A))

  e) S=S′

  f) 如果S'是终止状态,当前轮迭代完毕,否则跳转到步骤b)

Q-Learning解决Windy GridWorld

for i in range(10000):
# 10000 轮
while True:
maxq0, r0, stat_0, action0 = choose(start) # e 贪心
if stat_0 == end:
start = [3, 0]
break maxq, r, stat_1, action = choose_max(stat_0) # 贪心
q[get_q_x(start), actions.index(action0)] += alpha * (r0 + maxq - q[get_q_x(start), actions.index(action0)])
start = stat_0

结果同Sarsa

Sarsa 与 Q-Learning 的比较

Sarsa在学习最优策略的同时还在做探索,而Q-Learning直接学习最优策略

这使得

1. Sarsa在训练时,为了保证收敛,需要设定规则,逐渐减小探索率,Q-Learning则不需要

2. Q-Learning直接学习的最优策略,而最优策略是基于当前数据的,这等于放弃了其他更好的机会,可能收敛于局部最优,Q-Learning的强化版Deep Q-Learning也有这个问题

3. Sarsa属于保守型,Q-Learning属于激进派

  // 好比传销的洗脑,骗子告诉你今天干得好能挣1000块钱,明天干得好能挣5000块钱,但是如果不好好干,可能只有100块,Sarsa听了,觉得干好了才能多挣钱,万一干不好,哎,慢慢来吧,而Q-Learning听了,一算,我今天挣1000,明天5000,发财了,于是立即成为忠实的传销分子,这就是急于求成,容易出错

  // 对应到算法上,就是Sarsa训练的模型比较平滑,而Q-Learning陡峭,可能局部最优

4. 在实际应用中,如果在模拟环境中训练模型,推荐Q-Learning,如果在真实环境中训练模型,推荐Sarsa

总结

Q-Learning和Sarsa一样,很灵活,但是不适合解决大规模问题

强化学习8-时序差分控制离线算法Q-Learning的更多相关文章

  1. 强化学习4-时序差分TD

    之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s ...

  2. 强化学习中REIINFORCE算法和AC算法在算法理论和实际代码设计中的区别

    背景就不介绍了,REINFORCE算法和AC算法是强化学习中基于策略这类的基础算法,这两个算法的算法描述(伪代码)参见Sutton的reinforcement introduction(2nd). A ...

  3. 强化学习(七)时序差分离线控制算法Q-Learning

    在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learn ...

  4. 【转载】 强化学习(七)时序差分离线控制算法Q-Learning

    原文地址: https://www.cnblogs.com/pinard/p/9669263.html ------------------------------------------------ ...

  5. 强化学习(五)用时序差分法(TD)求解

    在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列.如果我 ...

  6. 【转】【强化学习】Deep Q Network(DQN)算法详解

    原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...

  7. 强化学习算法DQN

    1 DQN的引入 由于q_learning算法是一直更新一张q_table,在场景复杂的情况下,q_table就会大到内存处理的极限,而且在当时深度学习的火热,有人就会想到能不能将从深度学习中借鉴方法 ...

  8. 强化学习(四)用蒙特卡罗法(MC)求解

    在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法.但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态.导致对 ...

  9. 【转载】 强化学习(四)用蒙特卡罗法(MC)求解

    原文地址: https://www.cnblogs.com/pinard/p/9492980.html ------------------------------------------------ ...

随机推荐

  1. 无线网络覆盖-java中,用Math.sqrt()时,必须要注意小数问题

    时间限制:3000 ms  |  内存限制:65535 KB 难度:3 描述 我们的乐乐同学对于网络可算得上是情有独钟,他有一个计划,那就是用无线网覆盖郑州大学. 现在学校给了他一个机会,因此他要购买 ...

  2. VS Code行内样式提示插件

    打开vscode,在软件界面左下角找到“齿轮”标志并点击,在弹出的菜单中选择“设置”,把下面的代码添加到设置里. { "workbench.colorTheme": "C ...

  3. MySQL表类型和存储引擎

    一.基本介绍 从事务安全性的角度,可以把存储引擎分为两大类: 事务安全: BDB和innodb; 事务非安全性: myisam 和 memory 二.存储引擎的比较图 看你的mysql当前默认的存储引 ...

  4. Matlab-1:jacobi迭代法工具箱

    function [u,n]=Jacobi(A,b,u0,eps,varargin) %Jacobi.m函数为用于雅可比迭代法求解线性方程组 %A为线性方程组的系数矩阵 %b为线性方程组的常数向量 % ...

  5. const constptr 和引用的盲点(未解决)

    #include<iostream> //const 和 引用的值必须初始化 //等号左侧是const或者const和引用,右侧可以是数字,普通变量-等号左侧是const和指针,右侧必须是 ...

  6. springboot 定时任务部署至linux服务器上后会执行两次问题

    springboot定时任务在本地运行时,正常执行且只执行一次,但是在maven打包成war包,部署至linux服务器上之后,定时任务奇怪的执行了两次. 由于未做负载均衡,所以可以先排除是因为多台服务 ...

  7. poj-1061-exgcd

    青蛙的约会 Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 128285   Accepted: 27962 Descript ...

  8. UI BOL 练习 get value set attr

    " " " " "**********************change list************************* "2 ...

  9. Yii2框架RESTful API教程

    前不久做一个项目,是用Yii2框架写一套RESTful风格的API,就去查了下<Yii 2.0 权威指南 >,发现上面写得比较简略.所以就在这里写一篇教程贴,希望帮助刚接触Yii2框架RE ...

  10. 15. 3Sum C++

    参考资料: https://leetcode.com/problems/3sum/discuss/7402/Share-my-AC-C%2B%2B-solution-around-50ms-O(N*N ...