一、Intro

　　Prediction只是评估给定策略的表现，直白的说它是找 “在环境ENV下，AGENT按照给定的策略pai，AGENT的价值函数”。

　　这篇blog只介绍三种计算方法，没有涉及到 “求取ENV下的最优AGENT”！

　　对于事先已经给出了ENV，也就是说我们有完整的MDP，知道所有的state，也知道从这到那、从那到这的reward，可以在代码的开头就定义State表和reward表，这就是model-based问题，只要使用贝尔曼方程和贝尔曼最优方程迭代更新找到最优的value function V*和最优的policy pai*即可。

　　而大多数情况下ENV是不会给你的。只把你扔到一个陌生的环境中自己去探索去学习。也就是说我们不知道在这个ENV下总共有哪几种state，不知道离开这个state进入那个state会得到多少reward。所以！state要靠自己去探索鉴定，reward只知道最后输赢的时候的reward，这里我们就采用了model free算法了。

　　传统的model free算法有三种：

————MC

————TD

————TD(lamda)

在model free Prediction这里，三种方法相同之处是：

使用固定的策略pai作为控制策略进行探索，获得多条episode的数据（这里的episode有的是以终止状态S_T为结尾的，有的不是）；

基于大量episode的数据求取所有出现过的状态的价值预测的均值，来代表策略pai对应的状态价值函数（V(s) → vπ(s) as N(s) →∞）

二、 MC方法

蒙特卡洛方法直接使用一条条episode的经验。value<——mean return。

对于同一个状态在一个episode中多次出现，分为首访蒙特卡洛和每访蒙特卡洛。首访蒙特卡洛是只考虑状态的第一次出现，而每访蒙特卡洛是每次都要计入。

使用渐进更新：

其实就是采样取均值，使用样本估计全局。基于大数定理当采样数足够大时均值结果就趋于于真实结果了。

三、 TD方法

时序差分方法直接使用一条条episode的经验。value<——mean return。

#TD learns from incomplete episodes, by bootstrapping

#TD updates a guess towards a guess

TD的更新式是这样的： V(St) ← V(St) + α( Rt+1 + γV(St+1) −V(St))，

MC的更新式是这样的：V(St) ← V(St) + α( Gt −V(St))

虽然两种方法都是使用大量episode的均值来估取value，但

可以看出，MC是使用完整采样来渐进更新求取均值，而TD是使用不完全采样来渐进更新求取均值。

也正因此，TD适用于 “持续环境” ； MC受限于 “有终止态环境” //例如围棋alphaGo使用蒙特卡洛树搜索，围棋就是一个典型的“有终止态环境”

TD有两个概念 “TD target”和“TD error”

　　|—— TD target R_t+1 + γV(S_t+1)

　　\—— TD error δ_t = R_t+1 + γV(S_t+1)−V(S_t)

拓展：TD n step

是对上面的TD的一个拓展，上面我们使用R_t+1 + γV(S_t+1)作为TD target来计算均值估计V(S_t) ==》一步的真实采样+一个还在迭代更新中不准确的V值

我们也可以多看几步，如R_t+1 +R_t+2 + γV(S_t+3)作为TD target来计算均值估计V(S_t)， ==》两步的真实采样+一个还在迭代更新中不准确的V值

.................................... ==》 n步的真实采样+一个还在迭代更新中不准确的V值

四、蒙特卡洛&时序差分的 Bias / Variance 比较：

五、 TD(λ)方法

　　TD(λ)的更新式是这样的：V(St) ← V(St) + α( G^λ −V(St))

　　G^λ 是这样定义的：

<强化学习>无模型下计算给定策略对应的价值函数，Model free Prediction，评估一个给定策略的表现的更多相关文章

用深度强化学习玩FlappyBird
摘要:学习玩游戏一直是当今AI研究的热门话题之一.使用博弈论/搜索算法来解决这些问题需要特别地进行周密的特性定义,使得其扩展性不强.使用深度学习算法训练的卷积神经网络模型(CNN)自提出以来在图像处理 ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...
论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)
这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来 ...
【转】强化学习（一）Deep Q-Network
原文地址:https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端就是DeepMi ...
强化学习论文（Scalable agent alignment via reward modeling: a research direction）
原文地址: https://arxiv.org/pdf/1811.07871.pdf ======================================================== ...
深度强化学习资料（视频+PPT+PDF下载）
https://blog.csdn.net/Mbx8X9u/article/details/80780459 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有 ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
强化学习（二）马尔科夫决策过程(MDP)
在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素.但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策 ...
DRL强化学习：
IT博客网热点推荐推荐博客编程语言数据库前端 IT博客网 > 域名隐私保护免费 DRL前沿之:Hierarchical Deep Reinforcement Learning 来源: ...

随机推荐

Autoit里用多进程模拟多线程
一直以来Autoit都不支持多线程,因此一些需要同时运行多个循环的操作也就无法实现.这个问题在其它的某些语言里也经常出现,解决的方法就是使用多进程. 所谓多进程,就是同时运行多个子进程,每个子进程 ...
《精通Objective-C》书籍目录
1.入门 2.使用类 3.对象和消息传递 4.内存管理 5.预处理器 6.专家级技巧:使用ARC 7.运行时系统 8.运行时系统的结构 9.专家级技巧:使用运行时系统API 10.Foundation ...
Scrapy 中的模拟登陆
目前,大部分网站都具有用户登陆功能,其中某些网站只有在用户登陆后才能获得有价值的信息,在爬取这类网站时,Scrapy 爬虫程序先模拟登陆,再爬取内容 1.登陆实质其核心是想服务器发送含有登陆表单数据 ...
Centos7 VNC远程桌面服务安装配置
1.服务器版本 CentOS Linux release 7.7.1908 (Core) 首先系统安装了GUI界面 # ln -sf /lib/systemd/system/graphical.tar ...
jmeter实现文件下载
通过浏览器下载文件时,会提示选择保存路径,但是利用测试工具jmeter请求时,在页面看到请求次数是增加了,而本地没有具体下载下来的文件. 需要在具体的文件下载请求下面,添加后置处理器-bean she ...
URL构成及各个协议默认端口
url的构成:一般来说,http请求都会和URL地址有关,对于url来说一般由下面5个部分构成 .协议:通常就是第一个冒号之前的内容常见协议:http,https(http+ssl),ftp,ssh, ...
js 实现去重
ES6 set去重 Array.from(new Set([1,2,3,3,4,4])) // [1,2,3,4] [...new Set([1,2,3,3,4,4])] // [1,2,3,4] 使 ...
Java垃圾回收机制详解和调优
gc即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存.java语言并不要求jvm有gc,也没有规定gc如何工作.不过常用的jvm都有gc,而且大多数gc都使用类似的算法管理内存和执行收集 ...
Linux CentOS7 VMware find命令、文件名后缀
一.find命令 Linux系统中的 find 命令在查找文件时非常有用而且方便.它可以根据不同的条件来查找文件,例如权限.拥有者.修改日期/时间.文件大小等等.在这篇文章中,我们将学习如何使用 fi ...
redis学习笔记-02：为什么使用NoSQL数据库
一.第一代:单机版的MySQL 1.静态网页,动态交互类型的网站不多. 2.架构:APP---->DAL---->MySQL Instance 3.数据存储的瓶颈: (1)数据量总大小超过 ...

<强化学习>无模型下计算给定策略对应的价值函数，Model free Prediction，评估一个给定策略的表现