【RL系列】从蒙特卡罗方法步入真正的强化学习

蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似，两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见，Bandit问题比较简单，状态1->动作1->状态1，这个状态转移过程始终是自我更新的过程，而且是一一对应的关系。蒙特卡罗方法所解决的问题就要复杂一些，通常来说，其状态转移过程可能为，状态1->动作1->状态2->动作1->状态3。Sutten书中是这样描述两者的区别：

The main diﬀerence is that now there are multiple states, each acting like a diﬀerent bandit problem (like an associative-search or contextual bandit) and that the diﬀerent bandit problems are interrelated.

这里说的很好，应用蒙特卡罗方法的问题中的每一个状态下的其中一个动作之后的状态转移过程都像是许多个不同的Bandit问题。还有一个很明显的区别是，蒙特卡罗问题大都有一个或几个明确的目标状态，达到目标状态后，才能计算当前收益，中间过程通常来说并没有自己的状态或动作收益，但对于Bandit问题来说是没有这个中间过程的。

什么是中间过程？简单来说就是从起始状态到达目标状态中间所经历的状态动作集合。在蒙特卡罗方法中，中间过程不获得任何奖励，但是中间过程的状态动作价值可以由目标状态奖励进行估计。这个估计的原则也很简单，可以描述为：某状态动作价值可以估计为经过该状态到达目标所获得的奖励之和除以经过该状态的次数。对于某个中间过程的状态动作价值估计实际上就是许多个不同的Bandit问题中的一个。在上一篇文章中提到了在解决Soap Bubble问题中，蒙特卡罗方法的优势，即可以快速收敛某一个状态或某几个状态的价值估计。上一篇文章中的算法只关注起始状态的价值收敛而完全忽略中间过程，但当使用蒙特卡罗方法估计所有状态价值时，对中间过程不进行任何处理的方法就太低效了。所以下面我们尝试将中间状态价值估计应用到之前的算法中，看一看完整的蒙特卡罗方法进行价值估计的算法流程，还是以Soap Bubble为例（什么是Soap Bubble问题，可以参考上一篇博文【RL系列】蒙特卡罗方法——Soap Bubble）：

投影闭合曲线到x-y平面
开始迭代，随机选择起始点(x, y)
随机选择动作开始游走
判断是否碰到边界，如碰到边界，记录边界高度值$ H_b $，并记录中间经过的每一个状态，写成状态集合$S$。未碰到则继续游走。
设状态state属于状态集合$ S $，用公式更新状态state的价值总和$ V(\mathrm{state}) $与经过状态state的次数$ C(\mathrm{state}) $：$$ V(\mathrm{state}) = V(\mathrm{state}) + H_b \\ C(\mathrm{state}) = C(\mathrm{state}) + 1$$
回到第三步重新开始迭代。经过大量次数的实验后，停止循环过程。
任何一点（任何一个状态）的高度值的估计可以计算估计为((x, y) = state)：$$ H(state) = \frac{V(state)}{C(state)} $$

这个加入中间过程估计的逻辑还是很简单的，因为蒙特卡罗方法有一条非常重要的性质，“每一个状态的估计都是独立的，不依赖于其它状态的! ”，所以你可以把中间过程某个状态的估计看成是该状态作为起始状态的估计。迭代开始之初对起始状态的随机选择也十分重要，随机选择是为了保证每个装填都有作为起始状态的机会，也是为了增加每一个状态被访问的机会，这种策略叫做Exploring Starts，当其同时运用到动作选择时，才是完整的Monte Carlo ES算法（这个算法也是Monte Carlo经典问题BlackJack的求解基础！）。

直接给出该算法的计算结果：

经过10000次迭代，效果还是不错的，但相比于大约250次迭代就可以计算出更加精确值的Iteration Method来说还是效率较低的。Iteration Method的本质就是Dynamic Programming，在强化学习中相对应就是马尔可夫决策——一种建立在模型，状态与状态之间关系的算法。Monte Carlo最大的优势在于，不需要模型，只靠探索+总结就可以寻找到最优策略，这比马尔可夫决策更加的趋近于人类的决策行为，真正的人工智能之强化学习是从这里开始的。

【RL系列】从蒙特卡罗方法步入真正的强化学习的更多相关文章

【RL系列】蒙特卡罗方法——Soap Bubble
“肥皂泡”问题来源于Reinforcement Learning: An Introduction(2017). Exercise 5.2,大致的描述如下: 用一个铁丝首尾相连组成闭合曲线,浸入肥皂泡 ...
强化学习系列之:Deep Q Network (DQN)
文章目录 [隐藏] 1. 强化学习和深度学习结合 2. Deep Q Network (DQN) 算法 3. 后续发展 3.1 Double DQN 3.2 Prioritized Replay 3. ...
强化学习读书笔记 - 09 - on-policy预测的近似方法
强化学习读书笔记 - 09 - on-policy预测的近似方法参照 Reinforcement Learning: An Introduction, Richard S. Sutton and A ...
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richa ...
强化学习读书笔记 - 11 - off-policy的近似方法
强化学习读书笔记 - 11 - off-policy的近似方法学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and ...
强化学习读书笔记 - 10 - on-policy控制的近似方法
强化学习读书笔记 - 10 - on-policy控制的近似方法学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton an ...
【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
请先阅读上两篇文章: [RL系列]马尔可夫决策过程中状态价值函数的一般形式 [RL系列]马尔可夫决策过程与动态编程状态价值函数,顾名思义,就是用于状态价值评价(SVE)的.典型的问题有“格子世界(G ...
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
请先阅读上一篇文章:[RL系列]马尔可夫决策过程与动态编程在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法.虽然上一篇文章中的马尔可夫 ...
【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Int ...

随机推荐

Linux Shell常用技巧(十)
二十. 通过管道组合Shell命令获取系统运行数据: 1. 输出当前系统中占用内存最多的5条命令: #1) 通过ps命令列出当前主机正在运行的所有进程. #2) 按照第五个字段基于数值 ...
解决Js跨域访问的问题
1,最近有个需求,用Js获取Html标签<input type="file"/>的路径!遇到代码拒绝访问,提示安全验证,不允许跨域访问,简单的设置一下浏览器即可,不过对 ...
linux查看nginx、apache、php、php-fpm、mysql及配置项所在目录
可以先总结下:大都是先用 which 获取目录:然后再获取配置项位置: which mysql /usr/bin/mysql /usr/bin/mysql --help | grep -A1 'De ...
Android系统架构（一）
一.Android系统版本简介 Android操作系统已占据了手机操作系统的大半壁江山,截至本文写作时,Android操作系统系统版本及其详细信息,已发生了变化,具体信息见下表,当然也可以访问http ...
Oracle 11g DataGuard搭建（一） - 单节点到单节点
(一)DataGuard概要 DataGuard中文称为”数据卫士“,提供了数据库高可用性.数据保护和灾难恢复的功能.DataGuard通过建立primary数据库和standby数据库来确立参照关系 ...
oracle基础知识过一遍(原创)
用户.角色.权限.表空间 create tablespace test1_tablespace datafile ‘test1file.dbf’ size 10m; create temporary ...
MySQL的笔记
一. SELECT tmp2.name,tmp2.browseNum FROM (SELECT tmp.`name`, COUNT(tmp.id) AS browseNum FROM(SELECT ...
oracle定时器在项目中的应用
业务需求: 现在业务人员提出了一个需求: 在项目中的工作流,都要有一个流程编号,此编号有一定的规则: 前四五位是流程的字母缩写,中间是8位的日期,后面五位是流水码,要求流水码每天从00001开始.即: ...
vue中渲染页面，动态设置颜色
for循环中动态设置页面的图标或者字体颜色与循环中且套循环 :style="{'color':items.color}" 案例代码: html中 <div class=&qu ...
vue-网易云音乐
vuejs仿写网易云音乐webapp 1.项目API来源 2.项目地址 3.项目主要截图 4.功能音乐播放,搜索及主要页面的展示,用户登录部分及登录后才能获取的数据还未实现 5.技术 ...

【RL系列】从蒙特卡罗方法步入真正的强化学习

【RL系列】从蒙特卡罗方法步入真正的强化学习的更多相关文章

随机推荐

热门专题