简介:

PGMRL: PGMRL就是把RL问题建模成一个概率图模型,如下图所示:

然后通过variational inference的方法进行学习:

PGMRL给RL问题的表示给了一个范例,对解决很多RL新问题提供了一种思路和工具。

Bayesian RL: 主要是对RL的reward function, transation function引入uncertainty, 引入prior和更新posterior来建模,从而更好地进行探索。

思考:为什么PGMRL推导过程中没有Beyesian RL的exploration-exploitation trade-off的问题。

简单的PGMRL建模的reward和transation是确定的,没有超参数的。在某种程度下,比如问题是凸的情况下,是不需要进行exploration的。而Beyesian RL的问题设定是假设这些东西是一种概率分布,而不是确定性的。而BeyesionRL对这种不确定性的处理恰巧克服了RL问题不是凸的情况local optimal的减弱。

thinking: what things does the Beyesian RL not consider?

Beyesian RL关注的点主要还是在uncertainty上,对policy学习过程的建模能力较弱,更适合用来处理RL中的uncertainty的问题,比如对sparse reward的问题处理能力较弱。

relationship between PGMRL and Bayesian RL:

我觉得Bayesian RL应该归为PGMRL中的一部分,PGMRL更具有整体性,对问题描述更全面,而Bayesian RL更像是处理某一特殊问题的方式。Bayesian RL需要在通过数据更新后验,然后也是model学习和policy学习相互交替的过程,但是由于没有很好的描述,我们不清楚这里面那些东西是missing variables,而且表面上看上去似乎reward和transation是missing的,但在PGMRL框架下,我们可以很清晰的看到其实optimal policy才是missing variable(PGMRL中把optimal policy转换成了variable)。这种迭代学习的过程,和EM算法的迭代类似,就是一边做inference一边做learning。这里inference就是对opitmal policy的学习过程,learning就是对MDP参数学习的过程。而在对optimal policy学习的时候,是这一种变分推断的过程,而这个变分推断过程又结合了MCMC采样的东西,MCMC采样有个冷启动的过程,所以前期不能只根据policy的最优结果来进行采样,需要加一些扰动。各种inference技术的结合加上简化形成了目前的基于deep learning的RL policy学习方法。

对于无先验的东西,我觉得还是用maximum entropy和variational infercence的方式去处理,简单的Bayesian RL中如果使用简单的共轭先验,对问题的处理局限性也较大,不具有普适性。所以,对于无先验的东西,直接采用maximum entropy更具有普适性。

Bayesian RL and PGMRL的更多相关文章

  1. 从Bayesian角度浅析Batch Normalization

    前置阅读:http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现 前置阅读:http://www.zhih ...

  2. Learning Bayesian Network Classifiers by Maximizing Conditional Likelihood

    Abstract Bayesian networks are a powerful probabilistic representation, and their use for classifica ...

  3. Stanford机器学习笔记-3.Bayesian statistics and Regularization

    3. Bayesian statistics and Regularization Content 3. Bayesian statistics and Regularization. 3.1 Und ...

  4. 中间值为什么为l+(r-l)/2,而不是(l+r)/2

    二分法的算法中,我们看到一些代码里取中间值: MID=l+(r-l)/2; 为什么是这个呢?不就是(l+r)/2吗?为什么要多此一举呢? 其实还是有不一样的,看看他们的区别吧: l,r是指针的时候只能 ...

  5. 【原】对频率论(Frequentist)方法和贝叶斯方法(Bayesian Methods)的一个总结

    注: 本文是对<IPython Interactive Computing and Visualization Cookbook>一书中第七章[Introduction to statis ...

  6. 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

    算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比 ...

  7. Why are very few schools involved in deep learning research? Why are they still hooked on to Bayesian methods?

    Why are very few schools involved in deep learning research? Why are they still hooked on to Bayesia ...

  8. 听同事讲 Bayesian statistics: Part 2 - Bayesian inference

    听同事讲 Bayesian statistics: Part 2 - Bayesian inference 摘要:每天坐地铁上班是一件很辛苦的事,需要早起不说,如果早上开会又赶上地铁晚点,更是让人火烧 ...

  9. 一起啃PRML - 1.2.3 Bayesian probabilities 贝叶斯概率

    一起啃PRML - 1.2.3 Bayesian probabilities 贝叶斯概率 @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 这一节简单讲 ...

随机推荐

  1. Android文件数据存储

    利用Shared Preference或者数据库来存储应用程序数据是一种好的做法,但有时可能仍然希望直接使用文件,而不是依赖于Android的管理机制:尤其是使用多媒体文件的时候. Android提供 ...

  2. SSH(Spring SpringMVC Hibernate)框架整合

    项目说明: 使用SSH(Spring SpringMVC Hibernate)框架整合添加部门功能 项目结构   1.导入依赖jar包 <!--单测--> <dependency&g ...

  3. MySql中的事务、JDBC事务、事务隔离级别

    一.MySql事务 之前在Oracle中已经学习过事务了,这个东西就是这个东西,但是在MySql中用法还是有一点不同,正好再次回顾一下. 先看看MySql中的事务,默认情况下,每执行一条SQL语句,都 ...

  4. BZOJ5100 : [POI2018]Plan metra

    若$1$到$n$之间没有其它点,则$1$到$n$的距离为任意一点到它们距离的差值,按照距离关系判断每个点是挂在$1$上还是挂在$n$上即可. 否则$1$到$n$的距离只可能为任意一点到它们距离和的最小 ...

  5. Cow Exhibition [POJ2184] [DP] [背包的负数处理]

    题意: 有很多羊,每只羊有一个幽默度和智商,要选出一些羊,智商加幽默度总和最大,其中智商总和和幽默度总和都不能是负数. 样例输入: 5 -5 7 8 -6 6 -3 2 1 -8 -5 样例输出: 8 ...

  6. 选择客栈 [NOIP 2011]

    这种题我还要发博客我真是太弱蒻了 Description 丽江河边有n 家很有特色的客栈,客栈按照其位置顺序从1 到n 编号.每家客栈都按照某一种色调进行装饰(总共k 种,用整数0 ~ k-1 表示) ...

  7. Python二进制转十进制算法、十进转二进制算法

    二进制数转换成十进制数:二进制数从右向左每位数乘以2的次方(从0开始,从右向左依次+1),然后相加求和即可 如:0101转成十进制为:1*20+0*21+1*22+0*23 =1+0+4+0=5 算法 ...

  8. JSP(8)—EL案例和JSTL案例

    1.EL案例 el.jsp <%@ page language="java" contentType="text/html; charset=UTF-8" ...

  9. H5传奇世界服务器架设技术及源码

    以前是传奇迷,虽然现在不玩,但当作兴趣,研究了一下H5传奇世界的架设,架设成功并分享给大家.注意,此技术只可用于个人娱乐,不可用于商业用途. 首先下载 传奇世界H5源码   450M的样子. H5传奇 ...

  10. .net core使用配置文件

    .net core使用配置文件 在 .net core中,配置文件的读取是通过IConfiguration来提供的,程序集是Microsoft.Extensions.Configuration,对应的 ...