前面介绍了三种采样求均值的算法

——MC

——TD

——TD(lamda)

下面我们基于这几种方法来 迭代优化agent

传统的强化学习算法

已经知道完整MDP——使用价值函数V（s）

没有给出完整MDP——使用价值函数Q（s，a）

可见我们的目标就是确定下来最优策略和最优价值函数

　　|——有完整MDP && 用DP解决复杂度较低

　　| 　　　　　　　　　　　　　　　　　　　 ====》使用贝尔曼方程和贝尔曼最优方程求解

　　|——没有完整MDP(ENV未知) or 知道MDP但是硬解MDP问题复杂度太高

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|—— ON-POLICY MC

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　|—— ON-POLICY TD

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

1 价值函数是V(s)还是Q(s,a)？

agent对外界好坏的认识是对什么的认识呢？是每一个状态s的好坏还是特定状态下采取特定行为(s,a)的好坏？

这取决于是什么样的问题背景。

有完整的MDP，知道从这个状态下采取某行为会有多大概率后继状态为某状态，那么我们的agent需要知道的是状态的好坏。如sutton书中的jack‘s car rental问题，方格问题等等，这些都是事先就明确知道状态行为转移概率矩阵的。丝毫没有“人工智能”的感觉。

没有完整的MDP，知道从这个状态下采取某行为会有多大概率后继状态为某状态，那么我们的agent需要知道的是状态行为对(s,a)的好坏。比如，围棋！我们下子之后，对手会把棋落哪是完全没法预测的，所以后继state是绝对不可预测，所以agent是不能用V(s)作为评价好坏的价值函数，所以agent应该在乎的是这个(s,a)好这个(s,a)不好，所以使用Q(s,a)作为价值函数。

2. ON-POLICY 和OFF-POLICY

on policy :基于策略A采样获取episode，并且被迭代优化的策略也是A

off policy :基于策略A采样获取episode，而被迭代优化的策略是B

3.为什么ε-greedy探索在on policyRL算法中行之有效？

<强化学习>基于采样迭代优化agent的更多相关文章

强化学习之七：Visualizing an Agent’s Thoughts and Actions
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
强化学习论文（Scalable agent alignment via reward modeling: a research direction）
原文地址: https://arxiv.org/pdf/1811.07871.pdf ======================================================== ...
深度学习-强化学习(RL)概述笔记
强化学习(Reinforcement Learning)简介强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予 ...
<强化学习>开门帖
(本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程.https://www.youtube.com/w ...
David Silver强化学习Lecture1：强化学习简介
课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征作为 ...
【转载】准人工智能分享Deep Mind报告 ——AI“元强化学习”
原文地址: https://www.sohu.com/a/231895305_200424 ------------------------------------------------------ ...
DQN（Deep Q-learning）入门教程（一）之强化学习介绍
什么是强化学习? 强化学习(Reinforcement learning,简称RL)是和监督学习,非监督学习并列的第三种机器学习方法,如下图示: 首先让我们举一个小时候的例子: 你现在在家,有两个动作 ...
伯克利、OpenAI等提出基于模型的元策略优化强化学习
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言强化学习领域近期 ...
基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏
强化学习课程:Q-Learning强化学习(李宏毅).深度强化学习强化学习是一种允许你创造能从环境中交互学习的AI Agent的机器学习算法,其通过试错来学习.如上图所示,大脑代表AI Agent ...

随机推荐

updataxml报错注入
// take the variables//接受变量 // //也就是插入post提交的uname和passwd,参见:https://www.w3school.com.cn/sql/sql_ins ...
十三 Spring的通知类型，切入表达式写法
Spring中通知类型: 前置通知:目标方法执行之前进行操作,可以获得切入点信息后置通知: 目标方法执行之后进行操作,可以获得方法的返回值环绕通知:在目标方法执行之前和之后进行操作,可以终止目标方 ...
BZOJ 4167: 永远的竹笋采摘
首先同BZOJ5052 \(O(n \log n \log v)\) 求出所有点对现在变成选出 \(k\) 条不相交的线段使得权值最小可用前缀min优化dp \(O(nk)\) 解决还是太慢,考 ...
k短路算法
k短路算法求解k短路用到了A* 算法,A* ( A star )算法,又称启发式搜索算法,与之相对的,dfs与bfs都成为盲目型搜索:即为带有估价函数的优先队列BFS称为A*算法. 该算法的核心思想 ...
Python的常用库
读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都 ...
Qt编译Curl
1.下载Curl,下载地址:https://curl.haxx.se/download.html,windows下载.zip压缩包,解压到E盘. 2.在”开始菜单“—>”所有程序“->”Q ...
Linux/CentOS环境下如何安装和配置PhantomJS工作环境
PhantomJS 是一个基于WebKit的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, C ...
Kubernetes 的一些重要概念
Cluster Cluseter 是计算.存储和网络资源的集合,Kubernetes 利用这些资源运行各种基于容器的应用. Master Master 是 Cluster 的大脑, 它的主要责任是调度 ...
浅谈脱壳中的附加数据问题（overlay）
Author:Lenus -------------------------------------------------- 1.前言最近,在论坛上看到很多人在弄附加数据overlay的问题,加上 ...
Laradock 如何通过 ssh 方式连接到 workspace
用 docker-compose exec workspace bash 方式可以进入容器,但是还是在 xshell 终端连接比较方便. 在网上也没找到方法,其实可以通过密钥的方式连接.记录一下仅 ...

<强化学习>基于采样迭代优化agent

1 价值函数是V(s)还是Q(s,a)？

2. ON-POLICY 和OFF-POLICY

3.为什么ε-greedy探索在on policyRL算法中行之有效？

<强化学习>基于采样迭代优化agent的更多相关文章

随机推荐

热门专题