EnforceLearning-主动强化学习

前言：

被动学习Agent由固定的策略决定其行为。主动学习Agent必须自己决定采取什么行动。

具体方法是：

Agent将要学习一个包含所有行动结果概率的完整模型，而不仅仅是固定策略的模型；

接下来，Agent自身要对行动做出选择（它需要学习的函数是由最优策略所决定的，这些效用遵循 Berman方程）；

最后的问题是每一步要做什么（在获得了对于学习到的模型而言最优的效用函数U之后，Agent能够通过使期望最大化的单步前瞻提取一个最优行动；或者它使用迭代策略，最优策略已经得到，所以它应该简单的执行最优策略所建议的行动）。

一、完整模型

Passive-ADP-Agent所使用的简单学习机制将做的很好。

二、探索

1、贪婪算法

一个ADP Agent在搜索路径时，每一步都遵循所学习的模型的最优策略的建议，被称为贪婪Agent。

一般问题：选择最优策略是如何导致非最优结果的？答案是：学习到的模型与真实环境中的模型并不相同；因而学习到的模型的最优可能不是真实环境中的最优。不幸的是，Agent并不知道真实环境是什么，所以它不能针对真实环境计算最优行动。

2、如何改进？

折中：贪婪Agent忽略的事实是行动不仅根据当前学习到的模型提供回报，他们也通过影响所接受的感知信息对真实模型的学习做出贡献。通过改进模型，Agent将在未来得到更高的回报。

方法：Agent必须在充分利用信息exploitation 以最大化回报——反映在其当前效用估计上，和探索exploration以及最大化长期利益之间进行折中。

单纯的充分利用信息要冒墨守成规的风险；那么单纯的探索对于提高一个人的知识是毫无用处的。

3、GLIE Greedy in the limit of infinite exploration

寻找最优搜索策略，在统计决策理论领域得到了深入的研究。对精确求解最优策略并没有一个固定的方法，但是可以提出一个合理的方案最终导致Agent的最优行动。技术上，任何这样的方案在无穷探索的极限下都必然是贪婪的。

一个GLIE方案必须在每个状态下的每个行动进行无限制次数的尝试，以避免一系列不常见的糟糕结果而错过最优行动的概率。一个ADP Agent使用这样的方案最终将学习到真实的环境模型。一个GLIE方案最终还必须变得贪婪，以使得Agent的行动对于学习到（此时等同于真实的）真实模型而言是最优的。

4、几种尝试

一种最简单的方式是：让Agent在1/t的时间片段内选择一个随机行动，而其他时刻走遵循贪婪策略。简单时序片段脱离法

另一种更为有效的方法是：给Agent很少尝试的行动进行加权，同时避免那些已经确信的具有最低效用的行动，实现方法为改变约束方程，以便给相对来说尚未探索的状态——行动分配更高的效用估计。本质上，会得到一个关于可能环境的乐观先验估计，并导致Agent 最初的行动过如同整个区域到处散布者几号的回报一样。

三、学习行动-效用函数

1、为一个主动ADP Agent构建一个主动时序差分学习，与被动情况最明显的变化是Agent不再有固定的策略，它学习效用函数U时，就需要学习一个模型以便能够通过单步前瞻基于U采取一个行动。

构建一个主动学习ADP Agent，随着训练序列的时间趋于无穷，TD算法与ADP算法收敛到相同的值。

2、Q-Learn作为一种时序TD方法，它学习一种行动-效用表示而不是学习效用。

后续：

参考： DeepMind用ReinforcementLearning玩游戏

EnforceLearning-主动强化学习的更多相关文章

强化学习论文（Scalable agent alignment via reward modeling: a research direction）
原文地址: https://arxiv.org/pdf/1811.07871.pdf ======================================================== ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
强化学习之免模型学习（model-free based learning）
强化学习之免模型学习(model-free based learning) ------ 蒙特卡罗强化学习与时序查分学习 ------ 部分节选自周志华老师的教材<机器学习> 由于现 ...
(译) 强化学习第一部分：Q-Learning 以及相关探索
(译) 强化学习第一部分:Q-Learning 以及相关探索 Q-Learning review: Q-Learning 的基础要点是:有一个关于环境状态S的表达式,这些状态中可能的动作 a,然后你 ...
强化学习读书笔记 - 02 - 多臂老O虎O机问题
# 强化学习读书笔记 - 02 - 多臂老O虎O机问题学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and An ...
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S ...
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...
强化学习之Q-learning ^_^
许久没有更新重新拾起,献于小白这次介绍的是强化学习 Q-learning,Q-learning也是离线学习的一种关于Q-learning的算法详情看传送门下文中我们会用openai gym来做 ...
强化学习 - Q-learning Sarsa 和 DQN 的理解
本文用于基本入门理解. 强化学习的基本理论 : R, S, A 这些就不说了. 先设想两个场景: 一. 1个 5x5 的格子图, 里面有一个目标点, 2个死亡点二. 一个迷宫, 一个出发点, ...
TensorLayer官方中文文档1.7.4：API – 强化学习
API - 强化学习¶ 强化学习(增强学习)相关函数. discount_episode_rewards([rewards, gamma, mode]) Take 1D float array of ...

随机推荐

【Codeforces 4D】Mysterious Present
[链接] 我是链接,点我呀:) [题意] 要求长度和宽度都严格递增(选择一个序列) 然后你一开始有一个长度和宽度要求这个一开始所给的长度和宽度能接在你选择的一段连续的长度宽度的开头 (且保持原来的性 ...
[BZOJ1031][JSOI2007]字符加密Cipher（后缀数组）
传送门算是个模板. 题目说循环,那就再复制一串拼接上. 然后求后缀数组,再搞就可以. 虽然是求后缀,会在后面多一些字符串,然而题目中说的是循环一圈,但是没有影响. ——代码 #include < ...
HDU - 3556 - Continued Fraction
先上题目: Continued Fraction Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/65536 K (Jav ...
网页title上面添加图片
1.效果:
cogs 29. 公路建设
29. 公路建设 ★ 输入文件:road.in 输出文件:road.out 简单对比时间限制:1 s 内存限制:128 MB [问题描述] A 国是一个新兴的国家,有 N 个城市,分别 ...
HDU 4526
DP. 设状态dp[i][j]表示j辆车后还剩余i个人的花费,枚举一个车的座位k,加上剩下人数i,注意i+k不能超过n,就很容易dp了. #include <iostream> #incl ...
[IOS/翻译]Core Services Layer
本文是本人自己辛苦翻译的,请转载的朋友注明,翻译于Z.MJun的CSDN的博客 http://blog.csdn.net/Zheng_Paul,感谢. 翻译于2015年10月4日 Core Servi ...
利用Node.js对某智能家居server重构
原文摘自我的前端博客,欢迎大家来訪问 http://www.hacke2.cn 之前负责过一个智能家居项目的开发,外包重庆一家公司的.我们主要开发server监控和集群版管理. 移动端和机顶盒的远程通 ...
用 JSQMessagesViewController 创建一个 iOS 聊天 App - 第 2 部分
原文链接 : Create an iOS Chat App using JSQMessagesViewController – Part 2 原文作者 : Mariusz Wisniewski 译者 ...
Android：制作Update.zip升级包【转】
本文转载自:http://zwkufo.blog.163.com/blog/static/2588251201382293049118/ 很多时候厂商或者三方提供的ROM并不能满足需求,比如系统自带软 ...

EnforceLearning-主动强化学习

EnforceLearning-主动强化学习的更多相关文章

随机推荐

热门专题