一、强化学习问题需要描述那些内容

强化学习中最主要的两类对象是“个体”和“环境”，其次还有一些像“即时奖励”、“收获”、“状态”、“行为”、“价值”、“策略”、“学习”、“控制”等概念。这些概念把个体和环境联系起来。通过理论学习，我们知道：

1. 环境响应个体的行为。当个体执行一个行为时，它需要根据环境本身的动力学来更新环境，也包括更新个体状态，同时给以个体一个反馈信息：即时奖励。

2. 对于个体来说，它并不掌握整个环境信息，它只能通过观测来获得其可以获得的信息，它能观测到哪些信息取决于问题的难度；同样个体需要一定的行为与环境进行交互，哪些行为是被允许的，也要由个体和环境协商好。因此环境要确定个体的观测空间和行为空间。

3. 个体还应该有一个决策功能，该功能根据当前观测来判断下一时刻该采取什么行为，也就是决策过程。

4. 个体具有执行一个确定行为的功能。

5. 智能的个体应能从与环境的交互中学习到知识，进而在与环境交互时尽可能多的获取奖励，最终达到最大化累积奖励的目的。

6. 环境应该给个体设置一个（些）终止条件，即当个体处在这个状态或这些状态之一时，约定交互结束，即产生一个完整的Episode。随后重新开始一个Episode或者退出交互。

把上面的过程提炼成伪代码可以是下面这样：

class Environment():
self.states # 所有可能的状态集合
self.agent_cur_state # 记录个体当前的状态
self.observation_space # 个体的观测空间
self.action_space # 个体的行为空间

def reward(self) -> reward # 根据状态确定个体的即时奖励
def dynamics(self, action) -> None # 根据当前状态和个体的行为确定个体的新状态
def is_episode_end(self) -> Bool # 判断是否一个Episode结束
def obs_for_agent() -> obs # 环境把个体当前状态做一定变换，作为个体的观测

class Agent(env: Environment):
self.env = env # 个体依附于一个环境存在
self.obs # 个体的观测
self.reward # 个体获得的即时奖励

def performPolicy(self, obs) -> action # 个体执行一个策略产生一个行为

def performAction(self, action) -> None # 个体与环境交互，执行行为
action = self.performPolicy(self.obs)
self.env.dynamics(action)

def observe(self) -> next_obs, reward # 个体得到从环境反馈来的观测和奖励
self.obs = self.env.obs_for_agent()
self.reward = self.env.reward()

按照上面的设计，可以写出一个不错的个体与环境的类。但是我们不打算按照这个写下去，我们看看gym库是如何描述环境，以及个体通过什么方式与环境进行交互。

二、gym库介绍

gym的官方网址在：这里，其库代码托管地址在：这里

gym库的在设计环境以及个体的交互时基本上也是解决上述问题，但是它有它的规范和接口。gym库的核心在文件core.py里，这里定义了两个最基本的类Env和Space。前者是所有环境类的基类，后者是所有空间类的基类。从Space基类衍生出几个常用的空间类，其中最主要的是Discrete类和Box类。通过其__init__方法的参数以及其它方法的实现可以看出前者对应于一维离散空间，后者对应于多维连续空间。它们既可以应用在行为空间中，也可以用来描述状态空间，具体怎么用看问题本身。例如如果我要描述上篇提到的一个4*4的格子世界，其一共有16个状态，每一个状态只需要用一个数字来描述，这样我可以把这个问题的状态空间用Discrete(16)对象来描述就可以了。对于另外一个经典的小车爬山的问题（如下图），小车的状态是用两个变量来描述的，一个是小车对应目标旗杆的水平距离，另一个是小车的速度（是沿坡度切线方向的速率还是速度在水平方向的分量这个没仔细研究），因此环境要描述小车的状态需要2个连续的变量。由于描述小车的状态数据对个体完全可见，因此小车的状态空间即是小车的观测空间，此时再用Discrete来描述就不行了，要用Box类，Box空间可以定义多维空间，每一个维度可以用一个最低值和最大值来约束。同时小车作为个体可以执行的行为只有3个：左侧加速、不加速、右侧加速。因此行为空间可以用Discrete来描述。最终，该环境类的观测空间和行为空间描述如下：

self.min_position = -1.2
self.max_position = 0.6
self.max_speed = 0.07
self.goal_position = 0.5
self.low = np.array([self.min_position, -self.max_speed])
self.high = np.array([self.max_position, self.max_speed])
self.action_space = spaces.Discrete()
self.observation_space = spaces.Box(self.low, self.high)

从这段代码可以看出，要定义一个Discrete类的空间只需要一个参数n就可以了，而定义一个多维的Box空间需要知道每一个维度的最小最大值，当然也要知道维数。

有了描述空间的对象，再来看环境类如何声明就简单的多了。先来看看代码中关于环境基类的一段解释：

class Env(object):
"""The main OpenAI Gym class. It encapsulates an environment with
arbitrary behind-the-scenes dynamics. An environment can be
partially or fully observed.
The main API methods that users of this class need to know are:
step
reset
render
close
seed
When implementing an environment, override the following methods
in your subclass:
_step
_reset
_render
_close
_seed
And set the following attributes:
action_space: The Space object corresponding to valid actions
observation_space: The Space object corresponding to valid observations
reward_range: A tuple corresponding to the min and max possible rewards
Note: a default reward range set to [-inf,+inf] already exists. Set it if you want a narrower range.
The methods are accessed publicly as "step", "reset", etc.. The
non-underscored versions are wrapper methods to which we may add
functionality over time.
"""

# Override in SOME subclasses
def _close(self):
pass

# Set these in ALL subclasses
action_space = None
observation_space = None

# Override in ALL subclasses
def _step(self, action): raise NotImplementedError
def _reset(self): raise NotImplementedError
def _render(self, mode='human', close=False): return
def _seed(self, seed=None): return []

看得出，个体主要通过环境的一下几个方法进行交互：step，reset，render，close，seed，而这几个都是公用方法，具体每一个方法实际调用的都是其内部方法：_step，_reset，_render，_close，_seed。此外这段描述还指出，如果你要编写自己的环境类，也主要是重写这些私有方法，同时指定该环境的观测和行为空间。_close方法可以不用重写。这几个方法主要完成的个性化功能如下：

_step: 最核心的方法，定义环境的动力学，确定个体的下一个状态、奖励信息、是否Episode终止，以及一些额外的信息，按约定，额外的信息不被允许用来训练个体。

_reset: 开启个体与环境交互前调用该方法，确定个体的初始状态以及其他可能的一些初始化设置。

_seed: 设置一些随机数的种子。

_render: 如果需要将个体与环境的交互以动画的形式展示出来的话，需要重写该方法。简单的UI设计可以用gym包装好了的pyglet方法来实现，这些方法在rendering.py文件里定义。具体使用这些方法进行UI绘制需要了解基本的OpenGL编程思想和接口，这里暂时不做细说。

可以看出，使用gym编写自己的Agent代码，需要在你的Agent类中声明一个env变量，指向对应的环境类，个体使用自己的代码产生一个行为，将该行为送入env的step方法中，同时得到观测状态、奖励值、Episode是否终止以及调试信息等四项信息组成的元组：

state, reward, is_done, info = env.step(a)

state 是一个元组或numpy数组，其提供的信息维度应与观测空间的维度一样、每一个维度的具体指在制定的low与high之间，保证state信息符合这些条件是env类的_step方法负责的事情。

reward 则是根据环境的动力学给出的即时奖励，它就是一个数值。

is_done 是一个布尔变量，True或False，你可以根据具体的值来安排个体的后续动作。

info 提供的数据因环境的不同差异很大，通常它的结构是一个字典：

{"key1":data1,"key2":data2,...}

获取其中的信息应该不难。

最后一点，在自己的代码中如何建立个环境类对象呢？有两种情况，一种是在gym库里注册了的对象，你只要使用下面的语句：

import gym env = gym.make("registered_env_name")

其中不同的环境类有不同的注册名，只要把make方法内的字符串改成对应的环境名就可以了。

另外一种使用自己编写的未注册的环境类，这种很简单，同一般的建立对象的语句没什么区别：

env = MyEnvClassName()

相信读者已经基本清楚了如何使用gym提供的环境类了。下一步就是如何编写自己的环境类了。

转自：https://zhuanlan.zhihu.com/p/28086233

OpenAI gym的建模思想的更多相关文章

常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) (转载)
原文地址:http://blog.csdn.net/jinzhuojun/article/details/77144590 和其它的机器学习方向一样,强化学习(Reinforcement Learni ...
Ubuntu下常用强化学习实验环境搭建(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)
http://lib.csdn.net/article/aimachinelearning/68113 原文地址:http://blog.csdn.net/jinzhuojun/article/det ...
【强化学习】百度云BCC openai gym 环境配置
openai gym是RL算法的测试床.为了直观和便于调试,我们需要可视化界面.然而远程服务器使用openGL的问题比较棘手,这篇博客记录在百度云BCC上配置openai gym环境的注意事项. 按照 ...
Inmon和Kimball数仓建模思想
Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为“数据仓库之父”.Inmon的<数据仓库>和Kimball的<数据仓库工具箱&g ...
OpenAI Gym
https://blog.openai.com/openai-gym-beta/ https://openai.com/
强化学习之MountainCarContinuous（注册自己的gym环境）
目录 1. 问题概述 2. 环境 2.1 Observation & state 2.2 Actions 2.3 Reward 2.4 初始状态 2.5 终止状态- Episode Termi ...
强化学习平台 openAI 的 gym 安装（Ubuntu环境下如何安装Python的gym模块）
openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...
深度｜OpenAI 首批研究成果聚焦无监督学习，生成模型如何高效的理解世界（附论文）
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载,原文. 选自 Open AI 作者:ANDREJ KARPATHY, PIETER ABBEEL, GREG BRO ...
（转）【重磅】无监督学习生成式对抗网络突破，OpenAI 5大项目落地
[重磅]无监督学习生成式对抗网络突破,OpenAI 5大项目落地 [新智元导读]"生成对抗网络是切片面包发明以来最令人激动的事情!"LeCun前不久在Quroa答问时毫不加掩饰对生 ...

随机推荐

基于Linux的智能家居的设计(5)
4 软件设计软件设计部分主要包含uboot移植.内核编译.系统移植.设备驱动编程.应用程序编程(QT编程.mysql数据库编程.控制系统编程).各个模块的功能函数(部分是在windows以下的IA ...
linux学习一个服务(未完)
学习一个服务的过程 1.了解服务的作用:名字功能,特点 2.安装 3.配置文件位置,端口 4.服务启动关闭的脚本 5.此服务的使用方法 6.修改配置文件,实战举例 7.排错(从下到上,从内到外)
java线程不安全类与写法
线程不安全类 1.为什么java里要同时提供stringbuilder和stringbuffer两种字符串拼接类 2.simpledateformate是线程不安全的类,如果把它作为全局变量会有线程安 ...
Tomcat闲聊第二话
windows下安装Tomcat可以直接下载Installer,需要注意的是,先确保安装了Java虚拟机. 注:默认安装路径为 C:\Program Files\Apache Software Fou ...
c++ why can't class template hide its implementation in cpp file?
类似的问题还有: why can't class template use Handle Class Pattern to hide its implementation? || why there ...
Anaconda+Tensorflow环境安装与配置（转载）
Anaconda+Tensorflow环境安装与配置转载请注明出处:http://www.cnblogs.com/willnote/p/6746499.html Anaconda安装在清华大学 T ...
stm32开发板无法正常写入的问题或者写入后无法正常运行的问题
在调试stm32的程序的时候遇到这样一个问题. 用Keil往stm32里写入程序时出现无法访问内存的错误.情况如下然后 J-link没有提示异常.偶尔可以下载成功,但是程序无法正确的执行. 经过一番 ...
sqrt函数实现（神奇的算法）
我们平时经常会有一些数据运算的操作,需要调用sqrt,exp,abs等函数,那么时候你有没有想过:这个些函数系统是如何实现的?就拿最常用的sqrt函数来说吧,系统怎么来实现这个经常调用的函数呢? 虽然 ...
Java基础02 方法与数据成员（转载）
对象中的数据成员表示对象的状态.对象可以执行方法,表示特定的动作. 此外,我们还了解了类(class).同一类的对象属于相同的类型(type).我们可以定义类,并使用该定义来产生对象. 调用同一对 ...
通过 after() 和 before() 方法添加若干新元素
after() 和 before() 方法能够通过参数接收无限数量的新元素.可以通过 text/HTML.jQuery 或者 JavaScript/DOM 来创建新元素. 在下面的例子中,我们创建若干 ...

OpenAI gym的建模思想

一、强化学习问题需要描述那些内容

二、gym库介绍

OpenAI gym的建模思想的更多相关文章

随机推荐

热门专题