新手的第一个强化学习示例一般都从Open Gym开始。在这些示例中,我们不断地向环境施加动作,并得到观测和奖励,这也是Gym Env的基本用法:

state, reward, done, info = env.step(action)

其中state是agent的观测状态,reward是采取了action之后环境返回的奖励,done是判断后继状态是否是终止状态的flag,info是一些自定义的消息。

当后继状态是终止状态时,需要重置环境,使之回到初始状态:

env.reset()

接下来,我们就以以上两个基本用法为目标,自定义一个Gym下的简单环境:

S0 S1 S2
-1 -1 10

初始状态S0,终止状态S2,抵达状态S0 S1 S2的奖励分别为-1,-1和10,agent有向左和向右两个动作。

步骤1:创建文件夹和文件

本人为了做深度学习,使用conda的环境管理功能创建了名为 pytorch1.1的环境,于是来到目录:D:\Anaconda\envs\pytorch1.1\Lib\site-packages\gym\envs

创建文件夹 user ,用于专门存放自定义的环境,然后进入该目录:D:\Anaconda\envs\pytorch1.1\Lib\site-packages\gym\envs\user,创建文件 __init__.py 和 basic_env.py

步骤2:编写 basic_env.py 和 __init__.py

basic_env是我们要写的简单环境示例的文件名,内容如下:

import gym
class BasicEnv(gym.Env):
def __init__(self):
self.action_space = ['left', 'right'] # 动作空间
self.state_space = ['s0', 's1', 's2'] # 状态空间
self.state_transition = { # 状态转移表
's0': {'left':'s0', 'right':'s1'},
's1': {'left':'s0', 'right':'s2'}
}
self.reward = {'s0':-1, 's1':-1, 's2':10} # 奖励
self.state = 's0' def step(self, action):
next_state = self.state_transition[self.state][action] # 通过两个关键字查找状态转移表中的后继状态
self.state = next_state
reward = self.reward[next_state]
if next_state == 's2':
done = True
else:
done = False
info = {}
return next_state, reward, done, info def reset(self):
self.state = 's0'
return self.state def render(self, mode='human'):
draw = ['-' for i in range(len(self.state_space))]
draw[self.state_space.index(self.state)] = 'o'
draw = ''.join(draw)
print(draw)

__init__.py是引入环境类的入口函数,写入:

from gym.envs.user.basic_env import BasicEnv

步骤3:注册环境

来到目录:D:\Anaconda\envs\pytorch1.1\Lib\site-packages\gym,所有的环境都在__init__.py文件中注册,打开这个文件,发现很多类似这样的代码:

# Toy Text
# ---------------------------------------- register(
id="Blackjack-v1",
entry_point="gym.envs.toy_text:BlackjackEnv",
kwargs={"sab": True, "natural": False},
) register(
id="FrozenLake-v1",
entry_point="gym.envs.toy_text:FrozenLakeEnv",
kwargs={"map_name": "4x4"},
max_episode_steps=100,
reward_threshold=0.70, # optimum = 0.74
) register(
id="FrozenLake8x8-v1",
entry_point="gym.envs.toy_text:FrozenLakeEnv",
kwargs={"map_name": "8x8"},
max_episode_steps=200,
reward_threshold=0.85, # optimum = 0.91
)

模仿这个格式,我们添加自己的代码,注册自己的环境:

# User
# ----------------------------------------
register(
id="BasicEnv-v0", # 环境名
entry_point="gym.envs.user:BasicEnv", #接口
reward_threshold=10, # 奖励阈值
max_episode_steps = 10, # 最大步长
)

注册了的环境,可以通过向gym的通用接口写入环境名创建。除了环境名和接口两个基本信息外,奖励阈值和最大步长则是与训练相关的参数,还可以自行添加其他参数。

步骤4:测试环境

在测试代码中,我们设置了一个主循环,让agent随机选择向左或向右,直到抵达终止状态,或达到了在注册环境中设置的最大步长max_episode_steps(实现方式是使得done = True),代码如下:

import gym
import random
import time from gym import envs
print(envs.registry.all()) # 查看所有已注册的环境 env = gym.make('BasicEnv-v0')
env.reset() # 在第一次step前要先重置环境 不然会报错
action_space = env.action_space
while True:
action = random.choice(action_space) # 随机动作
state, reward, done, info = env.step(action)
print('reward: %d' % reward)
env.render()
time.sleep(0.5)
if done: break

强化学习实战 | 自定义Gym环境的更多相关文章

  1. 强化学习实战 | 自定义Gym环境之井字棋

    在文章 强化学习实战 | 自定义Gym环境 中 ,我们了解了一个简单的环境应该如何定义,并使用 print 简单地呈现了环境.在本文中,我们将学习自定义一个稍微复杂一点的环境--井字棋.回想一下井字棋 ...

  2. 强化学习实战 | 自定义Gym环境之扫雷

    开始之前 先考虑几个问题: Q1:如何展开无雷区? Q2:如何计算格子的提示数? Q3:如何表示扫雷游戏的状态? A1:可以使用递归函数,或是堆栈. A2:一般的做法是,需要打开某格子时,再去统计周围 ...

  3. 强化学习实战 | 自定义gym环境之显示字符串

    如果想用强化学习去实现扫雷.2048这种带有数字提示信息的游戏,自然是希望自定义 gym 环境时能把字符显示出来.上网查了很久,没有找到gym自带的图形工具Viewer可以显示字符串的信息,反而是通过 ...

  4. 强化学习实战 | 表格型Q-Learning玩井字棋(一)

    在 强化学习实战 | 自定义Gym环境之井子棋 中,我们构建了一个井字棋环境,并进行了测试.接下来我们可以使用各种强化学习方法训练agent出棋,其中比较简单的是Q学习,Q即Q(S, a),是状态动作 ...

  5. 强化学习实战 | 表格型Q-Learning玩井字棋(二)

    在 强化学习实战 | 表格型Q-Learning玩井字棋(一)中,我们构建了以Game() 和 Agent() 类为基础的框架,本篇我们要让agent不断对弈,维护Q表格,提升棋力.那么我们先来盘算一 ...

  6. 强化学习实战 | 表格型Q-Learning玩井子棋(三)优化,优化

    在 强化学习实战 | 表格型Q-Learning玩井字棋(二)开始训练!中,我们让agent"简陋地"训练了起来,经过了耗费时间的10万局游戏过后,却效果平平,尤其是初始状态的数值 ...

  7. 强化学习实战 | 表格型Q-Learning玩井字棋(四)游戏时间

    在 强化学习实战 | 表格型Q-Learning玩井字棋(三)优化,优化 中,我们经过优化和训练,得到了一个还不错的Q表格,这一节我们将用pygame实现一个有人机对战,机机对战和作弊功能的井字棋游戏 ...

  8. 强化学习-linux安装gym、atari和box2d环境

    安装gym和atari环境 pip3 install gym pip3 install gym[atari] pip3 install gym[accept-rom-license] 安装box2d环 ...

  9. 强化学习-Windows安装gym、atari和box2d环境

    安装gym pip3 install gym pip3 install gym[accept-rom-license] 安装atari环境[可选] 下载安装VS build tools 如果出现 OS ...

随机推荐

  1. Noip模拟22 2021.7.21

    T1 d 简化题意就是找到相对平均长宽的偏移量较大的矩形给他删掉 可以说是个贪心,按照a,b分别为第一关键字排序 然后假装删去要求的那么多个按a排序的较小的,然后再去b中, 找到 删去的a中的那几个矩 ...

  2. 热身训练2 Another Meaning

    题目来源 简要题意: 众所周知,在许多情况下,一个词语有两种意思.比如"hehe",不仅意味着"hehe",还意味着"excuse me". ...

  3. [火星补锅] 水题大战Vol.2 T2 && luogu P3623 [APIO2008]免费道路 题解

    前言: 如果我自己写的话,或许能想出来正解,但是多半会因为整不出正确性而弃掉. 解析: 这题算是对Kruskal的熟练运用吧. 要求一颗生成树.也就是说,最后的边数是确定的. 首先我们容易想到一个策略 ...

  4. [CSP-S 2021] 回文

    题目描述: 给定正整数 n 和整数序列 a1, a2,-,a2n,在这 2n 个数中,1, 2,-,n 分别各出现恰好 2 次.现在进行 2n 次操作,目标是创建一个长度同样为 2n 的序列 b 1, ...

  5. Android Studio 查看SQLite数据库存储位置及文件

    前言: 之前开发的一个记账本APP,用的是SQLite数据库,会有一些网友问如何查看数据库,这篇博文对此进行一个说明. 操作: 1.通过DDMS(Dalvik Debug Monitor Servic ...

  6. oracle 架构和一些工具了解

    oracle的架构大概分为3部分, 客户端:用户端 oracle instance:叫做实例,由内存结构(内存池或者叫SGA)和后台进程组成.Oracle Instance是Oracle RDBMS的 ...

  7. 基于 OSPF 路由的邻居邻接关系发现实践

    1.实验目的 理解 OSPF 邻居关系和 OSPF 邻接关系的含义及差别 观察 OSPF 邻居邻接关系的建立过程 观察 OSPF 链路状态数据库的同步过程 2.实验原理 OSPF 网络中,路由器在发送 ...

  8. Linux&C open creat read write lseek 函数用法总结

    一:五个函数的参数以及返回值. 函数                                 参数                      返回值     open (文件名,打开方式以及读 ...

  9. loadRunner12 设置关联 获取服务端动态数据

    关联:服务器返回给客户端一些动态变化的值,客户端用这些值去访问服务器,不能把这些值写死在脚本里面,而应该存放在一个变量里面. 在脚本回放过程中,客户端发出请求,通过关联函数所定义的左右边界值(也就是关 ...

  10. [jmeter]Jmeter+ant实现接口自动化

    1.安装jmeter 和ant &环境变量配置百度去~ 2.jmeter和ant关联 &将JMeter所在目录下extras子目录里的ant-JMeter-1.1.1.jar复制到an ...