Gym

用于研发与比较强化学习算法的工具。

安装

pip install gym

环境

车杆问题，模型栗子CartPole-v0

env.step() ，传入0,1,表示车向左，右给1牛顿的力，现在要平衡这个车。

import gym

env = gym.make('CartPole-v0')

env.reset()

for _ in range(1000):

    env.render()

    env.step(env.action_space.sample()) # take a random action

我们可以尝试一下，01010101，现实生活中，会让这根杆转起来，当然这不是我们平衡这个车的目标咯。

import numpy as np

import random

import gym



env = gym.make('CartPole-v0')

env.reset()

s = 0

for _ in range(1000):

    env.render()

    env.step(s^1)

    s^=1

当然，我们可以切换场景，gym最重要的就是训练环境，有很多，有登山，走路的等等。

为达到我们平衡这个车杆的目标，我们可以设计我们自己的算法，当然我们需要知道当前车的状态，实际上step返回值有四个，包含了深度学习的常用概念。

observation ：环境对象，和你选的环境有关，例如你选的机器人训练环境，他就是机器人的关节等信息。
reward：通过前面的action，你得到的奖励。（大小不一定和模型选择相关）
done：游戏是否结束，（例如杆的角度倾斜太大了）
info：用于调试的信息，然而，官方环境不允许使用。

这就是Gym的经典的"agent-environment loop" （代理环境循环）。如图所示：

这个过程，首先reset()，返回一个环境对象。程序必须接受done方法，当满足done游戏结束标记，程序就退出。

【注】 render()重新绘制环境的一帧

import gym

env = gym.make('CartPole-v0')

for i_episode in range(20):

    observation = env.reset()

    for t in range(100):

        env.render()

        print(observation)

        action = env.action_space.sample()

        observation, reward, done, info = env.step(action)

        if done:

            print("Episode finished after {} timesteps".format(t+1))

            break

【注】这里我们打印了observation环境特性对象。

其含义，小车的位置，小车的速度，木棒的角度，木棒的速度。

Spaces(空间)

每一个环境都有 action_space，observation_space，他们的类型是Space,可以打印出来他们的属性。

import gym

env = gym.make('CartPole-v0')

print(env.action_space)

#> Discrete(2)

print(env.observation_space)

#> Box(4,)

Discrete空间允许随机确定的非负数，在这个案例中就是0,1。Box空间代表问题的n维空间。我们查看一下他的环境特性属性，4个数字。

print(env.observation_space.high)

#> array([ 2.4       ,         inf,  0.20943951,         inf])

print(env.observation_space.low)

#> array([-2.4       ,        -inf, -0.20943951,        -inf])

这有助于通用代码的编写。在车杆问题中，你可以给左右的力，你知道这些数据的含义了吗？幸运的是，你的算法学的越好，你就越少解释这些数据的含义。

Gym的更多相关文章

ACM: Gym 101047M Removing coins in Kem Kadrãn - 暴力
Gym 101047M Removing coins in Kem Kadrãn Time Limit:2000MS Memory Limit:65536KB 64bit IO Fo ...
ACM: Gym 101047K Training with Phuket's larvae - 思维题
Gym 101047K Training with Phuket's larvae Time Limit:2000MS Memory Limit:65536KB 64bit IO F ...
ACM: Gym 101047E Escape from Ayutthaya - BFS
Gym 101047E Escape from Ayutthaya Time Limit:2000MS Memory Limit:65536KB 64bit IO Format:%I6 ...
ACM: Gym 101047B Renzo and the palindromic decoration - 手速题
Gym 101047B Renzo and the palindromic decoration Time Limit:2000MS Memory Limit:65536KB 64 ...
Gym 101102J---Divisible Numbers(反推技巧题)
题目链接 http://codeforces.com/gym/101102/problem/J Description standard input/output You are given an a ...
Gym 100917J---Judgement(01背包+bitset)
题目链接 http://codeforces.com/gym/100917/problem/J Description standard input/outputStatements The jury ...
Gym 100917J---dir -C（RMQ--ST）
题目链接 http://codeforces.com/gym/100917/problem/D problem description Famous Berland coder and IT mana ...
Gym 101102D---Rectangles(单调栈)
题目链接 http://codeforces.com/gym/101102/problem/D problem description Given an R×C grid with each cel ...
Gym 101102C---Bored Judge（区间最大值）
题目链接 http://codeforces.com/gym/101102/problem/C problem description Judge Bahosain was bored at ACM ...
2016"百度之星" - 初赛（Astar Round2A）Gym Class(拓扑排序)
Gym Class Accepts: 849 Submissions: 4247 Time Limit: 6000/1000 MS (Java/Others) Memory Limit: 65 ...

随机推荐

多个模块使用python logging
链接:https://docs.python.org/2/howto/logging-cookbook.html#logging-cookbook 具体的使用方法,请参考如下代码: import lo ...
PIXI 根据点走地图（8）
先了解下数学公式例如: 图已知:a.b两点的坐标, c到a的距离d .求c点的坐标. 求 cy 可以根据d / a到b距离 = a到c垂直距离 / a 到 b的垂直距离. 首先求a到b的距离 ...
TabLayout实现顶部导航栏（1）
TabLayout是android.support.design里的一个控件,使用它可以很方便的做出顶部导航和底部导航.类似于这样的,能设置选中时字体的颜色和选中时的图片. 首先我们在 build.g ...
深入学习keepalived之预备工作--线程
1. 线程的定义 1.1 线程定义在scheduler.h文件中,其定义如下所示 /* Thread itself. */ typedef struct _thread { unsigned long ...
SpringBoot | 第二十八章：监控管理之Spring Boot Admin使用
前言上一章节,我们介绍了Actuator的使用,知道了可通过访问不同的端点路径,获取相应的监控信息.但使用后也能发现,返回的监控数据都是以JSON串的形式进行返回的,对于实施或者其他人员来说,不是很 ...
C# url获取图片流转字符串
//http url获取图片流转字符串 //string url = serverUrl.TrimEnd('/') + PUrl; //WebRequest request = WebRequest. ...
【读书笔记】C#高级编程（一）.NET体系结构
写在前面:从业两年来,一直停留在会用的阶段,而没有去仔细思考过为什么这么用,之前也大致扫过<c#高级编程>一书,这次想借一袭脑海中的冲动,再次好好仔细过过这本书,夯实基础,温故知新. 一. ...
VS2015自定义类模板的方法
在前一段时间忽然想给自己电脑上的vs新建类的时候添加一个自定义个注释,但是在网上搜了很久都是说vs2012之类的方法系统也都是win7.XP之类的独独没有win8的.故此自己不断的尝试修改发现方法如下 ...
setTimeout的实现原理以及setTimeout(0)的使用场景
先看一段代码: var start = new Date(); setTimeout(function(){ var end = new Date(); console.log("Tim ...
angular监听移动端键盘的弹起和收回
页面的提交按钮采用的是固定定位在页面的底部,键盘弹出后,提交按钮紧挨着键盘的上方,输入框获得焦点后,键盘弹出,并且输入框回自动定位上方的空白处,此时由于键盘上方固定定位的提交按钮的原因有可能会遮挡住获 ...

Gym

Gym

安装

环境

Gym的更多相关文章

随机推荐

热门专题