gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了

# -*- coding: utf-8 -*-

import gym

import time

env = gym.make('CartPole-v0')

observation = env.reset()

print(observation)

print("env actionspace：")

print(env.action_space)

print("env observationspace：")

print(env.observation_space)

print(env.observation_space.high)

print(env.observation_space.low)

count = 0

for t in range(100):

    #随机选择一个动作

    action = env.action_space.sample()

    #执行动作 获取环境反馈

    observation, reward, done, info = env.step(action)

    #如果玩死了就退出

    if done:

        break

    env.render()

    count+=1

    time.sleep(0.2)

print(count)

效果图：

gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了的更多相关文章

【论文研读】强化学习入门之DQN
最近在学习斯坦福2017年秋季学期的<强化学习>课程,感兴趣的同学可以follow一下,Sergey大神的,有英文字幕,语速有点快,适合有一些基础的入门生. 今天主要总结上午看的有关DQN ...
强化学习入门基础-马尔可夫决策过程（MDP）
作者:YJLAugus 博客: https://www.cnblogs.com/yjlaugus 项目地址:https://github.com/YJLAugus/Reinforcement-Lear ...
Reinforcement Learning 强化学习入门
https://www.zhihu.com/question/277325426 https://github.com/jinglescode/reinforcement-learning-tic-t ...
selenium如何随机选取省份和城市的下拉框的值
1.原始需求,选择省份后,相应的城市会自动加载 2.思路 a.获取下拉框的所有元素个数 b.随机点击0-元素个数之间的某个值 3.代码实现 Random random = new Random(); ...
(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...
强化学习（二）马尔科夫决策过程(MDP)
在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素.但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策 ...
【转载】强化学习（二）马尔科夫决策过程(MDP)
原文地址: https://www.cnblogs.com/pinard/p/9426283.html ------------------------------------------------ ...
强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）
强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了, 最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习, ...
李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布
Datawhale开源核心贡献者:王琦.杨逸远.江季提起李宏毅老师,熟悉强化学习的读者朋友一定不会陌生.很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频. 现在,强化学习爱好者有更完 ...

随机推荐

python并发编程&IO模型
一 IO模型介绍为了更好地了解IO模型,可先回顾下:同步.异步.阻塞.非阻塞同步(synchronous) IO和异步(asynchronous) IO,阻塞(blocking) IO和非阻塞(n ...
关于Java中的toString()方法
package c07; class ewq{ public String toString() { return "ppppppppp"; } public static voi ...
microsoft cl.exe 编译器
cl.exe是visual stdio 内置的编译器,visual stdio包含各种功能,有些功能可能这辈子都用不到,体积庞大,如果是开发比较大或者有图形的项目,vs是首选.更多情况时更喜欢使用文 ...
剑指offer 面试40题
面试40题: 题目:最小的k个数题:输入n个整数,找出其中最小的K个数.例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,. 解题代码一: # -*- coding ...
HDF及HDF-EOS数据格式简介
HDF-EOS数据格式介绍 HDF(Hierarchy Data Format )数据格式是美国伊利诺伊大学国家超级计算应用中心(NCSA ,National Central for Super co ...
Loadrunner脚本篇——从文件中读取内容并参数化
直接代码展示: char* testfn() { int count, total = 0; char * buffer = NULL; int filelenth = 0; long file_st ...
$SublimeText2常用快捷键
1．删除一行:ctrl + shift + K2．替换:ctrl + H3．设置书签:Ctrl+F2设置书签F2 下一个书签Shift+F2上一个书签4．查找:ctrl + F 查找F3 查找下一个s ...
python的语法错误总结
1.keyerror一般是你使用字典里不存在的key产生的错误. 2.TypeError一般是使用的数据类型不符合要求 join函数要求a都是string
Kubernetes Controller Manager
Controller Manager 作为集群内部的管理控制中心,负责集群内的Node.Pod副本.Service Endpoint.NameSpace.ServiceAccount.Resource ...
eclipse和myeclipse的配置（基于工作空间）
eclipse和myeclipse的配置是基于工作空间的,一旦工作空间发生改变,就需要重新配置. 以eclipse为例,新建工作空间后,选择Window--->Preferences: 1.在W ...

gym强化学习入门demo——随机选取动作 其实有了这些动作和反馈值以后就可以用来训练DNN网络了

gym强化学习入门demo——随机选取动作 其实有了这些动作和反馈值以后就可以用来训练DNN网络了的更多相关文章

随机推荐

热门专题

gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了

gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了的更多相关文章