强化学习baseline论文—— rainbow算法中给出实验结果的54个atari2600游戏名称列表
alien
amidar
assault
asterix
asteroids
atlantis bank_heist
battle_zone
beam_rider
berzerk
bowling
boxing
breakout centipede
chopper_command
crazy_climber defender
demon_attack
double_dunk enduro fishing_derby
freeway
frostbite gopher
gravitar hero ice_hockey kangaroo
krull
kung_fu_master montezuma_revenge
ms_pacman name_this_game phoenix
pitfall
pong
private_eye qbert road_runner
robotank seaquest
skiing
solaris
space_invaders
star_gunner
surround tennis
time_pilot
tutankham venture
video_pinball wizard_of_wor yars_revenge zaxxon
个人整理的 bin 文件地址:
https://gitee.com/devilmaycry812839668/atari_roms
原bin地址:
https://github.com/Kojoley/atari-py/tree/master/atari_py/atari_roms
测试本地环境下是否已经安装好这54个游戏的环境:
前提:
已经安装atari_py库,同时在atari_py库下的atari_roms文件夹下存放了所有的游戏bin文件。
测试代码:
import atari_py games="""
alien
amidar
assault
asterix
asteroids
atlantis bank_heist
battle_zone
beam_rider
berzerk
bowling
boxing
breakout centipede
chopper_command
crazy_climber defender
demon_attack
double_dunk enduro fishing_derby
freeway
frostbite gopher
gravitar hero ice_hockey kangaroo
krull
kung_fu_master montezuma_revenge
ms_pacman name_this_game phoenix
pitfall
pong
private_eye qbert road_runner
robotank seaquest
skiing
solaris
space_invaders
star_gunner
surround tennis
time_pilot
tutankham venture
video_pinball wizard_of_wor yars_revenge zaxxon
""" def fun(games):
ok = 0
no_ok = 0
for i in games.split():
if i in set(atari_py.list_games()):
ok += 1
else:
no_ok += 1
print(i, "not in environment !!!") print(ok, " games in local environment")
print(no_ok, " games not in local environment") fun(games)
结果:
=======================================================
atari_2600 游戏镜像权威下载地址:
http://www.atarimania.com/rom_collection_archive_atari_2600_roms.html
=======================================================
注意:( 更正 !!! )
这里的surround.bin 文件无法导入内存,该款游戏无法正常运行。另外pacman游戏也有这个问题。本文中的54个游戏其实只有53个是可以正常运行的。
强化学习baseline论文—— rainbow算法中给出实验结果的54个atari2600游戏名称列表的更多相关文章
- temporal credit assignment in reinforcement learning 【强化学习 经典论文】
Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd 论文: temporal credit assignment i ...
- 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!
1. 什么是强化学习 其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
- (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...
- ICML论文|阿尔法狗CTO讲座: AI如何用新型强化学习玩转围棋扑克游戏
今年8月,Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”.在此,我们为大家分享David Silver的论文<不完美信息游戏中的深度强化学习自我对战&g ...
- 【转载】 DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法
原文地址: baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc 机器之心 18-05-15 14:26 - ...
- 强化学习中的无模型 基于值函数的 Q-Learning 和 Sarsa 学习
强化学习基础: 注: 在强化学习中 奖励函数和状态转移函数都是未知的,之所以有已知模型的强化学习解法是指使用采样估计的方式估计出奖励函数和状态转移函数,然后将强化学习问题转换为可以使用动态规划求解的 ...
- 【强化学习】DQN 算法改进
DQN 算法改进 (一)Dueling DQN Dueling DQN 是一种基于 DQN 的改进算法.主要突破点:利用模型结构将值函数表示成更加细致的形式,这使得模型能够拥有更好的表现.下面给出公式 ...
- 深度强化学习中稀疏奖励问题Sparse Reward
Sparse Reward 推荐资料 <深度强化学习中稀疏奖励问题研究综述>1 李宏毅深度强化学习Sparse Reward4 强化学习算法在被引入深度神经网络后,对大量样本的需求更加 ...
- Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C(3)
在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们 ...
- 强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
随机推荐
- 双网卡、多网卡指定IP分别访问网卡(windows添加静态路由)
有两块网卡,网关分别是 128.0.100.198 和 192.168.10.2,128.0.100.198,网速10M.192.168.10.2,网速100M.平时上网用192.168.10.2,访 ...
- .NET5 IIS ASP.NET CORE 部署时 HTTP Error 502.5 - ANCM Out-Of-Process Startup Failure
.NET5 IIS ASP.NET CORE 部署时 HTTP Error 502.5 - ANCM Out-Of-Process Startup Failure 部署机器只安装了dotnet-hos ...
- 如何使用JavaScript实现在线Excel附件的上传与下载?
前言 在本地使用Excel时,经常会有需要在Excel中添加一些附件文件的需求,例如在Excel中附带一些Word,CAD图等等.同样的,类比到Web端,现在很多人用的在线Excel是否也可以像本地一 ...
- RIP总结
RIP 两种更新方式:定期更新和触发更新 管理距离为120,更新使用UDP520,更新周期30s,使用跳数作为度量值,最大15 RIP有三个版本RIPv1,RIPv2,RIPn ...
- CLR via C# 笔记 -- 托管堆和垃圾回收(21)
1. 访问一个资源所需的步骤 1). 调用IL指令newobj,为代表资源的类型分配内存(一般使用C# new 操作符来完成). 2). 初始化内存,设置资源的初始状态并使资源可用.类型的实例构造器负 ...
- CSDN 大规模抓取 GitHub 上的项目到 GitCode,伪造开发者主页引公愤
事件起因 CSDN旗下的GitCode最近因为一种极其不道德的行为引起了开发者的广泛愤怒和抗议.CSDN在没有通知或征求开发者同意的情况下,悄悄地将大量GitHub上的开源项目搬运到了其自己的GitC ...
- QT学习:00 介绍
--- title: framework-cpp-qt-00-介绍 date: 2020-04-08 15:41:54 categories: tags: - c/c++ - qt --- 章节描述: ...
- C语言gcc编译环境搭建
第一步,根据以下链接下载gcc工具包: gcc工具包下载地址: 链接:https://pan.baidu.com/s/1JqEjakTcWLPv7p6zkah6sA提取码:k4d2 第二步,将下载好的 ...
- ubuntu16.04 python2&3 pip升级后报错:sys.stderr.write(f"ERROR: {exc}")
ubuntu16.04 python2&3 pip升级后报错: sys.stderr.write(f"ERROR: {exc}") 描述 最近使用ubuntu16.04上的 ...
- FreeRDP使用,快速找出账户密码不正确的服务器地址
最近有个需求,需要找出服务器未统一设置账户密码的服务器,进行统一设置,一共有一百多台服务器,一个个远程登录看,那得都费劲啊,这时候就可以用到FreeRDP这个远程桌面协议工具,FreeRDP下载,根据 ...