【强化学习】python 实现 saras lambda 例一
本文作者:hhh5460
本文地址:https://www.cnblogs.com/hhh5460/p/10147265.html
将例一用saras lambda算法重新撸了一遍,没有参照任何其他人的代码。仅仅根据伪代码,就撸出来了。感觉已真正理解了saras lambda算法。记录如下
0. saras lambda算法伪代码

图片来源:https://morvanzhou.github.io/static/results/reinforcement-learning/3-3-1.png(莫凡)
1. saras lambda算法真实代码
# e_table是q_table的拷贝
e_table = q_table.copy() # ... # saras(lambda)算法
# 参见:https://morvanzhou.github.io/static/results/reinforcement-learning/3-3-1.png
for i in range(13):
# 0. e_table清零
e_table *= 0
# 1.从状态0开始
current_state = 0
# 2.选择一个合法的动作
current_action = choose_action(current_state, epsilon)
# 3.进入循环,探索学习
while current_state != states[-1]:
# 4.取下一状态
next_state = get_next_state(current_state, current_action)
# 5.取下一奖励
next_reward = rewards[next_state]
# 6.取下一动作
next_action = choose_action(next_state, epsilon)
# 7.计算德塔
delta = next_reward + gamma * q_table.ix[next_state, next_action] - q_table.ix[current_state, current_action]
# 8.当前状态、动作对应的e_table的值加1
#e_table.ix[current_state, current_action] += 1 # 这是标准的操作,但是莫凡指出改成下面两句效果更好!
e_table.ix[current_state] *= 0
e_table.ix[current_state, current_action] = 1
# 9.遍历每一个状态的所有动作(不能仅合法动作)
for state in states:
for action in actions:
# 10.逐个更新q_talbe, e_table中对应的值
q_table.ix[state, action] += alpha * delta * e_table.ix[state, action]
e_table.ix[state, action] *= gamma * lambda_
# 11.进入下一状态、动作
current_state, current_action = next_state, next_action
第9步,刚开始我这么写:for action in get_valid_actions(state):,运行后发现没有这样写好:for action in actions:
2. 完整代码
'''
-o---T
# T 就是宝藏的位置, o 是探索者的位置
'''
# 作者: hhh5460
# 时间:20181220 '''saras(lambda)算法实现''' import pandas as pd
import random
import time epsilon = 0.9 # 贪婪度 greedy
alpha = 0.1 # 学习率
gamma = 0.8 # 奖励递减值
lambda_ = 0.9 # 衰减值 states = range(6) # 状态集。从0到5
actions = ['left', 'right'] # 动作集。也可添加动作'none',表示停留
rewards = [0,0,0,0,0,1] # 奖励集。只有最后的宝藏所在位置才有奖励1,其他皆为0 q_table = pd.DataFrame(data=[[0 for _ in actions] for _ in states],
index=states, columns=actions) e_table = q_table.copy() def update_env(state):
'''更新环境,并打印'''
env = list('-----T') # 环境 env[state] = 'o' # 更新环境
print('\r{}'.format(''.join(env)), end='')
time.sleep(0.1) def get_next_state(state, action):
'''对状态执行动作后,得到下一状态'''
global states
# l,r,n = -1,+1,0
if action == 'right' and state != states[-1]: # 除末状态(位置),向右+1
next_state = state + 1
elif action == 'left' and state != states[0]: # 除首状态(位置),向左-1
next_state = state -1
else:
next_state = state
return next_state def get_valid_actions(state):
'''取当前状态下的合法动作集合,与reward无关!'''
global actions # ['left', 'right']
valid_actions = set(actions)
if state == states[0]: # 首状态(位置),则 不能向左
valid_actions -= set(['left'])
if state == states[-1]: # 末状态(位置),则 不能向右
valid_actions -= set(['right'])
return list(valid_actions) def choose_action(state, epsilon_=0.9):
'''选择动作,根据状态'''
if random.uniform(0,1) > epsilon_: # 探索
action = random.choice(get_valid_actions(state))
else: # 利用(贪婪)
#current_action = q_table.ix[current_state].idxmax() # 这种写法是有问题的!
s = q_table.ix[state].filter(items=get_valid_actions(state))
action = random.choice(s[s==s.max()].index) # 可能多个最大值,当然,一个更好
return action # saras(lambda)算法
# 参见:https://morvanzhou.github.io/static/results/reinforcement-learning/3-3-1.png
for i in range(13):
e_table *= 0 # 清零 current_state = 0
current_action = choose_action(current_state, epsilon) update_env(current_state) # 环境相关
total_steps = 0 # 环境相关 while current_state != states[-1]:
next_state = get_next_state(current_state, current_action)
next_reward = rewards[next_state] next_action = choose_action(next_state, epsilon)
delta = next_reward + gamma * q_table.ix[next_state, next_action] - q_table.ix[current_state, current_action]
#e_table.ix[current_state, current_action] += 1 # 这是标准的操作,但是莫凡指出改成下面两句效果更好!
e_table.ix[current_state] *= 0
e_table.ix[current_state, current_action] = 1
for state in states:
for action in actions: #get_valid_actions(state):
q_table.ix[state, action] += alpha * delta * e_table.ix[state, action]
e_table.ix[state, action] *= gamma * lambda_
current_state, current_action = next_state, next_action update_env(current_state) # 环境相关
total_steps += 1 # 环境相关 print('\rEpisode {}: total_steps = {}'.format(i, total_steps), end='') # 环境相关
time.sleep(2) # 环境相关
print('\r ', end='') # 环境相关 print('\nq_table:')
print(q_table)
【强化学习】python 实现 saras lambda 例一的更多相关文章
- (待续)【转载】 DeepMind发Nature子刊:通过元强化学习重新理解多巴胺
原文地址: http://www.dataguru.cn/article-13548-1.html -------------------------------------------------- ...
- 【强化学习】用pandas 与 numpy 分别实现 q-learning, saras, saras(lambda)算法
本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢:本文的三幅图皆来自莫凡的教程 https://morvan ...
- 【强化学习】python 实现 q-learning 例一
本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134018.html 问题情境 -o---T# T 就是宝藏的位置, o 是探索者的位置 ...
- 强化学习-时序差分算法(TD)和SARAS法
1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法.蒙特卡罗法在估计价值时使用了完整序列的长期回报.而且蒙特卡洛法有较大的方差,模型不是很稳定.本节我们介绍时序差分法,时序差分法不 ...
- 以股票RSI指标为例,学习Python发送邮件功能(含RSI指标确定卖点策略)
本人之前写过若干“给程序员加财商”的系列文,目的是通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得. 在之前的系列文里,大家能看到K线,均线,成交 ...
- python面向对象学习(七)单例
目录 1. 单例设计模式 单例设计模式的应用场景 2. __new__ 方法 3. Python 中的单例 只执行一次初始化工作 1. 单例设计模式 设计模式 设计模式 是 前人工作的总结和提炼,通常 ...
- 强化学习 平台 openAI 的 gym 安装 (Ubuntu环境下如何安装Python的gym模块)
openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...
- 零基础入门学习Python(21)--函数:lambda表达式
知识点 lambda 表达式 Python 允许使用lambda关键字创建匿名函数 lambda 函数怎么使用? 单个参数 >>> def add(x): return 2*x + ...
- 【转】强化学习(一)Deep Q-Network
原文地址:https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端就是DeepMi ...
随机推荐
- git批量修改已经提交的commit的姓名和邮箱
首先,我们创建change.sh脚本,并根据个人信息复制以下脚本. #!/bin/sh git filter-branch --env-filter ' OLD_EMAIL="填写原来的邮箱 ...
- mysql数据库备份与导入
1.数据库的备份 注意:导出的数据里是没有 use mydb; 这句话 **************************************************************** ...
- scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...
- 洗礼灵魂,修炼python(25)--自定义函数(6)—从匿名函数进阶话题讲解中解析“函数式编程”
匿名函数进阶 前一章已经说了匿名函数,匿名函数还可以和其他内置函数结合使用 1.map map():映射器,映射 list(map(lambda x:x*2,range(10))) #把range产生 ...
- CentOS 7下systemd是如何stop mysql服务的
[背景] 有同事在研究mongo的服务启动方式,讨论到mysql5.7的服务管理时一起做了下面测试. MySQL5.7是用systemd来管理service的,它的配置文件/usr/lib/sys ...
- python 机器学习中模型评估和调参
在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题 先展示先通常的做法 import pandas as pd f ...
- MySQL之慢查询日志分析
在MySQL命令行中查看慢查询日志是否打开了: mysql> show variables like '%slow_query%'; +---------------------------+- ...
- win7系统开机后电脑桌面背景变黑的解决方法
自从微软放弃了对win7系统的维护更新,一些BUG也就慢慢出现了,最近用户反映,开机后电脑桌面背景变黑,即使重新换了桌面背景,还是会出现这种情况.下面小编就来告诉大家怎样解决这一问题. 1.点击开始菜 ...
- zookeeper-03 命令行操作
1. 前言 在3台机器分别部署了zookeeper-3.4.5,本文操作是在此基础上进行的.部署详情参见上一篇文章 2. 客户端登录与帮助查看 # 由于是集群模式,所以可以在3台机器的其中任意一台进行 ...
- [方法提炼] 获取Android设备序列号方法
通过这个方法可以检测设备是否连接成功,如果有一台或者多台设备,可以将所有设备序列号全部输出 # -*- coding:utf-8 -*- import os def attachDeviceList( ...