简要

q-learning的伪代码先看这部分，很重要

简单的算法语言描述就是

开始执行任务:

　　随机选择一个初始动作

　　执行这些动作

　　若未达到目标状态，则执行一下几步

　　　　在当前状态s所有可能的行为中选择一个a

　　　　利用a得到下一个状态s_

　　　　计算Q(s,a) (对当前的行为进行学习)

　　　　下一个状态等于当前状态

　　　　开始下一个循环

有重要的几个参数，GAMMA(gamma 是对未来 reward（分数）的衰减值)，ALPHA(学习率)，EPSILON(策略)

GAMMA是什么意思呢，就是对获取过的奖励为了防止再次获取后得到的分数一样，于是对reward进行一个衰减，这样就会有长远的眼光，机器人就不只专注于眼前的奖励了

EPSILON 是一种策略，0.8代表的意思就是我们有80%的概率来选择之前的经验剩下的20%的概率来进行新的探索

游戏开始

首先我们初始化环境

import numpy as np

import gym

GAME = 'FrozenLake-v0'

env = gym.make(GAME)

MAX_STEPS=env.spec.timestep_limit

EPSILON=0.8

GAMMA=0.8

ALPHA=0.01

q_table=np.zeros([16,4],dtype=np.float32)

q_table就是Q-Learning的Q表了，里面有所有我们进行学习的经验，程序的动作选择都是从Q表中选择

def action_choise(obervation):

    if np.random.uniform()<EPSILON:

        action=np.argmax(q_table[obervation])

    else:

        action=env.action_space.sample()

    return action

上面代码为策略选择，80%的概率总Q表中选择最优策略，20%的概率进行随机操作

def learn(state,action,reward,obervation):

    q_table[state][action]+=ALPHA*(reward+GAMMA*max(q_table[obervation])-q_table[state,action])

此部分为学习部分，重要部分用红线标示出来了

Q表的更新方式为学习率 * (真实值 - 预测值) 将判断误差传递回去以此来进行学习

对应算法部位为

GAME OVER

以上就是Q-learning的简单介绍

下面是全部的代码

 import numpy as np

 import gym

 GAME = 'FrozenLake-v0'

 env = gym.make(GAME)

 MAX_STEPS=env.spec.timestep_limit

 EPSILON=0.8

 GAMMA=0.8

 ALPHA=0.01

 q_table=np.zeros([16,4],dtype=np.float32)

 def action_choise(obervation):

     if np.random.uniform()<EPSILON:

         action=np.argmax(q_table[obervation])

     else:

         action=env.action_space.sample()

     return action

 def learn(state,action,reward,obervation):

     q_table[state][action]+=ALPHA*(reward+GAMMA*max(q_table[obervation])-q_table[state,action])

 SCORE=0

 for exp in xrange(10000):

     obervation=env.reset()

     EPSILON+=0.001

     for i in xrange(MAX_STEPS):

         # env.render()

         action=action_choise(obervation)　　　　　　　　　　#动作选择

         obervation_,reward,done,info=env.step(action)    #学习

         SCORE+=reward

         if reward==0:

             if done:

                 reward=-1

             else:

                 reward=-0.001

         learn(obervation,action,reward,obervation_)

         obervation=obervation_

         if done:

             break

     print 'esp,score (%d,%d)'%(exp,SCORE)

 print 'score is %d'%SCORE

大家把Q表的信息打印出来，断点执行一下，相信会对Q-learning有更深入的了解

欢迎大家一起学习共同提高,

独乐乐不如众乐乐 ^_^

随机推荐

YII进行数据增删改查分析
关于模型部分參考http://blog.csdn.net/buyingfei8888/article/details/40208729 控制器部分: <?php class GoodsContr ...
C++简易list
list不同于vector.每一个节点的结构须要自行定义,迭代器属于双向迭代器(不是随即迭代器),也须要自行定义.和通用迭代器一样,list的迭代器须要实现的操作有:++.--.*.->.==. ...
数据结构--二叉查找树的java实现
上代码: package com.itany.erchachazhaoshu; public class BinarySearchTree<T extends Comparable<? s ...
js复制链接
需求:js复制一个并非当前页面的链接实现: html <button class="btn btn-primary btn_copyurl">复制课程链接</b ...
MQTT Client library for C （MQTT客户端C语言库-paho）
原文:http://www.eclipse.org/paho/files/mqttdoc/MQTTClient/html/index.html 来自我的CSDN博客最近在使用Paho的MQTT客 ...
java与数据库
工具:mysql: java eclipse,phpstudy. 以MySQL为例 java连接MySQL可能你在度娘的帮助下,又设置环境变量又改这改那的,结果还是没有连接成功. 今天我来分享一下不需 ...
CRL快速开发框架升级到4.52,谈谈开发过程中的优化
CRL4.5版本已经稳定使用于目前的几个中型项目中,在实际使用中,也发现了不少问题,这些问题都在4.52中提交 CRL具体功能和使用请浏览 CRL快速开发框架系列教程由于现在项目是一套业务系统,查询 ...
《设计模式：可复用面向对象软件的基础》【PDF】下载
<设计模式:可复用面向对象软件的基础>[PDF]下载链接: https://u253469.pipipan.com/fs/253469-230382288 内容介绍 <设计模式:可复 ...
layui动态设置下拉框数据，根据后台数据设置选中
追加下拉框数据: 设置默认选中: 正常的判断这种情况是不行的,因为追加出的数据,在前台显示的并不是同一个下拉框,原来的下拉框被隐藏了因此需要:根据原来的位置,寻找下一个节点,寻找子节点的方式找到相应 ...
记一次生产环境Nginx日志骤增的问题排查过程
摘要:众所周知,Nginx是目前最流行的Web Server之一,也广泛应用于负载均衡.反向代理等服务,但使用过程中可能因为对Nginx工作原理.变量含义理解错误,或是参数配置不当导致Nginx工作异 ...

强化学习之Q-learning ^_^

简要

游戏开始

GAME OVER

随机推荐

热门专题