强化学习（2）----Q-learning

2024-11-01 10:11:35 原文

1、Q-learning主要是Q表：

当前状态s1，接下来可以有两个动作选择，看电视a1和学习a2，对于agent人来说，可以根据reward来作出决策（Policy）。目的就是得到奖励最大。

Q-learning的目的就是学习特定state下、特定Action的价值。

Q-learning的方法是建立一个表，以state为行、action为列。比如：state有2个，action也有两个，所以Q-table就是2×2的一个表，对应总共4种可能得决策。

2、模型：

首先以 0 填充Q-table进行初始化，然后观察每一个决策带来的回馈，再更新Q-table。更新的依据是Bellman等式：

每一次行动，都会更新Q-table。

初始Q-table如下（行：state，列：action）：

	a1	a2
s1	0	0
s2	0	0

相应的Q-table如下：

	a1	a2
s1	-2	1
s2	-4	2

但是这个Q-table是我们希望得出或逼近的，在开始时，Agent所知的Q-table还是一个全0的矩阵。

3、算法：

算法中的 α 是指学习率，其控制前一个 Q 值和新提出的 Q 值之间被考虑到的差异程度。尤其是，当 α=1 时，两个 Q[s,a] 互相抵消，结果刚好和贝尔曼方程一样。
我们用来更新 Q[s,a] 的只是一个近似，而且在早期阶段的学习中它完全可能是错误的。但是随着每一次迭代，该近似会越来越准确；而且我们还发现如果我们执行这种更新足够长时间，那么 Q 函数就将收敛并能代表真实的 Q 值。

4、代码：

import numpy as np

GAMMA = 0.8

Q = np.zeros((6,6))

R=np.asarray([[-1,-1,-1,-1,0,-1],

   [-1,-1,-1,0,-1,100],

   [-1,-1,-1,0,-1,-1],

   [-1,0, 0, -1,0,-1],

   [0,-1,-1,0,-1,100],

   [-1,0,-1,-1,0,100]])

def getMaxQ(state):

    return max(Q[state, :])

def QLearning(state):

    curAction = None

    for action in range(6):

        if(R[state][action] == -1):

            Q[state, action]=0

        else:

            curAction = action

            Q[state,action]=R[state][action]+GAMMA * getMaxQ(curAction)

count=0

while count<1000:

    for i in range(6):

        QLearning(i)

    count+=1

print(Q/5)

强化学习（2）----Q-learning的更多相关文章

强化学习9-Deep Q Learning
之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
转：强化学习（Reinforcement Learning）
机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫 ...
强化学习10-Deep Q Learning-fix target
针对 Deep Q Learning 可能无法收敛的问题,这里提出了一种 fix target 的方法,就是冻结现实神经网络,延时更新参数. 这个方法的初衷是这样的: 1. 之前我们每个(批)记忆都 ...
强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
机器学习之强化学习概览（Machine Learning for Humans: Reinforcement Learning）
声明:本文翻译自Vishal Maini在Medium平台上发布的<Machine Learning for Humans>的教程的<Part 5: Reinforcement Le ...
[Reinforcement Learning] 强化学习介绍
随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视.最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下. 强化学习定义先借用维基百科上对强化 ...
The categories of Reinforcement Learning 强化学习分类
RL分为三大类: (1)通过行为的价值来选取特定行为的方法,具体包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network: (2)直接输出行为的 p ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

随机推荐

WCF（三）IIS寄宿
WCF常用的一种使用方式是寄宿在IIS中. IIS寄宿操作流程如下: 1.创建IIS物理路径对应的文件夹,文件夹名称是WCFIIS. 2.在WCFIIS文件夹中添加文本文件,在文本文件中写入<% ...
WCF（一）控制台寄宿
WCF是微软开发的一款通信框架.具有跨平台跨操作系统的特点,所以,WCF一般用于开发第三方接口或者在分布式系统用做数据交互. WCF三要素分别是地址(Address).绑定(Binding).契约(C ...
Appstore排名前十的程序员应用软件
程序员又名程序猿,苦逼劳累的代名词,曾经一个朋友这么开玩笑说,如果你是富二代,你当程序员就是脑残,如果你是穷二代,当程序员的话,死的时候一定是趴键盘. 程序员哦,可怜的程序员.在那山的这边海的那边有 ...
php--方便好用的函数
在写代码的时候经常会遇见各种各样的问题,感觉需要写函数解决,其实php中已经给出指定函数了.这些函数就需要我们日常去了解记忆. 1.获取指点年份中某月的天数 cal_days_in_month() & ...
阿里logo库
http://www.iconfont.cn/home/index?spm=a313x.7781069.1998910419.2
css 书写推荐顺序
1.位置属性(position, top, right, z-index, display, float等)2.大小(width, height, padding, margin)3.文字系列(fon ...
Springboot统一异常处理(@ControllerAdvice)
import org.springframework.web.bind.annotation.ControllerAdvice; import org.springframework.web.bind ...
v-model指令后面跟的参数（number、lazy、debounce）
1. number 想将用户的输入自动转换为Number类型(如果原值的转换结果为NaN, 则返回原值) 2. lazy 在默认情况下, v-model在input事件中同步输入框的值和数据, 我们可 ...
Lumen5.5，使用laravel excel 下载、导入excel文件
1.安装首先是安装laravel excel,使用composer安装 composer require maatwebsite/excel ~2.1.0 2.配置在bootstrap/app.p ...
NOI 2018 归程 (Kruskal重构树)
题目大意:太长了,略 Kruskal重构树,很神奇的一个算法吧如果两个并查集被某种条件合并,那么这个条件作为一个新的节点连接两个并查集那么在接下来的提问中,如果某个点合法,它的所有子节点也都合法, ...