强化学习的REIINFORCE算法和交叉熵RL算法

注意：

本文并不讲REINFORCE算法，而是讲强化学习的交叉熵算法，关于REINFORCE算法可以参看：

https://www.cnblogs.com/devilmaycry812839668/p/15889282.html

==========================================

强化学习有多种分类方法，其中一类分法为：

基于值函数的。该种类型的强化学习算法，比较有代表的基础算法有Q-learning算法、Sarsa算法等。
基于策略梯度的。该种类型的强化学习算法，比较有代表的基础算法有REINFORCE、交叉熵RL算法等。

本文主要讲交叉熵RL算法。交叉熵RL不同于REINFORCE算法，损失函数中是不使用奖励值的。交叉熵RL在每次和环境交互采集一定数量的episodes数据后根据奖励值选择其中一定比例的episodes数据，然后根据这些选定数据中动作的选择和对应的概率来进行交叉熵损失计算。如果在选定的episodes数据中有某个step，该step中状态可选择的动作为a0,a1,a2,a3这四个动作，假设agent最终选择的动作为a2，计算损失函数时得到在该step下选择a2的概率为p₂，那么计算时使用交叉熵函数则可以写为 -（0*logp₀ + 0*logp₁ + 1*logp₂ + 0*logp₃ ） = -logp₂ 。在对episodes数据进行选择时，我们可以根据最终奖励值的大小选择一定百分比的episodes，如选择最好的30%的episodes （在下面代码中百分位数设为70，就是选择最好的30%数据）。

需要注意的是交叉熵RL算法是十分基础的RL算法，缺点也很多，现在很少会有人使用，了解这个算法重要意义在于学习。在交叉熵RL算法可以使用对以往表现好的episodes数据进行保存，然后和新获得的数据一起进行再次训练，该种方式一般叫做保留精英操作。

给出CartPole环境下的一个交叉熵RL算法的代码：（Pytorch框架）

import gym

from collections import namedtuple

import numpy as np

from tensorboardX import SummaryWriter

import torch

import torch.nn as nn

import torch.optim as optim

HIDDEN_SIZE = 128

BATCH_SIZE = 16

PERCENTILE = 70

class Net(nn.Module):

    def __init__(self, obs_size, hidden_size, n_actions):

        super(Net, self).__init__()

        self.net = nn.Sequential(

            nn.Linear(obs_size, hidden_size),

            nn.ReLU(),

            nn.Linear(hidden_size, n_actions)

        )

    def forward(self, x):

        return self.net(x)

Episode = namedtuple('Episode', field_names=['reward', 'steps'])

EpisodeStep = namedtuple('EpisodeStep', field_names=['observation', 'action'])

def iterate_batches(env, net, batch_size):

    batch = []

    episode_reward = 0.0

    episode_steps = []

    obs = env.reset()

    sm = nn.Softmax(dim=1)

    while True:

        obs_v = torch.FloatTensor([obs])

        act_probs_v = sm(net(obs_v))

        act_probs = act_probs_v.data.numpy()[0]

        action = np.random.choice(len(act_probs), p=act_probs)

        next_obs, reward, is_done, _ = env.step(action)

        episode_reward += reward

        step = EpisodeStep(observation=obs, action=action)

        episode_steps.append(step)

        if is_done:

            e = Episode(reward=episode_reward, steps=episode_steps)

            batch.append(e)

            episode_reward = 0.0

            episode_steps = []

            next_obs = env.reset()

            if len(batch) == batch_size:

                yield batch

                batch = []

        obs = next_obs

def filter_batch(batch, percentile):

    rewards = list(map(lambda s: s.reward, batch))

    reward_bound = np.percentile(rewards, percentile)

    reward_mean = float(np.mean(rewards))

    train_obs = []

    train_act = []

    for reward, steps in batch:

        if reward < reward_bound:

            continue

        train_obs.extend(map(lambda step: step.observation, steps))

        train_act.extend(map(lambda step: step.action, steps))

    train_obs_v = torch.FloatTensor(train_obs)

    train_act_v = torch.LongTensor(train_act)

    return train_obs_v, train_act_v, reward_bound, reward_mean

if __name__ == "__main__":

    env = gym.make("CartPole-v0")

    # env = gym.wrappers.Monitor(env, directory="mon", force=True)

    obs_size = env.observation_space.shape[0]

    n_actions = env.action_space.n

    net = Net(obs_size, HIDDEN_SIZE, n_actions)

    objective = nn.CrossEntropyLoss()

    optimizer = optim.Adam(params=net.parameters(), lr=0.01)

    writer = SummaryWriter(comment="-cartpole")

    for iter_no, batch in enumerate(iterate_batches(

            env, net, BATCH_SIZE)):

        obs_v, acts_v, reward_b, reward_m = \

            filter_batch(batch, PERCENTILE)

        optimizer.zero_grad()

        action_scores_v = net(obs_v)

        loss_v = objective(action_scores_v, acts_v)

        loss_v.backward()

        optimizer.step()

        print("%d: loss=%.3f, reward_mean=%.1f, rw_bound=%.1f" % (

            iter_no, loss_v.item(), reward_m, reward_b))

        writer.add_scalar("loss", loss_v.item(), iter_no)

        writer.add_scalar("reward_bound", reward_b, iter_no)

        writer.add_scalar("reward_mean", reward_m, iter_no)

        if reward_m > 199:

            print("Solved!")

            break

    writer.close()

============================================

强化学习的REIINFORCE算法和交叉熵算法作为比较基础的算法经常作为baseline被提及，关于REIINFORCE算法可以参看：

https://www.cnblogs.com/devilmaycry812839668/p/15889282.html

============================================

强化学习的REIINFORCE算法和交叉熵RL算法的更多相关文章

强化学习中REIINFORCE算法和AC算法在算法理论和实际代码设计中的区别
背景就不介绍了,REINFORCE算法和AC算法是强化学习中基于策略这类的基础算法,这两个算法的算法描述(伪代码)参见Sutton的reinforcement introduction(2nd). A ...
统计学习：逻辑回归与交叉熵损失（Pytorch实现）
1. Logistic 分布和对率回归监督学习的模型可以是概率模型或非概率模型,由条件概率分布$P(Y|\bm{X})$或决策函数(decision function)\(Y=f(\bm{X} ...
强化学习（五）—— 策略梯度及reinforce算法
1 概述在该系列上一篇中介绍的基于价值的深度强化学习方法有它自身的缺点,主要有以下三点: 1)基于价值的强化学习无法很好的处理连续空间的动作问题,或者时高维度的离散动作空间,因为通过价值更新策略时是 ...
强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...
深度强化学习day01初探强化学习
深度强化学习基本概念强化学习强化学习(Reinforcement Learning)是机器学习的一个重要的分支,主要用来解决连续决策的问题.强化学习可以在复杂的.不确定的环境中学习如何实现我们设 ...
<强化学习>开门帖
(本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程.https://www.youtube.com/w ...
softmax交叉熵损失函数求导
来源:https://www.jianshu.com/p/c02a1fbffad6 简单易懂的softmax交叉熵损失函数求导来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福 ...
机器学习之路：tensorflow 深度学习中分类问题的损失函数交叉熵
经典的损失函数----交叉熵 1 交叉熵: 分类问题中使用比较广泛的一种损失函数, 它刻画两个概率分布之间的距离给定两个概率分布p和q, 交叉熵为: H(p, q) = -∑ p(x) log q( ...
强化学习调参技巧二：DDPG、TD3、SAC算法为例：
1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境.其编写流程如下: 1.1 初始阶段: 先写一个简化版的训练环境.把任务难度降到最低,确保一定能正常训 ...
深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测
深度学习基础5:交叉熵损失函数.MSE.CTC损失适用于字识别语音等序列问题.Balanced L1 Loss适用于目标检测 1.交叉熵损失函数在物理学中,"熵"被用来表示热力学 ...

随机推荐

leetcode_2-两数相加_javascript
题目 2.两数相加给出两个非空的链表用来表示两个非负的整数.其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字. 如果,我们将这两个数相加起来,则会返回一个新 ...
BC6-牛牛的第二个整数
题目描述牛牛从键盘上输入三个整数,并尝试在屏幕上显示第二个整数. 输入描述一行输入 3 个整数,用空格隔开. 输出描述请输出第二个整数的值. 示例 1 输入:1 2 3 输出:2 解题思路方案 ...
nacos v2.2 k8s部署启动报错：nacos server did not start because dumpservice bean construction failure. errMsg102, errllsg dataSource or tableName is null
背景最近搭建个nacos环境,用的镜像是2.2版本的,yaml如下: nacos-conf apiVersion: v1 kind: ConfigMap metadata: name: nacos- ...
高通与At指令：AtCop解析
背景在某个新基线上移植AT指令,发现有问题,因此收集了这个系列的文章作为这方面的知识补充. 原文作者:laozhuxinlu,本文有删改. 另外,还参考了:https://www.cnblog ...
Android 7.0 开机时间优化
原文参考(有删改):https://www.jianshu.com/p/6dba42c022a9 问题描述开机时间相对参考机过慢,大约慢15s左右.Android 系统7.0. 问题分析开机问题涉 ...
通过源码安装 python
为了vim PYTHON="3.4.1" tget () { #try wget filename=`basename $1` echo "Downloading [${ ...
FFmpeg新旧接口对照使用一览
背景根据例程学习调用ffmpeg 库方法的时候,发现了一堆警告. main.cpp:81:37: warning: 'AVStream::codec' is deprecated [-Wdeprec ...
【冷启动#1】实用的MySQL基础
简单安装一下MySQL Windows下(5.7.x) 本体安装 1.首先先下载安装包,名字如下: mysql-5.7.19-winx64.zip 2.配置环境变量,将解压之后的bin目录添加一下 3 ...
千万别忽视基础！十张图带你一步步理解Java内存结构！
作为一个Java程序员,在日常的开发中,不必像C/C++程序员那样,为每一个内存的分配而操心,JVM会替我们进行自动的内存分配和回收,方便我们开发.但是一旦发生内存泄漏或者内存溢出,如果对Java内存 ...
基于NXP i.MX 6ULL——MQTT通信协议的开发案例
前言本指导文档适用开发环境: Windows开发环境:Windows 7 64bit.Windows 10 64bit Linux开发环境:Ubuntu 18.04.4 64bit 拟机:VMw ...

强化学习的REIINFORCE算法和交叉熵RL算法

强化学习的REIINFORCE算法和交叉熵RL算法的更多相关文章

随机推荐

热门专题