强化学习：连续控制问题中Actor-Critic算法的linear baseline

最近在看连续控制问题，看到了一个Actor-Critic算法中手动扩展features和设置linear baseline的方法，这些方法源自论文：《Benchmarking Deep Reinforcement Learning for Continuous Control》。

对于低维的features我们可以手动扩展：

代码实现：

        return torch.cat([observations, observations ** 2, al, al ** 2, al ** 3, ones], dim=2)

-----------------------------------------------------

linear baseline，在AC算法中给Critic降低方差之用，给出一种简单的线性拟合方式，使用最小二乘法拟合：

代码：

    def fit(self, episodes):

        # sequence_length * batch_size x feature_size

        featmat = self._feature(episodes).view(-1, self.feature_size)

        # sequence_length * batch_size x 1

        returns = episodes.returns.view(-1, 1)

        reg_coeff = self._reg_coeff

        eye = torch.eye(self.feature_size, dtype=torch.float32,

                        device=self.linear.weight.device)

        for _ in range(5):

            try:

                coeffs = torch.linalg.lstsq(

                    torch.matmul(featmat.t(), featmat) + reg_coeff * eye,

                    torch.matmul(featmat.t(), returns)

                ).solution

                break

            except RuntimeError:

                reg_coeff += 10

        else:

            raise RuntimeError('Unable to solve the normal equations in '

                               '`LinearFeatureBaseline`. The matrix X^T*X (with X the design '

                               'matrix) is not full-rank, regardless of the regularization '

                               '(maximum regularization: {0}).'.format(reg_coeff))

        self.linear.weight.data = coeffs.data.t()

===============================================

详细代码地址：

https://gitee.com/devilmaycry812839668/MAML-Pytorch-RL/blob/master/maml_rl/baseline.py

强化学习：连续控制问题中Actor-Critic算法的linear baseline的更多相关文章

【转】【强化学习】Deep Q Network(DQN)算法详解
原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...
强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
OpenCV学习(22) opencv中使用kmeans算法
kmeans算法的原理参考:http://www.cnblogs.com/mikewolf2002/p/3368118.html 下面学习一下opencv中kmeans函数的使用. 首先我们 ...
强化学习8-时序差分控制离线算法Q-Learning
Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念时序差分控制算法的分类:在线和离线在线控制算法:一直使用一个策略选择动作和更新价值函数, ...
OpenCV学习(35) OpenCV中的PCA算法
PCA算法的基本原理可以参考:http://www.cnblogs.com/mikewolf2002/p/3429711.html 对一副宽p.高q的二维灰度图,要完整表示该图像,需要m = ...
深度学习-强化学习(RL)概述笔记
强化学习(Reinforcement Learning)简介强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予 ...
深度强化学习（DRL）专栏（一）
目录: 1. 引言专栏知识结构从AlphaGo看深度强化学习 2. 强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程 3. 有模型的强化学习方法价值迭代策略迭代 4. ...
深度强化学习（DRL）专栏开篇
2015年,DeepMind团队在Nature杂志上发表了一篇文章名为"Human-level control through deep reinforcement learning&quo ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...

随机推荐

js金额格式化
function fmoney(s, n) //s:传入的float数字 ,n:希望返回小数点几位 { n = n > 0 && n <= 20 ? n : 2; s = ...
work11
1,简述String类中的equals方法与Object类中的equals方法的不同点. /* Object 类 1,它是所有类的一个根类 2,其他类默认继承Object类常用方法: 1,toStr ...
uni-app apple store 上传新版本审核被拒绝 Guideline 5.1.1
- Legal - Privacy - Data Collection and Storage We noticed that your app requests the user's consent ...
硬件开发笔记（二十）：AD21导入外部下载的元器件原理图库、封装库和3D模型
前言在硬件设计的过程中,会遇到一些元器件,这些元器件在本地已有的库里面没有,但是可以从外部下载或者获取到对应的. 本篇就是引入TPS54331D电源芯片作为示例,详细描述整个过程. 创建T ...
java基础-匿名类/对象
最近有同事问我,以下这个语句是什么意思? MqMessge<MqMessgeThink> mm= JSON.parseObject(message.toString(),new TypeR ...
Zynq-7000 AP SoC Boot - Multiboot Tech Tip
背景产品需要用到这个技术,在wiki找到了这篇文章. 创建者Confluence Wiki Admin Sep 24, 2018 in Xilinx-wiki Table of Contents D ...
【建议收藏】Go语言关键知识点总结
容器数组和切片在Go语言中,数组和切片是两个基本的数据结构,用于存储和操作一组元素.它们有一些相似之处,但也有许多不同之处.下面我们详细介绍数组和切片的特点.用法以及它们之间的区别. 数组数组是 ...
Android发布，全志T507四核A53@1.4GHz工业平台，含税仅168元起！
近年来,Android系统在工业自动化.仪器仪表.医疗.安防等工业领域的使用日趋广泛.为了满足广大工业用户的需求,创龙科技针对全志T507-H工业平台进行了Android系统适配. 创龙科技T507- ...
不是人家太装逼，而是我们太low
在一个社团的迎新的时候,每个人自我介绍.等到一个一身LV,爱马仕的女孩子自我介绍,说起爱好,她想了想说:喜欢跑车.然后很淡定的坐下了.很多同学你看我我看你,投以"炫富"的判断目光- ...
Simple WPF: WPF实现一个MINIO等S3兼容对象存储上传文件的小工具
最新内容优先发布于个人博客:小虎技术分享站,随后逐步搬运到博客园. 创作不易,如果觉得有用请在Github上为博主点亮一颗小星星吧! 目的之前在阿里云ECS 99元/年的活动实例上搭建了一个测试用的 ...

强化学习：连续控制问题中Actor-Critic算法的linear baseline

强化学习：连续控制问题中Actor-Critic算法的linear baseline的更多相关文章

随机推荐

热门专题