Open Review

  • 贡献:

    • semi-supervised learning + PBRL。
    • 两部分:① 利用 pseudo-label 和 reference predictor 来整一些 artificial labels,② 裁剪(crop)连续的(consecutive)子序列(sub-sequences)来做 data augmentation。(感觉这两部分貌似是相互独立的)
    • 实验:
      • 实验环境是 Meta-world 和 DMControl suite,结果表明性能显著提升。
      • SURF 仅 access 了少量 expert queries,性能可与 dense-reward SAC 相媲美。
    • 关于 temporal cropping method:
      • 首先,抽取一对长为 50 的 segment,把它们作为 query 给 teacher 送去 label。
      • 然后,我们存储这些 segment,在左右两侧都有 5 的额外边距,即我们存储了长度 = 60 的 segment。
      • 在 reward learning 时,我们在 [Hmin, Hmax] = [45,55] 中,随机选择每个 segment k0,k1 的裁剪长度 H' 和起始位置,然后裁剪连续的 sub-sequences。
      • 详见 Algorithm 1。temporal cropping 的超参数详见 Appendix B。
  • 优点:
    • 实验量充足。formulation 清晰。性能很好。
  • 缺点:
    • reward function 是怎么学的,在第 3 和 4.1 节,reviewer 没太看懂。
    • 如图 6(b) 所示,pseudo-labeling 技术要求超参数 τ 非常大,reviewer 在疑惑,为什么需要非常高的 confidence。这些 high-confidence samples 的 loss 应该非常小,为什么会让最终性能显著提升。(没太听懂)回答:这种高阈值的 pseudo-labeling 在半监督学习领域中,有充分的证明和广泛的应用。
    • 有一个假设太强了:“augmentation 背后的直觉是,对于一对给定的 behavior clips,将它们 slightly shifted 或 resize,human teacher 可能仍然持有相同的 preference。” 反驳:CV 上相似 idea(图像裁剪)的效果很好。
    • 技术上的 novelty 有限。
    • (有两个 reviewer 说)ablation 可以多在几个 task 上做,不然对 TDA(好像是某个 task)的 support 是不够的。(然后就真的补 ablation 了)

0 abstract

Preference-based reinforcement learning (RL) has shown potential for teaching agents to perform the target tasks without a costly, pre-defined reward function by learning the reward with a supervisor’s preference between the two agent behaviors. However, preference-based learning often requires a large amount of human feedback, making it difficult to apply this approach to various applications. This data-efficiency problem, on the other hand, has been typically addressed by using unlabeled samples or data augmentation techniques in the context of supervised learning. Motivated by the recent success of these approaches, we present SURF, a semi-supervised reward learning framework that utilizes a large amount of unlabeled samples with data augmentation. In order to leverage unlabeled samples for reward learning, we infer pseudo-labels of the unlabeled samples based on the confidence of the preference predictor. To further improve the label-efficiency of reward learning, we introduce a new data augmentation that temporally crops consecutive sub-sequences from the original behaviors. Our experiments demonstrate that our approach significantly improves the feedback-efficiency of the state-of-the-art preference-based method on a variety of locomotion and robotic manipulation tasks.

  • 背景:

    • 在没有昂贵的预定义 reward function 情况下,PBRL 已显示出教授 agent 执行目标任务的潜力。具体的,通过 human supervisor 在两种 agent behaviors 之间的 preference,来学习一个 reward model。
    • 然而,PBRL 通常需要大量的人类反馈,因此很难广泛应用。
    • 这种数据效率的问题,通常会在监督学习的背景下,使用未标记的样本(unlabeled samples)或数据增强(data augmentation)技术来解决。
  • method:
    • 受这些方法启发,我们提出了 SURF,一种 semi-supervised reward learning framework,利用大量未标记的样本,进行 data augmentation。
    • 具体的,为了利用 unlabeled samples 进行 reward learning,我们根据 preference predictor 的置信度(confidence),推断未标记样本的伪标签(pseudo-labels)。
    • 为了进一步提高 reward learning 的 label-efficiency,我们引入了一种新的 data augmentation 技术,在时间上从 original behaviors 中 temporally crops consecutive sub-sequences。
  • 实验:SURF 显著提高了最先进的 PBRL 算法在各种 locomotion 和 robot manipulation 任务上的 feedback-efficiency。

2 related work

  • PBRL。
  • Data augmentation for RL(有趣的,以前没注意过的角度)
  • Semi-supervised learning 半监督学习:还是有很多 literature 的,不太了解这个领域…

4 method: SURF

SURF: a Semi-sUpervised Reward learning with data augmentation for Feedback-efficient preference-based RL.

感觉看一下 Algorithm 就可以了。

4.1 Semi-supervised reward learning - 半监督的 reward learning

  • pseudo-labeling:y hat(σ0, σ1) = 0 if P_ψ[σ0>σ1] > 0.5 else 1 。
  • 为了过滤掉不准确的伪标签,只在 predictor 的 confidence 高于一个 pre-defined threshold 时,才使用 unlabeled samples 进行训练。(confidence 大概指的是,P_ψ[σ0>σ1] > τ,τ 是 confidence 的阈值 )
  • (Algorithm 1,里面出现的 TDA temporal data augmentation 在 Algorithm 2 里)

4.2 Temporal data augmentation for reward learning - reward learning 中的时序数据增强

  • (Algorithm 2)
  • 利用增强样本 \((\hat σ^0,\hat σ^1)\) 来优化公式 (5) 中的交叉熵损失。

5 experiments

Pieter Abbeel 组的 experiments section 经典问题:(如果你不知道经典问题指什么,可以看 PEBBLE RUNE 的本站博客;这三篇文章都是他们组的,写作非常相似)

  • How does SURF improve the existing preference-based RL method in terms of feedback efficiency?

    SURF 如何在反馈效率方面,改进现有的 PBRL 方法?
  • What is the contribution of each of the proposed components in SURF?

    SURF 中每个 proposed components 的贡献是什么?
  • How does the number of queries affect the performance of SURF?

    queries 的数量如何影响 SURF 的性能?
  • Is temporal cropping better than existing state-based data augmentation methods in terms of feedback efficiency?

    在 feedback efficiency 方面,temporal cropping 是否比现有的 state-based data augmentation 方法更好?
  • Can SURF improve the performance of preference-based RL methods when we operate on high-dimensional and partially observable inputs?

    应对高维和 partially observable 的输入时,SURF 能否提高基于 PBRL 方法的性能?

implementation details:

  • 对于 query selection 策略,我们选择 queries with high uncertainty,使用 disagreement-based sampling 方案,即 ensemble disagreement(Appendix B)。
  • 更多细节见 Appendix B。

results:

  • 相比 PEBBLE,surf 需要更少的 queries 数量。
  • 在相同 queries 预算下,surf 可以显著提高 PEBBLE 的性能。
  • ablation 就是将两种技术分别使用,比较它们的训练 curve。
  • ablation 还比较了不同的 query size(是 feedback 数量,好像不是 segment 长度)、不同的 data augmentation 方法、不同的 surf 超参数。
  • 在问题中画饼的“高维 partially observed input”,指的是 section 5.4 的 visual control tasks 嘛?(但是又在 6 discussion 中说是 future direction)

RLHF · PBRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强的更多相关文章

  1. python大战机器学习——半监督学习

    半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数.它是一类可以自动地利用未标记的数据来提升学习性能的算法 1.生成式半监督学习 优点:方法简单,容易实现.通常在有标记数据极少时, ...

  2. AI之强化学习、无监督学习、半监督学习和对抗学习

    1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习 强化学习(英语:Reinforcement Learning,简称 ...

  3. sklearn半监督学习

    标签: 半监督学习 作者:炼己者 欢迎大家访问 我的简书 以及 我的博客 本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! --- 摘要:半监督学习 ...

  4. 【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch

    半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA.ReMixMatch,再到 2020 年 ...

  5. 利用DP-SSL对少量的标记样本进行有效的半监督学习

    作者 | Doreen 01 介绍 深度学习之所以能在图像分类.自然语言处理等方面取得巨大成功的原因在于大量的训练数据得到了高质量的标注. 然而在一些极其复杂的场景(例如:无人驾驶)中会产生海量的数据 ...

  6. 基于PU-Learning的恶意URL检测——半监督学习的思路来进行正例和无标记样本学习

    PU learning问题描述 给定一个正例文档集合P和一个无标注文档集U(混合文档集),在无标注文档集中同时含有正例文档和反例文档.通过使用P和U建立一个分类器能够辨别U或测试集中的正例文档 [即想 ...

  7. 吴裕雄 python 机器学习——半监督学习LabelSpreading模型

    import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import d ...

  8. 吴裕雄 python 机器学习——半监督学习标准迭代式标记传播算法LabelPropagation模型

    import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import d ...

  9. 虚拟对抗训练(VAT):一种用于监督学习和半监督学习的正则化方法

    正则化 虚拟对抗训练是一种正则化方法,正则化在深度学习中是防止过拟合的一种方法.通常训练样本是有限的,而对于深度学习来说,搭设的深度网络是可以最大限度地拟合训练样本的分布的,从而导致模型与训练样本分布 ...

  10. 【论文解读】【半监督学习】【Google教你水论文】A Simple Semi-Supervised Learning Framework for Object Detection

    题记:最近在做LLL(Life Long Learning),接触到了SSL(Semi-Supervised Learning)正好读到了谷歌今年的论文,也是比较有点开创性的,浅显易懂,对比实验丰富, ...

随机推荐

  1. 一键部署 Umami 统计个人网站访问数据

    谈到网站统计,大家第一时间想到的肯定是 Google Analytics.然而,我们都知道 Google Analytics 会收集所有用户的信息,对数据没有任何控制和隐私保护. Google Ana ...

  2. Python实现输入三个整数x,y,z,请把这三个数由小到大输出;

    num1=input('请输入第一个数,x:') num2=input('请输入第二个数,y:') num3=input('请输入第三个数,z:') if num1>num2: # if 语句判 ...

  3. 使用Java Xpath 爬取某易云歌曲

    本文使用Java xpath 爬取某易云歌曲,并下载至本地. 代码仅用于个人学习使用,欢迎各位大佬提出建议. 1.添加依赖 <dependency> <groupId>cn.w ...

  4. 如何用PHP写接口

    当用PHP编写API接口时,可以使用PHP中的框架(如Laravel.Symfony.CodeIgniter等)来简化开发过程.接下来,以使用Laravel框架为例,提供一个简单的示例代码: 首先,确 ...

  5. EXE一机一码加密大师1.3.0更新

    EXE一机一码打包加密大师可以打包加密保护EXE文件,同时给EXE文件添加上一机一码认证,或者静态密码,不同的电脑打开加密后的文件需要输入不同的激活码才能正常使用,保护文件安全,方便向用户收费. 1. ...

  6. 简述Spring Cache缓存策略

    一.简介 Spring框架提供了一种名为Spring Cache的缓存策略.Spring Cache是一种抽象层,它提供了一种方便的方式来管理缓存,并与Spring应用程序中的各种缓存实现(如EhCa ...

  7. Web组态可视化软件之BY组态可视化平台介绍

    Web组态可视化软件之BY组态可视化平台介绍 关于组态软件,首先要从组态的概念开始说起. 什么是组态 组态(Configure)的概念来自于20世纪70年代中期出现的第一代集散控制系统(Distrib ...

  8. Solution -「ARC 123F」Insert Addition

    大约是翻译了一下官方题解? @Description@ 对于一个整数序列 \(P=(P_{1},\dots,P_{m})\),定义 \(f(P)\) 为一个序列 \(Q\) 满足: \(Q_{i}=P ...

  9. 关于初次new springboot项目

    如果是新手初学,然后做springboot项目报各种错,改来改去最终都无法出现successful字样. 请先检查,maven环境是否配好. maven环境决定你下载依赖的速度,以及能否下载成功. m ...

  10. TCP协议的秘密武器:流量控制与拥塞控制

    TCP可靠性传输 相信大家都熟知TCP协议作为一种可靠传输协议,但它是如何确保传输的可靠性呢? 要实现可靠性传输,需要考虑许多因素,比如数据的损坏.丢失.重复以及分片顺序混乱等问题.如果不能解决这些问 ...