阅前省流

  • 贡献:

    • 将 offline preference-based reward learning,确定为一个研究问题。
    • 比较了一些 比如说 query selection 和 reward uncertainty 度量的方法,比较它们的性能优劣。(无 novelty 的单纯实验)
    • 【重要】在 reward learning 这个任务 setting 上,评测了 D4RL benchmark 的各个任务:
      • 发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也是能学出很好 policy 的。这证明,这些任务不适合用来评测 reward learning 的性能好坏。
      • 定义了 degradation 作为评测“任务是否适合 reward learning” 的指标,选出了几个 degradation 较大的任务。
    • 【具有一定 novelty】发现,即使 offline data 里没有显式定义某些任务(或许指的是,offline data 不是为了完成这个任务而采集的?),也可以通过 human preference 评测散装片段,看 segments 哪些更符合这个未显式定义的任务,从而学到这个任务。

open review

  • TMLR(?)Transactions on Machine Learning Research,好像是期刊,据说不追求 novelty,知乎上说比较好中(?)。
  • 貌似期刊只会有一个最终决定,不像会议每个 reviewer 打一个分数。Accept with minor revision,小修。
  • 贡献:【待整理】
    • 提出方法:Offline Preference-based Apprenticeship Learning (OPAL),利用 offline data 做 reward learning。
    • 算法:① 从 dataset 的 trajectory segments 中选一些 queries 给 human rater 标注 preference;② 学习 reward model;③ 使用 reward model + offline transition data,跑 offline RL。
    • 还提出了一种方法,通过计算 reward model 的 uncertainty,来主动选择 informative query(听着好像 PEBBLE 的写作),发现,在 query selection 方面,基于集成的分歧查询(ensemble-based disagreement queries)outperform 了其他 baselines(现在更像 PEBBLE 了)。
    • 新 benchmark 是专门为 offline PBRL 而设计的。
    • 主要贡献:将 offline PBRL 确定为一个有趣的研究问题,评估一些自然的 baselines,并确定现有的 offline RL datasets 是否足以解决此类问题。
    • 他们提出的方法,结合了奖励不确定性(reward uncertainty)、查询选择(query selection)和策略优化(policy optimization)。
    • 工作:
      • 本文描述了一种基于 human preference 学习 reward function 的方法,假设访问 offline dataset,并从其中采样 episode segments,而非进行在线交互。
      • 如何对 paired trajectories 进行采样?使用了不同的主动学习(active learning)技术。
      • 如何估计主动学习(active learning)技术的不确定性(uncertainty)?比较集成(ensembles)与 Bayesian dropout。
      • 哪些环境适合评估 learned reward functions?比较 no-reward baselines,以检查 D4RL 中的哪些环境,似乎更能从良好的 learned reward 中受益。
      • 实验:主要使用 ground truth reward 来 answer queries,最后一部分是有 human feedback 的更加定性(qualitative)的任务。
  • 优点:
    • 作者在评估一些 D4RL 环境方面做得很好,以确定哪些环境非常适合 PBRL。
    • Appendix B 中的推导(derivation)非常好!
  • 缺点:
    • 实验 - 缺超参数的敏感性分析(Sensitivity analysis on the hyper-parameters),比如 section 5.2 中 query selection 的个数。(然后应该有补 ablation)
    • 应该在第 2 页的最后一段中澄清,为什么我们在寻找一种 tasks: reward function 的选择对 performance 影响很大的任务。其实是因为,否则,我们无法判断一种 reward learning 方法比另一种更好还是更差。
    • 整篇论文中反复出现,估计 / 表示不确定性(estimating / representing uncertainty.)的概念。论文可以更好地证明,为什么估计 / 表示不确定性很重要。目前,它似乎被认为是理所当然的。
    • 希望看到更多算法细节,说明我们如何有效识别要比较的最佳 trajectory pair;naive 方法的复杂度为 O(N^2),但 reviewer 认为作者没有这样做。回复:在 section 4.2 中添加了一个名为“在 offline dataset 中搜索 informative queries”的段落,其中讨论了效率。发现没有必要在实验中并行化信息增益(information gain)和集成分歧(ensemble disagreement)的计算,但我们确实利用了 GPU 并行化,来显著加快搜索速度。
    • 有点 incremental,像是 T-REX 的衍生品。
    • 实验 - 压 baselines(?):此外,ground truth reward + offline RL 的结果,明显低于原始论文中声称的 performance,尤其是 CQL。作者应该好好调整 backbone policy optimization algorithms,让 performance 与原始论文中的结果匹配。回答:就是很难复现那些结果,并且虽然有的 performance 低了,但也有 performance 高了。并且,我们的 main contribution 不是刷榜,而是 offline apprenticeship learning setting。
    • 实验 - 缺 baselines:还应该与其他 reward learning / imitation learning 方法(DemoDICE,IQ-Learn)比较。回答:比不了,因为 DemoDICE 和 IQ-learn 都假设可以访问专家演示,但我们只有普通的 offline dataset。

0 abstract

Learning a reward function from human preferences is challenging as it typically requires having a high-fidelity simulator or using expensive and potentially unsafe actual physical rollouts in the environment. However, in many tasks the agent might have access to offline data from related tasks in the same target environment. While offline data is increasingly being used to aid policy optimization via offline RL, our observation is that it can be a surprisingly rich source of information for preference learning as well. We propose an approach that uses an offline dataset to craft preference queries via pool-based active learning, learns a distribution over reward functions, and optimizes a corresponding policy via offline RL. Crucially, our proposed approach does not require actual physical rollouts or an accurate simulator for either the reward learning or policy optimization steps. To test our approach, we first evaluate existing offline RL benchmarks for their suitability for offline reward learning. Surprisingly, for many offline RL domains, we find that simply using a trivial reward function results good policy performance, making these domains ill-suited for evaluating learned rewards. To address this, we identify a subset of existing offline RL benchmarks that are well suited for offline reward learning and also propose new offline apprenticeship learning benchmarks which allow for more open-ended behaviors. When evaluated on this curated set of domains, our empirical results suggest that combining offline RL with learned human preferences can enable an agent to learn to perform novel tasks that were not explicitly shown in the offline data.

  • 背景:

    • 从人类偏好中学习 reward function 具有挑战性,因为它通常需要一个 high-fidelity simulator,或者在真实环境中,使用昂贵且可能不安全的 实际物理部署。
    • 但是,在许多任务中,agent 可以访问 同一目标环境中 相关任务的 offline data。虽然 offline data 越来越多被用于 offline RL 来帮助策略优化,但我们的观察是,它也可以成为 preference learning 的丰富信息来源。
  • method:
    • 我们提出了一种方法,该方法使用 offline dataset,通过基于池的主动学习(pool-based active learning)来制作 preference queries,学习 reward function 的分布,并通过 offline RL 优化相应的策略。
    • 至关重要的是,我们提出的方法不需要实际的物理部署,也不需要准确的模拟器来进行 reward learning 或 policy optimization steps。
  • benchmark:(?)
    • 为了测试我们的方法,首先评估现有的 offline RL benchmark 是否适合 offline reward learning。
    • 令人惊讶的是,对于许多 offline RL 领域,我们发现仅仅使用一个微不足道的(trivial ) reward function,就能产生良好的策略性能,这使得这些领域不适合(ill-suited)去评估 reward learning 的效果。(?)
    • 为了解决这个问题,我们确定了非常适合 offline reward learning 的现有 offline RL benchmark 的子集,并提出了新的 offline 学徒学习(apprenticeship learning)benchmarks,允许更多的开放式行为(open-ended behaviors)。
    • 当对这组精选(curated)领域进行评估时,实证结果表明,将 offline RL 与 learned human preference 相结合,可以使 agent 去学习执行 offline data 中未明确显示的新任务。

1 intro

  • Abbeel 组在 2004 年提出了 Apprenticeship learning 学徒学习,使用专家演示 expert demonstrations。
  • 本文:提出了 Offline Preference-based Reward Learning (OPRL) 的 setting,通过 human 给 offline segment pair 打出 preference,来学习 reward function。
  • 新颖贡献:agent 拥有在测试期间学习 unseen tasks 的能力,这是先前工作未探索的。
    • 例如,如图 2 所示,即使所有 demo 都是随机点对点导航的短段,我们也证明了 OPRL 可以恢复,绕整个迷宫逆时针无限行驶的策略。
    • 实现这一点的关键是,能够将原始数据集中的不完整片段拼在一起,以便在测试期间,为新任务创建一个长轨迹。
    • (goal-based RL,HER,有端联想。噢,好像也没有 goal-conditioned,就是单纯训出来了)
  • 关于 Offline PBRL baseline:
    • 最近的研究表明,简单地使用标准 RL benchmarks 并掩盖奖励,对 reward learning 或更广泛的 imitation learning 并不具有挑战性,因为经常在任何地方学习 +1 或 -1 奖励,就足以模仿 RL 策略(?)。
    • 因此,我们在 offline reward learning 的 setting 中,评估各种现有的 offline RL benchmarks,其中我们删除了对真实奖励函数的访问。
    • 令人惊讶的是,发现许多 offline RL benchmarks 并不适合比较不同的 reward learning 方法 —— 简单地用零或常数替换 offline dataset 中的所有 ground truth reward,performance 与使用真实 reward 的性能相似或更好!
    • 这意味着,这些领域的 high-performance 并不总是表明更好的 reward learning —— 相反,似乎许多领域的表现,主要受数据质量(专家轨迹与次优轨迹)的影响,而 transition dataset 中的实际奖励值,对 offline RL 的影响很小。

2 related work

  • safe apprenticeship learning 安全学徒学习(是我没接触过的方向):

    • 先前关于安全学徒学习的工作,要么使 learner 能够 estimate risky actions 并请求人工协助 request human assistance,要么针对尾部风险 tail risk 而非 expected return 来 optimize policy,或在从 demonstrations 中学习时,对 agent policy 的 performance 设定 high-confidence bounds。
    • 然而,这些方法都依赖于精确的 env dynamic model,或与环境的直接交互。
    • 相比之下,我们的安全方法是 offline apprenticeship learning 算法,以避免在 reward 和 policy learning 期间,收集昂贵且可能不安全的物理数据。
    • (如果讲组会,exploration 的冷饭炒完了,可以炒 safe RL 的冷饭)
  • offline apprenticeship learning 离线学徒学习:
    • 先前工作集中在,具有 discrete action 和 hand-crafted reward features 的简单环境中,并要求数据集包含专家演示(相当于最优 trajectory?)。
    • 其他工作,大多也假设可以访问专家演示,或要求专家用明确的 reward value 标记 trajectory。
    • 我们专注于通过少量定性的 preference queries,进行完全离线的奖励学习;preference query 比细粒度的 reward label 或 near-optimal demonstrations 更容易提供。
  • offline imitation learning 离线模仿学习:
    • IR 方法,比如 behavioral cloning,存在 compounding errors 问题(引用了一篇 1988 年的文章)。
    • DemoDICE(2021 年):试图模仿 offline 专家演示,并通过利用 sub-optimal demonstration 数据集来提高稳定性。
    • IQ-Learn(2021 年):能够进行 offline 和 online 模仿学习,学习参数化的 Q 函数而非奖励函数。
    • 但是,它们都需要访问 expert demonstration。我们的方法不需要专家演示,只需要从 offline data 里学出 reward function。

4 Offline Preference-Based Reward Learning

离线 preference-based 奖励学习(经常幻视强化学习,因为都是 RL)。简称 OPRL。

4.1 Representing Reward Uncertainty

貌似是,寻找 reward uncertainty 最大的 query,以达到选取 informative query 的效果。

所以,现在要找一种方法,度量 reward uncertainty(?)

  • Ensemble Queries 集成查询
  • Bayesian Dropout

好像可以看 Alg 1 第四行(?)

(没有很明白,这一部分在 framework 中的位置)

4.2 Active Learning Query Selection

作者的逻辑是,首先估计一个 query 的价值(value),然后选择价值最大的 query。

所以现在要度量 query 的价值(?)Alg 1 第六行。

  • Disagreement 分歧:

    • 将分歧计算为二元比较预测中的方差:p(1-p) 。
    • 其中 p 是预测 σ0>σ1 的概率,抑或是得出这一结论的 ensemble models 的个数。
  • Information Gain Queries 信息获取查询:
    • 信息增益 \(I(θ;Y| D) = H(Y|D)- E_{θ\sim p(θ|D)}[H(Y~|~θ,D)]\) 。
    • 直观地说,当第一项高时,信息增益将最大化,这意味着整个模型具有高熵;但第二项低,这意味着后验的每个单独假设 θ 都为结果 Y 分配了低熵。当个人假设彼此强烈不同意并且没有明显的多数时,就会发生这种情况。(没看懂)

可以并行计算每个 candidate query 的信息增益或集成分歧,可以利用 GPU 并行化,将一个或多个轨迹中的所有状态,作为 batch 来输入 reward function network。

4.3 Policy Optimization

详见 Alg 1。

(读到这里感觉,或许真的没有 novelty;但评测 benchmark 的这部分工作,或许是值得一看的)

5 experiment

5.1 Evaluating Offline RL Benchmarks - 评估 offline RL 的 benchmark

四个(即将被用 0 或 ±1 的 reward 敷衍)的 offline RL 方法:

  • 优势加权回归 Advantage Weighted Regression(AWR) 2019
  • 批量约束深度 Q 学习 Batch-Constrained deep Q-learning(BCQ)2019
  • Bootstrapping Error Accumulation Reduction (BEAR) 2020
  • Conservative Q-Learning (CQL) 2020

表 1 是对 D4RL benchmark 的评测,关键指标是 degradation 降级 = GT ground truth - max(avg, zero, random) / GT - min(avg, zero, random) ,degradation 越大,task performance 就越能代表 reward function 的好坏。

5.2 Reward Learning on a Subset of D4RL - D4RL 子集的奖励学习

设 degradation 阈值为 20%,>20% 认为是可以做 reward learning 的任务。

选出了 5 个 env,在它们上面做 OPRL 的实验,介绍了一些训练细节。

比较了一下 query selection 方法。

5.3 New Offline Preference-Based Reward Learning Tasks - 新的基于偏好的离线奖励学习任务

  • 5.3.1 Maze Navigation with Constraint Region - 带约束区域的迷宫导航
  • 5.3.2 Open Maze Behaviors - 开放式迷宫行为
  • 5.3.3 Open-Ended CartPole Behaviors - 开放式 CartPole 行为

5.3.2 应该就是 reviewer 提到的,只学习过零散的 query segment,却能实现绕迷宫逆时针转圈的任务了。

5.3.3 新定义了 ① CartPole 顺时针转 ② 逆时针转 的任务。

结论:OPRL 能够利用 offline data,优化数据中未明确显示(explicitly shown)的任务。

(感觉就是 reviewer 提到的,把 segment 拼起来的原理)

RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark的更多相关文章

  1. 分布式ID系列(3)——数据库自增ID机制适合做分布式ID吗

    数据库自增ID机制原理介绍 在分布式里面,数据库的自增ID机制的主要原理是:数据库自增ID和mysql数据库的replace_into()函数实现的.这里的replace数据库自增ID和mysql数据 ...

  2. ZooKeeper 并不适合做注册中心

    zookeeper 的 CP 模型不适合注册中心 zookeeper 是一个非常优秀的项目,非常成熟,被大量的团队使用,但对于服务发现来讲,zookeeper 真的是一个错误的方案. 在 CAP 模型 ...

  3. k8s 集群管理和微服务 适合做啥

    k8s 集群管理和微服务 适合做啥 都知道k8s是集群 适合微服务 有很多教程 但你可以先了解他能干啥 traefix 是负载均衡工具 k8s 适合部署无状态依赖的微服务 可以按需求开启多个微服务 管 ...

  4. 一个JS效果竟然要研究一天,我是不是不适合做前端?

    前言 今天这篇文章的标题,显然是要搞事情.一个JS交互效果,居然花费了一天的宝贵时间才研究出来,我是不是不太适合做前端? 别急,搬好小板凳,正文从这开始- 本来今天下班回来感觉有点累,想着今天就别学了 ...

  5. 【前端】HTML中最适合做按钮的元素

    转载请注明出处:http://www.cnblogs.com/shamoyuu/p/6405914.html 可选的可以做按钮的元素有如下几个 a.input.button.div(span等) 场景 ...

  6. 基于jQuery适合做图片类网站的特效

    分享一款基于jquery适合做图片类网站的特效.这是一款鼠标经过图片滑动弹出标题效果代码.效果图如下: 在线预览   源码下载 实现的代码. html代码: <div class="c ...

  7. vue各生命周期适合做的业务逻辑

    一.实际项目中使用最多的Vue生命周期大概是  created  mounted  updated 二.各自适合做的业务逻辑 1. created   相当于是页面刚开始加载的状态,此时不能操作实例的 ...

  8. 屏幕实时显示键盘鼠标操作软件keycastow,适合做视频教程

    屏幕实时显示键盘鼠标操作软件keycastow,适合做视频教程 学习了:https://www.52pojie.cn/thread-535154-1-1.html 进行键盘按键的屏幕实时显示:

  9. 基于spring-boot的社区社交微信小程序,适合做脚手架、二次开发

    基于spring-boot的社区社交微信小程序,适合做脚手架.二次开发 代码地址如下:http://www.demodashi.com/demo/13867.html 1 概述 笔者做的一个后端基于s ...

  10. 分布式ID系列(2)——UUID适合做分布式ID吗

    UUID的生成策略: UUID的方式能生成一串唯一随机32位长度数据,它是无序的一串数据,按照开放软件基金会(OSF)制定的标准计算,UUID的生成用到了以太网卡地址.纳秒级时间.芯片ID码和许多可能 ...

随机推荐

  1. [爬虫]1.2.2 CSS选择器

    CSS (Cascading Style Sheets) 是一种样式表语言,用于描述HTML元素的样式.CSS选择器是CSS规则的一部分,它决定了CSS规则应用于哪些元素.在网络爬虫的开发中,我们经常 ...

  2. 学习 HBase

    1 由来 HBase 应大数据而生,是Apache Hadoop项目孵化而来的一种NoSQL数据库,HBase 是 Hadoop Database 的简称. 它的出现有以下几个原因: 大数据时代的到来 ...

  3. Nginx报错:nginx: [error] OpenEvent("Global\ngx_reload_14944") failed (2: The system cannot find the file specified)

    nginx.exe -s reload  执行报错 错误原因: Nginx 尚未启动导致,执行 start nginx 命令开启Nginx nginx.exe -s reload 至此问题解决

  4. 青少年CTF-Web-帝国CMS1-3通关记录

    0x01说明 本次进通过平台内题目进行,非真实环境. 帝国CMS01 首先下发题目链接 我们首先先找后台看看 后台地址为/e/admin/ 随后,经过dirsearch进行扫描,得到了一个www.zi ...

  5. 利用msfvenom生成木马

    msfvenom命令行选项如下: 英文原版: 中文版: Options: -p, --payload <payload> 指定需要使用的payload(攻击荷载).如果需要使用自定义的pa ...

  6. java学习阶段一

    扩展名默认没有打开 FIRST APP public class HelloWorld { public static void main (String[] args){ System.out.pr ...

  7. MIT6.s081/6.828 lectrue07:Page faults 以及 Lab5 心得

    本篇博客主要是复习 MIT6.s081/6.828 lectrue07:Page faults 以及记录 Lab5 :COW fork 的心得 值得一提的是,2020 年之前的版本第 5 个 lab ...

  8. 浅谈 Linux 下 vim 的使用

    Vim 是从 vi 发展出来的一个文本编辑器,其代码补全.编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用. Vi 是老式的字处理器,功能虽然已经很齐全了,但还有可以进步的地方.Vim 可 ...

  9. 图解Spark Graphx基于connectedComponents函数实现连通图底层原理

    原创/朱季谦 第一次写这么长的graphx源码解读,还是比较晦涩,有较多不足之处,争取改进. 一.连通图说明 连通图是指图中的任意两个顶点之间都存在路径相连而组成的一个子图. 用一个图来说明,例如,下 ...

  10. WPF学习 - 用鼠标移动、缩放、旋转图片(2)- 使用MatrixTransform

    在上一篇文章中,提到了以鼠标控制变换图片的方法. 这种方法在某种情况下可以,例如,直接在windows窗体上.但我发现,当把它封装到一个控件中的时候,它就不行了. 经过不断的尝试,我找到了一种更简单的 ...