• 论文题目: Reward uncertainty for exploration in preference-based reinforcement learning,是 ICLR 2022 的文章,分数 5 6 6 6,边缘接收。
  • 本博客为很草率的论文阅读笔记,【大概不能代替】阅读原文的工作量(不过原文也很 naive 就是了)。
  • method 速览:
    • 首先搞一个 reward model 的 ensemble,对这些 reward models 进行不同的初始化。收集 preference 数据时,拿不同的 batch data 来训不同的 reward models。
    • 认为,如果对于某个 (s,a) ,reward model 们的结果存在较大方差,则证明我们对该 state-action pair 的了解仍然较少。因此,为了生成信息量更大的 query,提高对学习奖励函数的信心,我们鼓励 agent 去访问 ensemble reward models 方差更大的 state-action pair。
    • 这种对 agent exploration 的鼓励,体现在 intrinsic reward 的形式。具体的, \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_t\hat r_\mathrm{std}(s_t,a_t)\) ,其中 r_mean 是外在奖励,是 ensemble reward models 输出 reward 的平均值,而 βt · \(\hat r_\mathrm{std}(s_t,a_t)\) 则是 intrinsic reward。
  • 论文材料:
  • (跟 pebble 一样,都是 Pieter Abbeel 组的工作)(pebble 的 本站博客


Open Review

  • 工作内容总结:

    • main contribution:

      • 一种针对 PBRL 问题的探索策略(RUNE),其中人类反馈被纳入训练制度。作者使用了一个 learned reward models 的 ensemble,并添加了基于分歧 disagreement(或不确定性 uncertainty)的 intrinsic reward。
      • 一种贝叶斯主动学习方法,以解决 PBRL 问题。为此,他们对 reward uncertainty 的认识不确定性(epistemic uncertainty)进行了建模,以从本质上激励 RL agent 进行探索。
      • an ensemble-based intrinsic reward,以改善 PBRL 的 exploration。main idea 是将 teacher preferences 中的不确定性纳入 intrinsic reward。An ensemble of reward functions 用来 capture 这种 uncertainty。
    • 实验:
      • benchmark:作者在 meta-world 的 robotic manipulation 任务上开展实验,agent 仅根据 preference 形式的 teacher feedback 进行学习,学习的任务是“关门”、“开门”、“打开抽屉”。
      • baselines:作者将他们的探索策略(RUNE)与基于偏好的学习方法 PEBBLE 相结合,并基于 PEBBLE 将 RUNE 与其他 exploration strategies 进行比较。
      • results:所提方法比其他方法有所改进。作者还使用 700 个而非 1000 个 feedback 与 PEBBLE 进行了比较,结果显示略有改善。
  • 审稿人评价 - 优点:
    • 简单、可扩展且易于实现。
  • 审稿人评价 - 缺点:
    • 性能不好:high-level 上有道理,但从实验结果来看,算法效果不大;在许多图中,难以看出不同方法之间的大差异。
    • 实验太少:
      • 仅使用一个问题(meta-world manipulation)和该问题中的 3 个任务。(后面又补实验了)
      • 实验是否证明了 claim 的 contribution。性能提升,是因为所提出的 RUNE exploration strategy,还是仅因为使用了更好的 reward estimator,即 ensemble?回答:是 RUNE,因为大家的 reward function 都 ensemble 了。
    • novelty:
      • incremental,but partially novel,low hanging fruit。
      • 认为这篇论文是 RL 中 epistemic uncertainty driven exploration 的直接应用,虽然方法简单,但没什么新颖性。
      • 既然没有 novelty,就应该多做一些实验(?)
    • 缺乏理论:在 reward prediction level 捕捉认识不确定性(epistemic uncertainty),比在 dynamics level 捕捉它更好。可以从理论上证明这一点,因为奖励不确定性也包含了状态转换的不确定性。(但是,这种理论要怎么处理啊……)
    • 解释的不太清楚:
      • ensemble 中的每个模型,都使用同一组 queries + feedback 进行训练嘛,还是在各自给定的数据下独立训练?回答:它们使用不同的随机初始化、相同的训练数据集(同一组反馈查询)、不同的 random batch 来训练;每个模型的参数都独立优化,以最小化各自 batch training data 的交叉熵损失。
      • 在 ensemble 中,可能有多个 reward function 产生相同的 preference,它们都是“正确的”,但彼此不同。此时,state rewards 的标准差是否为零?这仍然是一个有意义的不确定性估计吗?回答:我们将所有 predicted reward 通过 tanh 归一化到 (-1,1) ,相信这可以让 ensemble 中的 reward function 更 consistent,并使 uncertainty estimation(即标准差)有意义(?)
    • 缺假设(?):preference feedback 假设是稳定的 stationary、无环的 acyclic(偏序关系)。这两个假设经常被现实世界的人类偏好反馈所违反。

0 abstract

Conveying complex objectives to reinforcement learning (RL) agents often requires meticulous reward engineering. Preference-based RL methods are able to learn a more flexible reward model based on human preferences by actively incorporating human feedback, i.e. teacher’s preferences between two clips of behaviors. However, poor feedback-efficiency still remains a problem in current preference-based RL algorithms, as tailored human feedback is very expensive. To handle this issue, previous methods have mainly focused on improving query selection and policy initialization. At the same time, recent exploration methods have proven to be a recipe for improving sample-efficiency in RL. We present an exploration method specifically for preference-based RL algorithms. Our main idea is to design an intrinsic reward by measuring the novelty based on learned reward. Specifically, we utilize disagreement across ensemble of learned reward models. Our intuition is that disagreement in learned reward model reflects uncertainty in tailored human feedback and could be useful for exploration. Our experiments show that exploration bonus from uncertainty in learned reward improves both feedback- and sample-efficiency of preference-based RL algorithms on complex robot manipulation tasks from MetaWorld benchmarks, compared with other existing exploration methods that measure the novelty of state visitation.

摘要:

  • background:将复杂的目标传达给 RL 智能体,往往需要细致的 reward engineering。PBRL 能够通过主动结合human feedback(preference 形式)来学习更灵活的奖励模型,然而,当前的 PBRL 算法面临反馈效率(feedback-efficiency)的问题,因为定制的人类反馈非常昂贵。
  • literature:先前方法主要集中在 ① 改进 query selection 和 ② 策略初始化上(大概在说 pebble),同时在最近,exploration 方法已被证明是提高 RL sample efficiency 的有效手段。
  • method:提出了一种针对 PBRL 的探索方法,主要思想是设计一个 intrinsic reward,通过基于 learned reward 来衡量新颖性(novelty)。具体的,利用了 learned reward models 的 ensemble 中的分歧(disagreement)。直觉是,learned reward models 中的分歧(disagreement)反映了人类反馈的不确定性,可能对探索有用。
  • 实验表明,与其他现有的 measure the novelty of state visit 的探索方法相比,基于 learned reward 的 uncertainty 的exploration bonus,提高了 PBRL 在 MetaWorld benchmark 中,robot manipulation 任务上的 feedback efficiency 和 sample efficiency。

1 intro 速览

  • intro 的第三段,出现了 PBRL 关于 sampling strategy 的 literature。“这些方法旨在选择信息量更大的查询,以提高学习奖励函数的质量。”
  • 第三段还有关于策略初始化(policy initialization)的两个工作。(怎么感觉就是在说 pebble 呢)
  • intro 第四段是关于 exploration 的 literature。

2 related work 速览

  • Human-in-the-loop RL(HiL RL):除了狂引 pebble,感觉没什么信息量。
  • Exploration in RL: intrinsic reward - ① count-based methods、② curiosity、③ state entropy。
  • Trajectory generation in PBRL:(没有很看懂)

3 preliminaries 速览

PBRL 基础,如果想看的话,可参见 pebble 的博客

4 method: RUNE

RUNE: Reward UNcertainty for Exploration。

4.1 Reward uncertainty for exploration - 在 exploration 中使用 reward uncertainty

  • 使用基于 ensemble of reward functions 的 intrinsic reward, \(r^\mathrm{int}(s_t,a_t):=\hat r_\mathrm{std}(s_t,a_t)\) ,其中 \(\hat r_{std}\) 是所有 reward function 的经验标准差。
  • 直觉是,reward function 的高方差,表明人类偏好的高度不确定性。这意味着,对与这些 states 和 actions,我们收集的偏好仍然较少。因此,为了生成信息量更大的 query、并提高对学习奖励函数的信心,鼓励智能体访问奖励函数更不确定的 state-action pair。

4.2 Training objective based on intrinsic rewards - 基于 intrinsic rewards 的训练目标

  • 将外在奖励(根据 preference 学到的 reward model)与内在奖励(方差)加权求和, \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_tr^\mathrm{int}(s,a)\) 。
  • 其中,βt>0 是一个超参数,负责 timestep = t 时的 exploration - exploitation 权衡。
  • 随着训练,intrinsic reward(ensemble reward models 的方差)会趋于 0。
  • RUNE 算法见 Alg 1,在 Appendix A 里面。

5 experiments 速览

  • We designed our experiments to answer the following questions:

    我们设计了实验来回答以下问题:

    • Can exploration methods improve the sample- and feedback-efficiency of preference-based RL algorithms?

      探索方法能否提高 PBRL 的采样和反馈效率?
    • How does RUNE compare to other exploration schemes in preference-based RL setting?

      在 PRBL 设置中,RUNE 与其他探索方案相比如何?
    • How does RUNE influence reward learning in preference-based RL?

      RUNE 如何影响 PBRL 中的奖励学习?

(发现这篇文章跟 pebble 好像… 都是在第二页顶部放一个 method 框图,并且在 experiments 前放这种问题)

(是因为都出自 Pieter Abbeel 组嘛…)

在 5.4 ablation study 中,有一个以前没太见过的评价指标:Quality of learned reward functions。使用 Gleave 等人 (2020) 在 learned reward function 和 ground truth reward function 之间的等效策略不变比较 (Equivalent-Policy Invariant Comparison,EPIC) 距离作为评估指标。Gleave 等人(2020)认为,EPIC 距离是量化相同 transition dynamics 下不同 reward function 之间距离的可靠指标。见 Fig 4(c)。

6 discussion 懒得写了。

RLHF · PBRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)的更多相关文章

  1. ChatGPT 背后的“功臣”——RLHF 技术详解

    OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界.这一工作的背后是大型语言模型 (Large Language Mode ...

  2. 在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

    我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案. 请注意, ...

  3. .NET Core开发日志——Model Binding

    ASP.NET Core MVC中所提供的Model Binding功能简单但实用,其主要目的是将请求中包含的数据映射到action的方法参数中.这样就避免了开发者像在Web Forms时代那样需要从 ...

  4. 探索FSM (有限状态机)应用

    我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值.. 本文作者:木杪 有限状态机(FSM) 是计算机科学中的一种数学模型 ...

  5. Java SpringMVC框架学习(二)httpServeltRequest和Model传值的区别

    HttpServletRequest 为什么大多程序在controller中给jsp传值时使用model.addAttribute()而不使用httpServeletRequest.setAttrib ...

  6. httpServeltRequest和Model传值的区别

    需要将请求发过来的数据(或者说参数)传递到重定向的页面/转发的页面的时候,就要用到>>model.addAttribute("mine", UserUtils.getC ...

  7. ILM --interface logic model

    1.描述接口逻辑的模型. 2.包括 netlist  spef sdc def 3.所有以上文件只描述和接口相关的逻辑,其他逻辑一概排除 3.用于STA/PR/DC的hierachical flow, ...

  8. POI导入导出Excel(HSSF格式,User Model方式)

    1.POI说明 Apache POI是Apache软件基金会的开源代码库, POI提供对Microsoft Office格式档案读和写的功能. POI支持的格式: HSSF - 提供读写Microso ...

  9. Oceanbase读写分离方案探索与优化

    [作者] 许金柱,携程资深DBA,专注于分布式数据库研究及运维. 台枫,携程高级DBA,主要负责MySQL和OceanBase的运维. [前言]    读写分离,是一种将数据库的查询操作和写入操作分离 ...

  10. Java Agent场景性能测试分析优化经验分享

    摘要:本文将以Sermant的SpringBoot 注册插件的性能测试及优化过程为例,分享在Java Agent场景如何进行更好的性能测试优化及在Java Agent下需要着重注意的性能陷阱. 作者: ...

随机推荐

  1. 利用python分析pdf数据,分析上市公司财报

    import re import os.path import matplotlib import matplotlib.pyplot as plt from pdfminer.pdfparser i ...

  2. Linux文件管理知识查找文件

    Linux文件管理知识:查找文件 前几篇文章一一介绍了LINUX进程管理控制命令及网络层面的知识体系,综所周知,一个linux系统是由很多文件组成的,那么既然有那么多文件,那我们该如何管理这些文件呢? ...

  3. 从原理聊JVM(四):JVM中的方法调用原理

    1 引言 多态是Java语言极为重要的一个特性,可以说是Java语言动态性的根本,那么线程执行一个方法时到底在内存中经历了什么,JVM又是如何确定方法执行版本的呢? 2 栈帧 JVM中由栈帧存储方法的 ...

  4. python命令行解析模块argparse

    argparse是Python标准库中推荐的命令行解析模块 code01: tmp.py import argparse parser = argparse.ArgumentParser(descri ...

  5. 文心一言 VS 讯飞星火 VS chatgpt (79)-- 算法导论7.4 4题

    四.请用go语言,证明:RANDOMIZED-QUICKSORT 期望运行时间是 Ω(nlgn). 文心一言: 首先,为了证明RANDOMIZED-QUICKSORT的期望运行时间是Ω(nlg n), ...

  6. Spark RDD惰性计算的自主优化

    原创/朱季谦 RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果.故而就需要用到转换和行动的算子. Spark ...

  7. CodeForces 1367E Necklace Assembly

    题意 给定一个字符串\(s\),长度为\(n\),一根项链为一个环,定义一根项链为\(k-beautiful\),则该项链顺时针转\(k\)下后与原项链相等,给出\(k\),请构造一根最长的\(k-b ...

  8. .NET开源最全的第三方登录整合库 - CollectiveOAuth

    前言 我相信很多同学都对接过各种各样的第三方平台的登录授权获取用户信息(如:微信登录.支付宝登录.GitHub登录等等).今天给大家推荐一个.NET开源最全的第三方登录整合库:CollectiveOA ...

  9. QA|20221010|SecureCRT|我们5分钟前执行了a指令,但因为执行b指令打印了大量日志,把指令记录冲掉了,以后如何避免这种情况?

    Q:我们5分钟前执行了a指令,但因为执行b指令打印了大量日志,把指令记录冲掉了,以后如何避免这种情况? A:如下配置

  10. linux tcpdump 使用小结(二)

    转载请注明出处: TCPDump是一个功能强大的网络抓包工具,它能够在命令行界面捕获.分析和解析网络数据包.下面是TCPDump命令的使用总结,包括使用语法.常用参数说明等: 使用语法:tcpdump ...