• 论文题目: Reward uncertainty for exploration in preference-based reinforcement learning,是 ICLR 2022 的文章,分数 5 6 6 6,边缘接收。
  • 本博客为很草率的论文阅读笔记,【大概不能代替】阅读原文的工作量(不过原文也很 naive 就是了)。
  • method 速览:
    • 首先搞一个 reward model 的 ensemble,对这些 reward models 进行不同的初始化。收集 preference 数据时,拿不同的 batch data 来训不同的 reward models。
    • 认为,如果对于某个 (s,a) ,reward model 们的结果存在较大方差,则证明我们对该 state-action pair 的了解仍然较少。因此,为了生成信息量更大的 query,提高对学习奖励函数的信心,我们鼓励 agent 去访问 ensemble reward models 方差更大的 state-action pair。
    • 这种对 agent exploration 的鼓励,体现在 intrinsic reward 的形式。具体的, \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_t\hat r_\mathrm{std}(s_t,a_t)\) ,其中 r_mean 是外在奖励,是 ensemble reward models 输出 reward 的平均值,而 βt · \(\hat r_\mathrm{std}(s_t,a_t)\) 则是 intrinsic reward。
  • 论文材料:
  • (跟 pebble 一样,都是 Pieter Abbeel 组的工作)(pebble 的 本站博客


Open Review

  • 工作内容总结:

    • main contribution:

      • 一种针对 PBRL 问题的探索策略(RUNE),其中人类反馈被纳入训练制度。作者使用了一个 learned reward models 的 ensemble,并添加了基于分歧 disagreement(或不确定性 uncertainty)的 intrinsic reward。
      • 一种贝叶斯主动学习方法,以解决 PBRL 问题。为此,他们对 reward uncertainty 的认识不确定性(epistemic uncertainty)进行了建模,以从本质上激励 RL agent 进行探索。
      • an ensemble-based intrinsic reward,以改善 PBRL 的 exploration。main idea 是将 teacher preferences 中的不确定性纳入 intrinsic reward。An ensemble of reward functions 用来 capture 这种 uncertainty。
    • 实验:
      • benchmark:作者在 meta-world 的 robotic manipulation 任务上开展实验,agent 仅根据 preference 形式的 teacher feedback 进行学习,学习的任务是“关门”、“开门”、“打开抽屉”。
      • baselines:作者将他们的探索策略(RUNE)与基于偏好的学习方法 PEBBLE 相结合,并基于 PEBBLE 将 RUNE 与其他 exploration strategies 进行比较。
      • results:所提方法比其他方法有所改进。作者还使用 700 个而非 1000 个 feedback 与 PEBBLE 进行了比较,结果显示略有改善。
  • 审稿人评价 - 优点:
    • 简单、可扩展且易于实现。
  • 审稿人评价 - 缺点:
    • 性能不好:high-level 上有道理,但从实验结果来看,算法效果不大;在许多图中,难以看出不同方法之间的大差异。
    • 实验太少:
      • 仅使用一个问题(meta-world manipulation)和该问题中的 3 个任务。(后面又补实验了)
      • 实验是否证明了 claim 的 contribution。性能提升,是因为所提出的 RUNE exploration strategy,还是仅因为使用了更好的 reward estimator,即 ensemble?回答:是 RUNE,因为大家的 reward function 都 ensemble 了。
    • novelty:
      • incremental,but partially novel,low hanging fruit。
      • 认为这篇论文是 RL 中 epistemic uncertainty driven exploration 的直接应用,虽然方法简单,但没什么新颖性。
      • 既然没有 novelty,就应该多做一些实验(?)
    • 缺乏理论:在 reward prediction level 捕捉认识不确定性(epistemic uncertainty),比在 dynamics level 捕捉它更好。可以从理论上证明这一点,因为奖励不确定性也包含了状态转换的不确定性。(但是,这种理论要怎么处理啊……)
    • 解释的不太清楚:
      • ensemble 中的每个模型,都使用同一组 queries + feedback 进行训练嘛,还是在各自给定的数据下独立训练?回答:它们使用不同的随机初始化、相同的训练数据集(同一组反馈查询)、不同的 random batch 来训练;每个模型的参数都独立优化,以最小化各自 batch training data 的交叉熵损失。
      • 在 ensemble 中,可能有多个 reward function 产生相同的 preference,它们都是“正确的”,但彼此不同。此时,state rewards 的标准差是否为零?这仍然是一个有意义的不确定性估计吗?回答:我们将所有 predicted reward 通过 tanh 归一化到 (-1,1) ,相信这可以让 ensemble 中的 reward function 更 consistent,并使 uncertainty estimation(即标准差)有意义(?)
    • 缺假设(?):preference feedback 假设是稳定的 stationary、无环的 acyclic(偏序关系)。这两个假设经常被现实世界的人类偏好反馈所违反。

0 abstract

Conveying complex objectives to reinforcement learning (RL) agents often requires meticulous reward engineering. Preference-based RL methods are able to learn a more flexible reward model based on human preferences by actively incorporating human feedback, i.e. teacher’s preferences between two clips of behaviors. However, poor feedback-efficiency still remains a problem in current preference-based RL algorithms, as tailored human feedback is very expensive. To handle this issue, previous methods have mainly focused on improving query selection and policy initialization. At the same time, recent exploration methods have proven to be a recipe for improving sample-efficiency in RL. We present an exploration method specifically for preference-based RL algorithms. Our main idea is to design an intrinsic reward by measuring the novelty based on learned reward. Specifically, we utilize disagreement across ensemble of learned reward models. Our intuition is that disagreement in learned reward model reflects uncertainty in tailored human feedback and could be useful for exploration. Our experiments show that exploration bonus from uncertainty in learned reward improves both feedback- and sample-efficiency of preference-based RL algorithms on complex robot manipulation tasks from MetaWorld benchmarks, compared with other existing exploration methods that measure the novelty of state visitation.

摘要:

  • background:将复杂的目标传达给 RL 智能体,往往需要细致的 reward engineering。PBRL 能够通过主动结合human feedback(preference 形式)来学习更灵活的奖励模型,然而,当前的 PBRL 算法面临反馈效率(feedback-efficiency)的问题,因为定制的人类反馈非常昂贵。
  • literature:先前方法主要集中在 ① 改进 query selection 和 ② 策略初始化上(大概在说 pebble),同时在最近,exploration 方法已被证明是提高 RL sample efficiency 的有效手段。
  • method:提出了一种针对 PBRL 的探索方法,主要思想是设计一个 intrinsic reward,通过基于 learned reward 来衡量新颖性(novelty)。具体的,利用了 learned reward models 的 ensemble 中的分歧(disagreement)。直觉是,learned reward models 中的分歧(disagreement)反映了人类反馈的不确定性,可能对探索有用。
  • 实验表明,与其他现有的 measure the novelty of state visit 的探索方法相比,基于 learned reward 的 uncertainty 的exploration bonus,提高了 PBRL 在 MetaWorld benchmark 中,robot manipulation 任务上的 feedback efficiency 和 sample efficiency。

1 intro 速览

  • intro 的第三段,出现了 PBRL 关于 sampling strategy 的 literature。“这些方法旨在选择信息量更大的查询,以提高学习奖励函数的质量。”
  • 第三段还有关于策略初始化(policy initialization)的两个工作。(怎么感觉就是在说 pebble 呢)
  • intro 第四段是关于 exploration 的 literature。

2 related work 速览

  • Human-in-the-loop RL(HiL RL):除了狂引 pebble,感觉没什么信息量。
  • Exploration in RL: intrinsic reward - ① count-based methods、② curiosity、③ state entropy。
  • Trajectory generation in PBRL:(没有很看懂)

3 preliminaries 速览

PBRL 基础,如果想看的话,可参见 pebble 的博客

4 method: RUNE

RUNE: Reward UNcertainty for Exploration。

4.1 Reward uncertainty for exploration - 在 exploration 中使用 reward uncertainty

  • 使用基于 ensemble of reward functions 的 intrinsic reward, \(r^\mathrm{int}(s_t,a_t):=\hat r_\mathrm{std}(s_t,a_t)\) ,其中 \(\hat r_{std}\) 是所有 reward function 的经验标准差。
  • 直觉是,reward function 的高方差,表明人类偏好的高度不确定性。这意味着,对与这些 states 和 actions,我们收集的偏好仍然较少。因此,为了生成信息量更大的 query、并提高对学习奖励函数的信心,鼓励智能体访问奖励函数更不确定的 state-action pair。

4.2 Training objective based on intrinsic rewards - 基于 intrinsic rewards 的训练目标

  • 将外在奖励(根据 preference 学到的 reward model)与内在奖励(方差)加权求和, \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_tr^\mathrm{int}(s,a)\) 。
  • 其中,βt>0 是一个超参数,负责 timestep = t 时的 exploration - exploitation 权衡。
  • 随着训练,intrinsic reward(ensemble reward models 的方差)会趋于 0。
  • RUNE 算法见 Alg 1,在 Appendix A 里面。

5 experiments 速览

  • We designed our experiments to answer the following questions:

    我们设计了实验来回答以下问题:

    • Can exploration methods improve the sample- and feedback-efficiency of preference-based RL algorithms?

      探索方法能否提高 PBRL 的采样和反馈效率?
    • How does RUNE compare to other exploration schemes in preference-based RL setting?

      在 PRBL 设置中,RUNE 与其他探索方案相比如何?
    • How does RUNE influence reward learning in preference-based RL?

      RUNE 如何影响 PBRL 中的奖励学习?

(发现这篇文章跟 pebble 好像… 都是在第二页顶部放一个 method 框图,并且在 experiments 前放这种问题)

(是因为都出自 Pieter Abbeel 组嘛…)

在 5.4 ablation study 中,有一个以前没太见过的评价指标:Quality of learned reward functions。使用 Gleave 等人 (2020) 在 learned reward function 和 ground truth reward function 之间的等效策略不变比较 (Equivalent-Policy Invariant Comparison,EPIC) 距离作为评估指标。Gleave 等人(2020)认为,EPIC 距离是量化相同 transition dynamics 下不同 reward function 之间距离的可靠指标。见 Fig 4(c)。

6 discussion 懒得写了。

RLHF · PBRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)的更多相关文章

  1. ChatGPT 背后的“功臣”——RLHF 技术详解

    OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界.这一工作的背后是大型语言模型 (Large Language Mode ...

  2. 在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

    我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案. 请注意, ...

  3. .NET Core开发日志——Model Binding

    ASP.NET Core MVC中所提供的Model Binding功能简单但实用,其主要目的是将请求中包含的数据映射到action的方法参数中.这样就避免了开发者像在Web Forms时代那样需要从 ...

  4. 探索FSM (有限状态机)应用

    我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值.. 本文作者:木杪 有限状态机(FSM) 是计算机科学中的一种数学模型 ...

  5. Java SpringMVC框架学习(二)httpServeltRequest和Model传值的区别

    HttpServletRequest 为什么大多程序在controller中给jsp传值时使用model.addAttribute()而不使用httpServeletRequest.setAttrib ...

  6. httpServeltRequest和Model传值的区别

    需要将请求发过来的数据(或者说参数)传递到重定向的页面/转发的页面的时候,就要用到>>model.addAttribute("mine", UserUtils.getC ...

  7. ILM --interface logic model

    1.描述接口逻辑的模型. 2.包括 netlist  spef sdc def 3.所有以上文件只描述和接口相关的逻辑,其他逻辑一概排除 3.用于STA/PR/DC的hierachical flow, ...

  8. POI导入导出Excel(HSSF格式,User Model方式)

    1.POI说明 Apache POI是Apache软件基金会的开源代码库, POI提供对Microsoft Office格式档案读和写的功能. POI支持的格式: HSSF - 提供读写Microso ...

  9. Oceanbase读写分离方案探索与优化

    [作者] 许金柱,携程资深DBA,专注于分布式数据库研究及运维. 台枫,携程高级DBA,主要负责MySQL和OceanBase的运维. [前言]    读写分离,是一种将数据库的查询操作和写入操作分离 ...

  10. Java Agent场景性能测试分析优化经验分享

    摘要:本文将以Sermant的SpringBoot 注册插件的性能测试及优化过程为例,分享在Java Agent场景如何进行更好的性能测试优化及在Java Agent下需要着重注意的性能陷阱. 作者: ...

随机推荐

  1. python(django启动报错,之编码问题)UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb2 in position 0: invalid start byte

  2. Cilium系列-5-Cilium替换KubeProxy

    系列文章 Cilium 系列文章 前言 将 Kubernetes 的 CNI 从其他组件切换为 Cilium, 已经可以有效地提升网络的性能. 但是通过对 Cilium 不同模式的切换/功能的启用, ...

  3. Confluence 挖矿病毒 升级现有系统

    Confluence 挖矿病毒 升级现有系统 背景 服务器很多服务都很卡,通过检查发现是一起运行的confluence异常,被挖矿病毒挖矿,华为云和官网也有说明. 知道问题之后,处理方式就是将现有的问 ...

  4. QPushButton按钮的使用

    1 import sys 2 from PyQt5.QtCore import * 3 from PyQt5.QtGui import * 4 from PyQt5.QtWidgets import ...

  5. 终于搞懂了python2和python3的encode(编码)与decode(解码)

    终于搞懂了python2的编码 在python2下碰到非常多次的中文乱码,这次来梳理一下编码问题. 在python 2中默认编码是 ASCII,而在python 3中默认编码是 unicode. un ...

  6. 为什么 API 治理需要内部倡导

    API 治理旨在帮助人们通过 API 实现最大价值.但是,只有了解 API 是什么以及 API 的重要性,并且认识到 API 治理是在帮助他们而不是监管他们,才能实现这一目标.这就是为什么在任何 AP ...

  7. 带你上手基于Pytorch和Transformers的中文NLP训练框架

    本文分享自华为云社区<全套解决方案:基于pytorch.transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据>,作者: 汀丶 . 1.简介 目标: ...

  8. Programming abstractions in C阅读笔记:p132-p137

    <Programming Abstractions In C>学习第53天,p132-p137,3.2小节"strings"总结如下: 一.技术总结 3.2小节介绍了字 ...

  9. 前端Vue仿企查查 天眼查知识产权标准信息列表组件

    ​ 引入Vue仿企查查天眼查知识产权标准信息列表组件 随着技术的不断发展,传统的开发方式使得系统的复杂度越来越高.在传统开发过程中,一个小小的改动或者一个小功能的增加可能会导致整体逻辑的修改,造成牵一 ...

  10. 【题解】Educational Codeforces Round 141(CF1783)

    评价:educational A.Make it Beautiful 题目描述: 如果一个数组中存在一个数恰好等于该数前面所有数之和,那么这个数组就是丑的.如果一个数组不是丑的,就是美的. 比如说: ...