RLHF · PBRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

论文题目： Reward uncertainty for exploration in preference-based reinforcement learning，是 ICLR 2022 的文章，分数 5 6 6 6，边缘接收。
本博客为很草率的论文阅读笔记，【大概不能代替】阅读原文的工作量（不过原文也很 naive 就是了）。
method 速览：
- 首先搞一个 reward model 的 ensemble，对这些 reward models 进行不同的初始化。收集 preference 数据时，拿不同的 batch data 来训不同的 reward models。
- 认为，如果对于某个 (s,a) ，reward model 们的结果存在较大方差，则证明我们对该 state-action pair 的了解仍然较少。因此，为了生成信息量更大的 query，提高对学习奖励函数的信心，我们鼓励 agent 去访问 ensemble reward models 方差更大的 state-action pair。
- 这种对 agent exploration 的鼓励，体现在 intrinsic reward 的形式。具体的， \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_t\hat r_\mathrm{std}(s_t,a_t)\) ，其中 r_mean 是外在奖励，是 ensemble reward models 输出 reward 的平均值，而 βt · \(\hat r_\mathrm{std}(s_t,a_t)\) 则是 intrinsic reward。
论文材料：
- Open Review：https://openreview.net/forum?id=OWZVD-l-ZrC
- pdf 版本：https://arxiv.org/pdf/2205.12401
- html 版本：https://ar5iv.labs.arxiv.org/html/2205.12401
- 代码：https://github.com/rll-research/rune （不确定是官方代码 / 复现）
（跟 pebble 一样，都是 Pieter Abbeel 组的工作）（pebble 的本站博客）

Open Review
0 abstract
1 intro 速览
2 related work 速览
3 preliminaries 速览
4 method： RUNE
- 4.1 Reward uncertainty for exploration - 在 exploration 中使用 reward uncertainty
- 4.2 Training objective based on intrinsic rewards - 基于 intrinsic rewards 的训练目标
5 experiments 速览

Open Review

工作内容总结：
- main contribution：
  - 一种针对 PBRL 问题的探索策略（RUNE），其中人类反馈被纳入训练制度。作者使用了一个 learned reward models 的 ensemble，并添加了基于分歧 disagreement（或不确定性 uncertainty）的 intrinsic reward。
  - 一种贝叶斯主动学习方法，以解决 PBRL 问题。为此，他们对 reward uncertainty 的认识不确定性（epistemic uncertainty）进行了建模，以从本质上激励 RL agent 进行探索。
  - an ensemble-based intrinsic reward，以改善 PBRL 的 exploration。main idea 是将 teacher preferences 中的不确定性纳入 intrinsic reward。An ensemble of reward functions 用来 capture 这种 uncertainty。
- 实验：
  - benchmark：作者在 meta-world 的 robotic manipulation 任务上开展实验，agent 仅根据 preference 形式的 teacher feedback 进行学习，学习的任务是“关门”、“开门”、“打开抽屉”。
  - baselines：作者将他们的探索策略（RUNE）与基于偏好的学习方法 PEBBLE 相结合，并基于 PEBBLE 将 RUNE 与其他 exploration strategies 进行比较。
  - results：所提方法比其他方法有所改进。作者还使用 700 个而非 1000 个 feedback 与 PEBBLE 进行了比较，结果显示略有改善。
审稿人评价 - 优点：
- 简单、可扩展且易于实现。
审稿人评价 - 缺点：
- 性能不好：high-level 上有道理，但从实验结果来看，算法效果不大；在许多图中，难以看出不同方法之间的大差异。
- 实验太少：
  - 仅使用一个问题（meta-world manipulation）和该问题中的 3 个任务。（后面又补实验了）
  - 实验是否证明了 claim 的 contribution。性能提升，是因为所提出的 RUNE exploration strategy，还是仅因为使用了更好的 reward estimator，即 ensemble？回答：是 RUNE，因为大家的 reward function 都 ensemble 了。
- novelty：
  - incremental，but partially novel，low hanging fruit。
  - 认为这篇论文是 RL 中 epistemic uncertainty driven exploration 的直接应用，虽然方法简单，但没什么新颖性。
  - 既然没有 novelty，就应该多做一些实验（？）
- 缺乏理论：在 reward prediction level 捕捉认识不确定性（epistemic uncertainty），比在 dynamics level 捕捉它更好。可以从理论上证明这一点，因为奖励不确定性也包含了状态转换的不确定性。（但是，这种理论要怎么处理啊……）
- 解释的不太清楚：
  - ensemble 中的每个模型，都使用同一组 queries + feedback 进行训练嘛，还是在各自给定的数据下独立训练？回答：它们使用不同的随机初始化、相同的训练数据集（同一组反馈查询）、不同的 random batch 来训练；每个模型的参数都独立优化，以最小化各自 batch training data 的交叉熵损失。
  - 在 ensemble 中，可能有多个 reward function 产生相同的 preference，它们都是“正确的”，但彼此不同。此时，state rewards 的标准差是否为零？这仍然是一个有意义的不确定性估计吗？回答：我们将所有 predicted reward 通过 tanh 归一化到 (-1,1) ，相信这可以让 ensemble 中的 reward function 更 consistent，并使 uncertainty estimation（即标准差）有意义（？）
- 缺假设（？）：preference feedback 假设是稳定的 stationary、无环的 acyclic（偏序关系）。这两个假设经常被现实世界的人类偏好反馈所违反。

0 abstract

Conveying complex objectives to reinforcement learning (RL) agents often requires meticulous reward engineering. Preference-based RL methods are able to learn a more flexible reward model based on human preferences by actively incorporating human feedback, i.e. teacher’s preferences between two clips of behaviors. However, poor feedback-efficiency still remains a problem in current preference-based RL algorithms, as tailored human feedback is very expensive. To handle this issue, previous methods have mainly focused on improving query selection and policy initialization. At the same time, recent exploration methods have proven to be a recipe for improving sample-efficiency in RL. We present an exploration method specifically for preference-based RL algorithms. Our main idea is to design an intrinsic reward by measuring the novelty based on learned reward. Specifically, we utilize disagreement across ensemble of learned reward models. Our intuition is that disagreement in learned reward model reflects uncertainty in tailored human feedback and could be useful for exploration. Our experiments show that exploration bonus from uncertainty in learned reward improves both feedback- and sample-efficiency of preference-based RL algorithms on complex robot manipulation tasks from MetaWorld benchmarks, compared with other existing exploration methods that measure the novelty of state visitation.

摘要：

background：将复杂的目标传达给 RL 智能体，往往需要细致的 reward engineering。PBRL 能够通过主动结合human feedback（preference 形式）来学习更灵活的奖励模型，然而，当前的 PBRL 算法面临反馈效率（feedback-efficiency）的问题，因为定制的人类反馈非常昂贵。
literature：先前方法主要集中在 ① 改进 query selection 和 ② 策略初始化上（大概在说 pebble），同时在最近，exploration 方法已被证明是提高 RL sample efficiency 的有效手段。
method：提出了一种针对 PBRL 的探索方法，主要思想是设计一个 intrinsic reward，通过基于 learned reward 来衡量新颖性（novelty）。具体的，利用了 learned reward models 的 ensemble 中的分歧（disagreement）。直觉是，learned reward models 中的分歧（disagreement）反映了人类反馈的不确定性，可能对探索有用。
实验表明，与其他现有的 measure the novelty of state visit 的探索方法相比，基于 learned reward 的 uncertainty 的exploration bonus，提高了 PBRL 在 MetaWorld benchmark 中，robot manipulation 任务上的 feedback efficiency 和 sample efficiency。

1 intro 速览

intro 的第三段，出现了 PBRL 关于 sampling strategy 的 literature。“这些方法旨在选择信息量更大的查询，以提高学习奖励函数的质量。”
第三段还有关于策略初始化（policy initialization）的两个工作。（怎么感觉就是在说 pebble 呢）
intro 第四段是关于 exploration 的 literature。

2 related work 速览

Human-in-the-loop RL（HiL RL）：除了狂引 pebble，感觉没什么信息量。
Exploration in RL： intrinsic reward - ① count-based methods、② curiosity、③ state entropy。
Trajectory generation in PBRL：（没有很看懂）

3 preliminaries 速览

PBRL 基础，如果想看的话，可参见 pebble 的博客。

4 method： RUNE

RUNE: Reward UNcertainty for Exploration。

4.1 Reward uncertainty for exploration - 在 exploration 中使用 reward uncertainty

使用基于 ensemble of reward functions 的 intrinsic reward， \(r^\mathrm{int}(s_t,a_t):=\hat r_\mathrm{std}(s_t,a_t)\) ，其中 \(\hat r_{std}\) 是所有 reward function 的经验标准差。
直觉是，reward function 的高方差，表明人类偏好的高度不确定性。这意味着，对与这些 states 和 actions，我们收集的偏好仍然较少。因此，为了生成信息量更大的 query、并提高对学习奖励函数的信心，鼓励智能体访问奖励函数更不确定的 state-action pair。

4.2 Training objective based on intrinsic rewards - 基于 intrinsic rewards 的训练目标

将外在奖励（根据 preference 学到的 reward model）与内在奖励（方差）加权求和， \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_tr^\mathrm{int}(s,a)\) 。
其中，βt＞0 是一个超参数，负责 timestep = t 时的 exploration - exploitation 权衡。
随着训练，intrinsic reward（ensemble reward models 的方差）会趋于 0。
RUNE 算法见 Alg 1，在 Appendix A 里面。

5 experiments 速览

We designed our experiments to answer the following questions:

我们设计了实验来回答以下问题：
- Can exploration methods improve the sample- and feedback-efficiency of preference-based RL algorithms?
  
  探索方法能否提高 PBRL 的采样和反馈效率？
- How does RUNE compare to other exploration schemes in preference-based RL setting?
  
  在 PRBL 设置中，RUNE 与其他探索方案相比如何？
- How does RUNE influence reward learning in preference-based RL?
  
  RUNE 如何影响 PBRL 中的奖励学习？

（发现这篇文章跟 pebble 好像… 都是在第二页顶部放一个 method 框图，并且在 experiments 前放这种问题）

（是因为都出自 Pieter Abbeel 组嘛…）

在 5.4 ablation study 中，有一个以前没太见过的评价指标：Quality of learned reward functions。使用 Gleave 等人（2020）在 learned reward function 和 ground truth reward function 之间的等效策略不变比较（Equivalent-Policy Invariant Comparison，EPIC）距离作为评估指标。Gleave 等人（2020）认为，EPIC 距离是量化相同 transition dynamics 下不同 reward function 之间距离的可靠指标。见 Fig 4(c)。

6 discussion 懒得写了。