PrefPPO 首次(?)出现在 PEBBLE,作为 pebble 的一个 baseline,是用 PPO 复现 Christiano et al. (2017) 的 PbRL 算法。

For evaluation, we compare to Christiano et al. (2017), which is the current state-of-the-art approach using the same type of feedback. The primary differences in our method are (1) the introduction of unsupervised pre-training, (2) the accommodation of off-policy RL, and (3) entropy-based sampling. We re-implemented Christiano et al. (2017) using the state-of-the-art on-policy RL algorithm: PPO (Schulman et al., 2017). We use the same reward learning framework and ensemble disagreement-based sampling as they proposed. We refer to this baseline as Preference PPO.

Christiano et al. (2017) 这篇文章的题目是 Deep reinforcement learning from human preferences,发表在 NeurIPS 2017;arxiv:https://arxiv.org/abs/1706.03741 ,GitHub:https://github.com/mrahtz/learning-from-human-preferences(用 TensorFlow 实现的)。

01 论文阅读:Deep reinforcement learning from human preferences

1.1 intro

intro:

  • 大规模应用 RL 的限制是,许多任务涉及复杂、定义不明确或难以指定的目标。(举了一些例子)
  • 如果有人类 demo(专家数据),可以 inverse RL 或 behavior cloning,但是很多任务难以给出人类 demo,比如控制奇形怪状的 跟人类很不像的机器人。
  • 我们的 PbRL 思路:从 human feedback 中学习 reward model,当作 RL 中的奖励函数。这可以解决上面的两个问题,允许 non-expert user 来给 feedback,并且(据论文说)可以节省一个数量级的 feedback 数量。
  • human feedback 的形式:让 human 看两段 video,指出哪一段更好(即 preference)。

Related Work:

  • 列举了很多从 human 打分或排序中学 RL 的工作。还有一些工作在 RL 之外的 setting 使用 preference。
  • Akrour 2012 和 2014 年的工作,貌似也算是 PbRL,但他们的方法是在整个 trajectory 上打 preference,不像我们只需要比较两个较短的 video segment。
    • Akrour 2012:April: Active preference learning-based reinforcement learning. Joint European Conference on Machine Learning and Knowledge Discovery in Databases(好像是 ECML PKDD,不知道是什么概念)2012。
    • Akrour 2014:Programming by feedback. ICML 2014。
  • 从 feedback 里学 reward model 的方法,貌似跟 Wilson et al. (2012)工作比较像。
    • Wilson et al. (2012):A Bayesian approach for policy learning from trajectory preference queries. NeurIPS 2012。

1.2 Method

首先介绍了一下 PbRL 的 setting:

  • 定义 segment \(\sigma = ((s_0, a_0), ... (s_{k-1}, a_{k-1}))\) ,是长为 k 的轨迹段。
  • 定义 preference \(\sigma_0\succ\sigma_1\) 表示轨迹段 σ0 比 σ1 更好。接下来,我们用这些 preference 数据学出 reward model。

然后是 method:(发现这篇文章好像没给伪代码)

  • 我们要维护一个 reward model \(\hat r\),和一个 policy \(\pi\) 。
  • 大概重复这样的过程:
    • 用目前的 policy \(\pi\) 生成 query \((\sigma_0,\sigma_1)\) ;
    • 把 query 给 human 比较得到 preference 数据;
    • 用新 preference 数据学 reward model;
    • 把 reward model 当作奖励函数,去学 RL、更新 policy \(\pi\) 。

① 把 reward model 当作奖励函数,去学 RL、更新 policy \(\pi\) :

  • 论文声称 \(\hat r\) 可能是非平稳的(因为 reward model 一直在更新),所以他们想用 policy gradient 方法,因为 policy gradient 方法对奖励函数具有鲁棒性。
  • 他们用 A2C(advantage actor-critic)做 Atari,用 TRPO 做 MuJoco。调整了 TRPO 的 entropy bonus,MuJoCo 的 swimmer 任务使用 0.001 的 entropy bonus,其他任务使用 0.01 的 entropy bonus。
  • 把 reward model 产生的 \(\hat r\) 归一化到 0 均值 1 标准差。

② 用目前的 policy \(\pi\) 生成 query \((\sigma_0,\sigma_1)\):

  • preference 数据的形式是 \((\sigma_0,\sigma_1, p)\),其中 p 是一个 {0,1} 上的分布。
  • 如果 human 能打出 preference,那么 p = 0 或 1。如果 human 分不出来,则 p 是 01 上的均匀分布。如果 human 感觉 query 是不可比的,那么不会使用这个 query 学 reward model。

③ 用新 preference 数据学 reward model:

  • 我们使用 Bradley-Terry model 来建模 \(\hat r\) 和 preference 之间的关系:

  • \[\hat P[\sigma_0\succ \sigma_1] = \frac{\exp\sum\hat r(s_t^0,a_t^0)}
    {\exp\sum\hat r(s_t^0,a_t^0) + \exp\sum\hat r(s_t^1,a_t^1)} ~~.
    \tag{1}
    \]
  • 然后,我们去优化 cross-entropy loss:

  • \[L(\hat r) = -\sum_{(\sigma_0,\sigma_1,p)} \left(
    p(0)\log \hat P[\sigma_0\succ \sigma_1] + p(1)\hat P[\sigma_1\succ \sigma_0]\right)
    \tag{2}
    \]
  • (以上流程已经变成经典的 PbRL 做法)

  • 他们还加了三个小 trick:

    • 对 reward model 进行 ensemble,学 n 个独立的 reward model,用它们每个人单独归一化后的值 取平均 作为 \(\hat r\) 的值。
    • 把一部分 preference 数据拿出来做验证集,以调整神秘的 L2 正则化的权重参数,并添加神秘 dropout,以避免 reward model 过拟合(?)
    • label smoothing(?)貌似是当 human 打出 p = 0 的时候,认为 p = 0 的概率是 0.95,p = 1 的概率是 0.05。

query selection:

  • 即,我们现在有很多 trajectory,要从里面截出 segment、组成 segment pair,作为 query 送给人去比较。应该如何选取 segment pair 作为 query?
  • 这里使用了基于 disagreement 的 query selection,貌似是让每个 reward model 给出 \(\hat P[\sigma_0\succ \sigma_1]\) 的值,计算这些值的方差,然后选一个方差最大的 query。

1.3 实验结果

算法是在 TensorFlow 中写的。Github:https://github.com/mrahtz/learning-from-human-preferences(貌似不是官方代码…)

  • preference 一些是人类打的,另一些是 scripted teacher 打的。

    • Appendix B 中有让人类打 preference 的一些 prompt,感觉很有趣。
    • scripted teacher:上面公式 (1) 中用任务的真 reward 替换 \(\hat r\),反向生成 preference。
  • MuJoCo 实验中,分别使用真 reward、1400 700 350 个 scripted teacher queries、和 750 个 human queries。
    • (个人理解,这里的 750 human queries 包含的 label 少于 750 个,因为人类认为不可比的 query 应该会直接扔掉)
    • MuJoCo 实验中,很多 task 都做了 1e7 步,相比 pebble 来说学的很慢;pebble 1e6 步就能学出来。
  • Atari 实验中,分别使用真 reward、10k 5.6k 3.3k 个 scripted teacher queries、和 5.5k 个 human queries。(好多 human label…… 这要打好久好久;如此充足的实验,真是 solid work 呀)
  • 这些实验没有得出 human label 比 scripted teacher 好用的结论,论文说,可能是因为 human 犯错、不同 human 的打标签准则不一样等原因。
  • 一些 Appendix A 里的实验细节:
    • 有些环境会提前结束 episode,比如当 agent 倒下、死亡或到达目的地(?)他们声称这种 done 信号可能会提供 task 信息,因此魔改了环境,规避掉了 episode 长度可变的情况(?)使得 agent 死亡时得到一个大惩罚,或者 agent 到达目的地的时候直接 reset env 而不 done(?)
    • 在 MuJoCo 中,在实验开始前直接用随机 policy 打 25% 的 queries,然后以一个随时间递减的 rate 来打 preference;segment length = 15 - 60,取决于具体 task。
    • 在 Atari 中,reward model 和 policy 的输入是一样的,都是一个处理图像的卷积网络(无端联想,听说 DPO 的主要贡献是可以省掉 LLM RLHF 的 reward model,因为 reward model 应该跟 policy 一样大,所以省掉它可以节约很多显存)。
    • Atari 其实跑的是 A3C,在实验开始前打 500 个 query,segment length = 25。
  • 3.2 节还在 MuJoCo 里学习了 hopper 后空翻的 novel behavior,据文章说,可以保证后空翻后 hopper 脚着地。使用 900 个 human query 学习的。3.2 节还有其他的 novel behavior。
  • 3.3 节做了非常充分的 ablation study。发现 segment 长度 = 1 貌似会性能变差,reward model 不加正则化影响不大,把 query selection 改成随机好像也影响不大,以及,最好边更新 policy 边拿最新轨迹打 preference。

02 PEBBLE 中的 PrefPPO 实现

PEBBLE 中的 PrefPPO 实现,直接魔改了 stable_baselines3 的 PPO 模型;他们写了一个叫做 PPO_REWARD 的新类,把所有跟 reward model 的交互都封装到 model.learn() 函数里了。

2.1 reward model 如何构建

跟 pebble 的 reward model 一样。

如果 state 和 action 都是了连续的(比如普通的 cheetah walker),那么就把 state 和 action concat 起来,作为 reward model 的输入。

如果 state 是图像,action 是离散的(比如 Christiano 2017 论文中的 Pong 环境),那么(按照 Christiano 2017 复现代码),…… 好像直接拿 state 图像来算 reward 了,没有 concat 一个 one-hot action 或者数值 action。

2.2 PPO_REWARD 的 model.learn()

PPO 的大概流程:收集 rollout → 计算 rollout 的 advantage 之类 → 计算 loss 并 backward → 收集新 rollout…

在收集 rollout 的过程中,PrefPPO 把要收集的真实 task reward 替换成了 \(\hat r\) ,并把 rollout 数据都添加到 query 的备选中。

在收集 rollout 前后,貌似都有调用 learn_reward() 函数来训练 reward model,这个函数首先收集 query,然后拿收集的 query 学习 reward model。跟 pebble 基本一样。

PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO的更多相关文章

  1. 这部分布式事务开山之作,凭啥第一天预售就拿下当当新书榜No.1?

    大家好,我是冰河~~ 今天,咱们就暂时不聊[精通高并发系列]了,今天插播一下分布式事务,为啥?因为冰河联合猫大人共同创作的分布式事务领域的开山之作--<深入理解分布式事务:原理与实战>一书 ...

  2. [3] ScanRefer论文精读 3DVisual Grounding开山之作

    论文名称:ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language 这篇文章最主要的工作,我觉得是两个,第一,提出 ...

  3. 论文翻译——R-CNN(目标检测开山之作)

    R-CNN论文翻译 <Rich feature hierarchies for accurate object detection and semantic segmentation> 用 ...

  4. 【论文考古】联邦学习开山之作 Communication-Efficient Learning of Deep Networks from Decentralized Data

    B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, "Communication-Efficient Learni ...

  5. 【转】DPM--对象检测开山之作

    本文非原创,原文转载自:http://blog.csdn.net/ttransposition/article/details/12966521 DPM(Deformable Parts Model) ...

  6. SRcnn:神经网络重建图片的开山之作

    % ========================================================================= % Test code for Super-Re ...

  7. 【神经网络与深度学习】【计算机视觉】RCNN- 将CNN引入目标检测的开山之作

    转自:https://zhuanlan.zhihu.com/p/23006190?refer=xiaoleimlnote 前面一直在写传统机器学习.从本篇开始写一写 深度学习的内容. 可能需要一定的神 ...

  8. Web信息架构——设计大型网站(第3版)(久负盛名经典再现,信息架构设计领域基石之作!)

    Web信息架构——设计大型网站(第3版)(久负盛名经典再现,信息架构设计领域基石之作!) [美]]Peter Morville(彼得·莫维尔)  Louis Rosenfeld(路易斯·罗森菲尔德) ...

  9. CNN网络架构演进:从LeNet到DenseNet

    卷积神经网络可谓是现在深度学习领域中大红大紫的网络框架,尤其在计算机视觉领域更是一枝独秀.CNN从90年代的LeNet开始,21世纪初沉寂了10年,直到12年AlexNet开始又再焕发第二春,从ZF ...

  10. CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns

    论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion. 代码:https://github.com/ahangchen/TFusion 解 ...

随机推荐

  1. Linux 网络设备命名规则

    在 Linux 系统中,网络接口的命名规则已经经历了几次重要变化,特别是从传统的以 eth 和 wlan 开头的名称,转变到更现代.更具描述性的命名方式.以下是这些变化的概述: 1. 传统命名约定 在 ...

  2. 万丈高楼平地起:UML类图

    UML类图 UML类图 是一种静态的结构图,描述了系统的类的集合,类的属性和类之间的关系,可以简化了人们对系统的理解.UML类图 是系统分析和设计阶段的重要产物,是系统编码和测试的重要模型. 图示 类 ...

  3. Asp.net Core – CSS Isolation

    前言 ASP.NET Core 6.0 Razor Pages 新功能, 我是用 webpack 做打包的, 所以这个对我没有什么帮助. 但是了解一下是可以的. 希望 .NET 会继续发展的更好, 多 ...

  4. manim边学边做--弧形多边形

    弧形多边形是一种结合了圆弧和多边形的图形,这类几何图形在设计中应用非常广泛. 比如在家居设计中,看看家里的沙发,餐桌和座椅等,它们的边角,靠背等地方都是弧形的设计,这种设计有效柔化了室内空间,使整体氛 ...

  5. Java读取寄存器数据的方法

    在Java中直接读取硬件寄存器(如CPU寄存器.I/O端口等)通常不是一个直接的任务,因为Java设计之初就是为了跨平台的安全性和易用性,它并不直接提供访问底层硬件的API.不过,在嵌入式系统.工业控 ...

  6. 主流流媒体的综合性能大 PK ( smart_rtmpd, srs, zlm, nginx rtmp )

    简述 随着互联网的发展,音视频行业越来越火,自然而然的流媒体服务器也是百花齐放.市面上也有很多种类的流媒体服务器,让人眼花缭乱.特别是对技术了解不深的朋友,更不知道怎么选择. 其实作为服务器,主要考察 ...

  7. LoRaWAN网关价格干穿地板了

    废话不多说,不要998,不要688,以太网版本只要398,4G版本只要498. 先上图片 1.1 产品特点 ◆ 高性能嵌入式硬件平台 ◆ 使用工业级 Cat.1 4G 模块 ◆ 宽压输入 DC 9-2 ...

  8. 记录一次BOOST库相关的使用包含互斥量、条件变量的类,引发的编译报错

    1. 工作中的代码: 2. 使用指针作为形参,不会造成编译报错,我是可以理解的. 那么请讨论下为什么使用值传递和引用作为形参,会造成编译报错? 3. 答案揭晓 boost 的mutex源码: 最终原因 ...

  9. 使用阿里云 SpringBoot 仓库初始化项目

    本文基于:https://www.bilibili.com/video/BV15b4y1a7yG?p=5&vd_source=cf8900ba33d057d422c588abe5d5290d ...

  10. foobar2000 v1.6.16 汉化版(2023.04.19)

    foobar2000 v1.6.16 汉化版 -----------------------[软件截图]---------------------- -----------------------[软 ...