AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验

在大模型训练的 RLHF 阶段,需要人工对模型生成的多份数据进行标注排序,然而目前缺乏开源可用的 RLHF 标注平台。

RLHF 标注工具 是一个简单易用的,可以在大模型进行 RLHF(基于人类反馈的强化学习)标注排序的工具,旨在帮助用户在友好的图形界面中对生成式模型生成的答案进行排序标注。

  • 工具特点

    • RLHF助力者:强调工具在大模型训练中的重要性,特别是在RLHF阶段。
    • 智慧融合引擎:展示AI与人类智慧结合的创新点。
    • 生成式模型助手:突出工具在生成式模型训练流程中的支持作用。
    • 排序标注利器:直接描述工具的核心功能,即帮助用户对答案进行排序和标注。
    • 友好界面体验:强调工具用户界面的友好性和易用性。
    • 开源创新平台:突出工具的开源特性,鼓励用户参与和贡献。
  • 功能点

    • 提供界面展示当前的查询问题和历史对话
    • 支持为生成的答案选择排名
    • 可以自定义回答个数 K,默认为 4
    • 自动检测和提示排名冲突
    • 将标注的排序结果追加保存到数据集文件中
    • 提供数据集页面以查看已标注的数据
  • 更多功能点

    • 实现 RLAIF ,基于 API 进行自动标注
    • 支持拖动排序
  • 效果展示:

1. 快速开始

  • 安装依赖

    • Python 3.x
    • 安装依赖包:pip install -r requirements.txt
  • 使用说明

    1. 准备数据集文件:将包含查询问题、历史对话和生成的答案的数据集文件准备为 JSON 格式,格式参见 input_file.json。

      对于 RLHF 数据的生成,直接对同一份模型运行 K 次即可。由于大模型的随机性,每次生成的答案都会不同。
    2. 运行应用:执行 bash run.sh 命令启动应用。
    3. 标注排序:在标注页面,依次为每个查询问题的生成答案选择排名,并点击“存储当前排序”按钮保存标注结果。
    4. 查看数据集:在数据集页面,可以查看已标注的数据集,包括查询问题、历史对话和生成的答案的排序结果。
  • 配置

    应用支持一些配置选项,可在 app.py 文件中进行修改:

    • MODEL_CONFIG:模型配置,包括模型名称、设备、数据集文件路径等。
    • RANK_COLOR:排名颜色列表,用于在界面中显示不同排名的颜色。

2.示例数据集

您可以使用以下 JSON 数据集示例进行测试:

{
"0": {
"query": "非常感谢您的建议,我会尽量按照您的建议来做。谢谢!",
"history": [],
"response_0": "不客气,我很高兴能够帮助到您。如果您还有其他问题,随时可以向我咨询。祝您好运!",
"response_1": "不客气,我很高兴能够帮助您。如果您还有其他问题,随时都可以向我咨询。祝您好运!",
"response_2": "不客气,我很高兴能够帮助您。如果您有任何其他问题,随时都可以向我咨询。祝您好运!",
"response_3": "不客气,我很高兴能够帮助到您。如果您还有其他问题,随时可以向我咨询。祝您好运!"
},
...
}

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

更多资料下载见:https://blog.csdn.net/sinat_39620217/article/details/136317936

AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验的更多相关文章

  1. 面对AI的兴起,从人类发展到个人发展,普通人应当如何抉择?

    这一周被各种 AI 卷的不行,从 ChatGPT 4.0 上线到百度文心一言发布会,再到微软的 Microsoft 365 Copilot. 网上有很多人.公众号吐嘈百度,而晓衡接触到的圈子还有一些不 ...

  2. NotionAI - 文档领域的ChatGPT,一款 AI 加持的在线文档编辑和管理工具

    简介 NotionAI - 文档领域的ChatGPT,一款 AI 加持的在线文档编辑和管理工具 作为国际领先的在线文档编辑和管理工具,Notion受到了广大用户的欢迎,尤其是程序员们.它不仅支持笔记. ...

  3. 端云协同,打造更易用的AI计算平台

    内容来源:华为开发者大会2021 HMS Core 6 AI技术论坛,主题演讲<端云协同,HUAWEI HiAI Foundation打造更易用的AI计算平台>. 演讲嘉宾:华为海思AI技 ...

  4. 【转载】 “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识

    原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI)     ------------------------------- ...

  5. StartDT AI Lab | 视觉智能引擎+数据决策引擎——打造商业“智能沙盘”

    众所周知,线上商家可以通过淘宝平台的大量前端“埋点”轻松获取商品的加购率.收藏率.转化率.成交额等大量基础信息,甚至商家能够在更精细的层面,获取商品关键字变化或者上新/爆款带来的流量变化数据,更甚者商 ...

  6. 《花雕学AI》17:关注提示工程—本世纪最重要的技能可能就是与AI人工智能对话

    本文目录与主要结构 引言:介绍提示工程的概念和背景,说明为什么它是本世纪最重要的技能之一. 正文: 一.提示工程的基本原理和方法:介绍什么是提示.如何设计和优化提示.如何使用提示与语言模型进行交互. ...

  7. 【AI 全栈 SOTA 综述 】这些你都不知道,怎么敢说会 AI?【语音识别原理 + 实战】

    章目录 前言语音识别原理   信号处理,声学特征提取   识别字符,组成文本   声学模型   语言模型   词汇模型语音声学特征提取:MFCC和LogFBank算法的原理实战一 ASR语音识别模型 ...

  8. 谷歌开源可视化工具Facets,将用于人+AI协作项目研究——无非就是一个用于特征工程探索的绘图工具集,pandas可以做的

    见:http://www.infoq.com/cn/news/2017/07/goole-sight-facets-ai https://github.com/PAIR-code/facets/blo ...

  9. AI数据标注行业面临的5大发展困局丨曼孚科技

    根据艾瑞咨询发布的行业白皮书显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破113亿元,行业年复合增长率达到了23.5%.​ 作为人工智能产业的基石,数据 ...

  10. 用深度学习做命名实体识别(二):文本标注工具brat

    本篇文章,将带你一步步的安装文本标注工具brat. brat是一个文本标注工具,可以标注实体,事件.关系.属性等,只支持在linux下安装,其使用需要webserver,官方给出的教程使用的是Apac ...

随机推荐

  1. 【转帖】什么是RLHF

    什么是RLHF? **字面翻译:**RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型. 强化学习从人类反馈 ...

  2. [转帖]07-rsync企业真实项目备份案例实战(需求收集--服务器配置---客户端配置---报警机制---数据校验---邮件告警)

    https://developer.aliyun.com/article/885820?spm=a2c6h.24874632.expert-profile.279.7c46cfe9h5DxWK 简介: ...

  3. [转帖]2.20 Native Operating System Tools

    https://docs.oracle.com/javase/8/docs/technotes/guides/troubleshoot/tooldescr020.html#BABBHHIE 2.20  ...

  4. [转帖]kubernetes Flannel网络剖析

    https://plantegg.github.io/2022/01/19/kubernetes_Flannel%E7%BD%91%E7%BB%9C%E5%89%96%E6%9E%90/ cni(Co ...

  5. 通过mat获取OOM时对象信息的方法与过程

    通过mat获取OOM时对象信息的方法与过程 背景 如果谁的耐心不好, 就让他去看MAT里的objects信息. 有项目出现了OOM的情况 我在公司这边有一台内存比较高的Win10机器. 然后帮助同事进 ...

  6. charles如何抓取https请求

    我们都知道charles下载安装后只能抓取http请求,要想抓取https请求需要下载安装证书 下面介绍pc端和移动端的配置方法 一.pc端(win) 1.打开charles,点击help>SS ...

  7. cookie的设置读取

    <script> // 设置cookie值哈 let username = '我是cookie' document.cookie = "name=" + usernam ...

  8. Go实现网络代理

    使用 Go 语言开发网络代理服务可以通过以下步骤完成.这里,我们将使用 golang.org/x/net/proxy 包来创建一个简单的 SOCKS5 代理服务作为示例. 步骤 1. 安装 golan ...

  9. 数组 vs. 切片

    在Go编程语言中处理数据时,经常会遇到数组和切片.这两者是不同的数据结构,有各自的特性和用途.本文将对Go中的数组和切片进行比较,以帮助大家更好地理解它们. 1. 长度不同 一个主要的区别是长度.在G ...

  10. Vue双向数据绑定原理-中

    defineProperty方法 defineProperty除了可以动态修改/新增对象的属性以外, 还可以在修改/新增的时候给该属性添加get/set方法, 从而实现数据劫持. defineProp ...