大语言模型-2.书生浦语大模型全链路开源体系

书生浦语大模型实战营学习笔记-1.认识书生浦语大模型全链路开源体系

本系列随笔学习搬运第二期书生浦语大模型实战营的相关内容,通过使用InternLM的一套已经封装好的工具,熟悉大模型相关技能。

本文包括第二期实战营的第一课内容和InternLM2技术报告

大模型定义

专用模型:针对特定任务,一个模型解决一个问题

通用大模型:一个模型应对多种任务、多种模态

关于基础模型的定义,更严谨地可以参考李飞飞的说法:

AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) trained on broad data (generally using self-supervision at scale) that can be adapted to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character(基础模型指通过大量数据进行大规模的训练并可以迁移至不同的下游任务的模型)

Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[J]. arXiv preprint arXiv:2108.07258, 2021.

大模型应用流程

  1. 首先进行模型选型(即测评)。
  2. 再判断业务场景是否复杂。如果复杂需进行微调。
  3. 之后判断是否需要环境交互。如果需要则需构建智能体(agent)。
  4. 最后进行模型评测与部署

微调

大语言模型的下游应用中,增量续训有监督微调是经常会用到两种方式。

  • 增量续训

    • 使用场景:让基座模型学习到一些新知识,如某个垂类领域知识
    • 训练数据:文章、书籍、代码等
  • 有监督微调
    • 使用场景:让模型学会理解各种指令进行对话,或者注入少量领域知识
    • 训练数据:高质量的对话、问答数据
    • 分类:
      • 全量参数微调
      • 部分参数微调

InternLM2

InternLM2通过创新的预训练和优化技术,在6个维度和30个基准的综合评估、长上下文建模和开放式主观评估方面优于其前身InternLM。主要创新有:

  1. 开源、性能优异:InternLM2有包括1.8B、7B和20B的各种大小的开源模型,在主观和客观评估中都表现良好,适用于多种场景。此外,提供了训练过程中各个阶段的检查点,以便分析post-SFT和RLHF对模型的影响。
  2. 上下文建模能力强,支持200k的Context:InternLM2几乎完美地识别了“大海捞针”实验中具有200k上下文的所有“针”。
  3. 提供了全面的数据准备指南:我们详细阐述了LLM的数据准备,包括预训练数据、特定领域增强数据、SFT数据和RLHF数据。
  4. 为解决RLHF过程中遇到的偏好冲突,提出 Conditional Online RLHF (COOL RLHF) 协调各类偏好,显著提高InternLM2在各种主观对话评估中的表现。

InternLM2已经在超过2T的高质量预训练语料库上进行了训练,使用GQA来降低推理成本,并且已经在多达32k个上下文上进行了额外的训练。除了开源模型之外,我们还提供了如何训练InternLM2的详细描述,包括训练框架、预训练文本数据、预训练代码数据、预训练长文本数据和对齐数据。

(不过,InternLM 2和主打长文本的月之暗面哪个长文本能力更强呢?)

InternLM大模型开源工具链包含若干工具与模型,能帮助模型的应用过程







后面给自己的Intern的宣传太多了,我们省略这部分内容。需要的可以直接去InternLM的视频号查看直播回放,或者去蹲一蹲B站的更新

这节内容不是很多。主要宣传了一下InternLM及其配套工具,简单讲了讲大模型及其应用流程,尤其是微调。期待后面的内容。同时后面课程更新以后博客会同步更新。

书生浦语大模型全链路开源体系-书生浦语大模型实战营学习笔记1&大语言模型2的更多相关文章

  1. 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)

    1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...

  2. Java 学习笔记 两大集合框架Map和Collection

    两大框架图解 Collection接口 由第一张图,我们可以知道,Collection接口的子接口有三种,分别是List接口,Set接口和Queue接口 List接口 允许有重复的元素,元素按照添加的 ...

  3. 学习笔记之大数据(Big Data)

    300 秒带你吃透大数据! https://mp.weixin.qq.com/s/VWaqRig6_JBNYC1NX7NQ-Q 手把手教你入门Hadoop(附代码&资源) https://mp ...

  4. 大数据全栈式开发语言 – Python

    前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...

  5. 为什么说Python 是大数据全栈式开发语言

    欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客 交流QQ群:453131687 原文链接 h ...

  6. 人工智能中小样本问题相关的系列模型演变及学习笔记(二):生成对抗网络 GAN

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] [再啰嗦一下]本文衔接上一个随笔:人工智能中小样本问题相关的系列模型演变及学习 ...

  7. 性能利器 Takin 来了!首个生产环境全链路压测平台正式开源

    6 月 25 日,国内知名的系统高可用专家数列科技宣布开源旗下核心产品能力,对外开放生产全链路压测平台产品的源代码,并正式命名为 Takin. 目前中国人寿.顺丰科技.希音.中通快递.中国移动.永辉超 ...

  8. BAT推荐免费下载JAVA转型大数据开发全链路教程(视频+源码)价值19880元

    如今随着环境的改变,物联网.AI.大数据.人工智能等,是未来的大趋势,而大数据是这些基石,万物互联,机器学习都是大数据应用场景! 为什么要学习大数据?我们JAVA到底要不要转型大数据? 好比问一个程序 ...

  9. 持续引领大数据行业发展,腾讯云发布全链路数据开发平台WeData

    9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云大数据产品副总经理雷小平重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化 ...

  10. 全链路监控系统开源Pinpoint入门视频教程(最新版本1.8)

    pinpoint支持的模块 源码:https://github.com/naver/pinpoint技术概述:https://skyao.gitbooks.io/learning-pinpoint/c ...

随机推荐

  1. Java实现哈希表

    2.哈希表 2.1.哈希冲突 冲突位置,把数据构建为链表结构. 装载因子=哈希表中的元素个数 / (散列表)哈希表的长度 装载因子越大,说明链表越长,性能就越低,那么哈希表就需要扩容,把数据迁移到新的 ...

  2. C语言 03 VSCode开发

    安装好 C 语言的开发环境后,就需要创建项目进行开发了. 使用 IDE(集成开发环境)进行开发了. C 语言的开发工具很多,现在主流的有 Clion.Visual Studio.VSCode. 这里以 ...

  3. 二、Unity调用Xcode封装方法

    1.开始封装Unity调用接口 我们在Xcode中 写的接口需要在extern "C"中(加上extern "C"后,会指示编译器这部分代码按C语言的进行编译) ...

  4. GAN的一些问题

    GAN为什么难以训练? 大多深度模型的训练都使用优化算法寻找损失函数比较低的值.优化算法通常是个可靠的"下山"过程.生成对抗神经网络要求双方在博弈的过程中达到势均力敌(均衡).每个 ...

  5. NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧

    NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧 NL2SQL基础系列(1):业界顶尖排行榜.权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣 ...

  6. springboot+thymeleaf+mybatis实现甘特图(代码非常详细)

    首先我们要明白:这个甘特图需要哪些动态数据. (1)需要:ID,tName,number,计划开始时间,开始时间,计划结束时间,结束时间,项目负责人,参与人,知情人ID,计划时长(可以计算得出的,不必 ...

  7. 上架即封神!3.6k Star 的开源游戏模拟器,Delta 冲上 App Store 免费榜

    一直以来,苹果设备的应用商店(App Store)都是禁止游戏模拟器上架,所以 iPhone/iPad 用户不能直接安装 GBA.红白机之类的模拟器应用,这也让想在 iPhone 上重温童年游戏机的机 ...

  8. 浅谈sparse vec检索工程化实现

    前面我们通过两篇文章: BGE M3-Embedding 模型介绍 和 Sparse稀疏检索介绍与实践 介绍了sparse 稀疏检索,今天我们来看看如何建立一个工程化的系统来实现sparse vec的 ...

  9. 力扣596(MySQL)-超过5名学生的课(简单)

    题目: 表: Courses 编写一个SQL查询来报告 至少有5个学生 的所有班级. 以 任意顺序 返回结果表. 查询结果格式如下所示 示例1:  解题思路: 使用group by按 班级 进行分组后 ...

  10. 力扣524(java)-通过删除字母匹配到字典里最长单词(中等)

    题目: 给你一个字符串 s 和一个字符串数组 dictionary ,找出并返回 dictionary 中最长的字符串,该字符串可以通过删除 s 中的某些字符得到. 如果答案不止一个,返回长度最长且字 ...