大语言模型(LLM)
大语言模型 LLM
人工智能 Artificial Intelligence
一门研究如何使计算机能够模拟和执行人类智能任务的科学和技术领域
是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工:计算机来模拟人
智能:人的某些思维过程和智能行为(如学习、推理、思考、规划等)
AGI(通用人工智能 Artificial General Intelligence)
是指一种能够像人类一样思考、学习和执行多种任务的人工智能系统。
AGI的目标是创建一个全面智能的系统,可以解决广泛的问题并进行多种任务。这种系统能够在不同的环境中适应和学习,并且可以从不同的来源中获取信息,像人类一样进行推理和决策。
亦被称为强 AI,该术语指的是在任何你可以想象的人类的专 业领域内,具备相当于人类智慧程度的 AI,一个 AGI 可以执行任何人类可以完成的智力任务。
大语言模型 Large Language Model
也称大型语言模型,是一种人工智能模型。
旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。
LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。
大语言模型可以做什么?
以下是 LLM 为组织带来益处的一些最重要的领域:
文本生成:语言生成能力,如根据提示撰写电子邮件、博客文章或其他中长篇内容,并加以提炼和润色。
内容摘要:将长文章、新闻报道、研究报告、公司文档甚至客户历史记录汇总成根据输出格式定制长度的完整文本。
AI 助手:聊天机器人,可以回答客户询问、执行后端任务并以自然语言提供详细信息,作为集成式自助客户服务解决方案的一部分。
代码生成:帮助开发人员构建应用程序,查找代码中的错误并发现多种编程语言中的安全问题,甚至在它们之间进行“翻译”。
情感分析:分析文本,确定客户的语气,以便大规模了解客户反馈并帮助进行品牌声誉管理。
语言翻译:通过流畅的翻译和多语言功能,为各语言和地域的组织提供更广泛的覆盖范围。
常见大语言模型
国外
Chatgpt(OpenAI)
Our vision for the future of AGI:
Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity.History:
OpenAI 成立于2015年,其使命是“确保人工智能的发展能够造福所有人类,而不受少数人或机构的控制”。
2018 年 6 月 OpenAI 发布 GPT-1 模型,1.1亿参数。
2018 年 11 月 OpenAI 发布 GPT-2 模型,15亿参数。
2019 年 6 月 10 日 OpenAI 发布 GPT-3 模型,1750亿参数,并向部分合作伙伴提供了访问权限。
2019 年 9 月 OpenAI 开放了 GPT-2 的全部代码和数据,并发布了更大版本。
2020 年 5 月 OpenAI 宣布推出 GPT-3 模型的beta版本,该模型拥有1750亿个参数,是迄今为止最大的自然语言处理模型。
2022 年 11 月 30 日 OpenAI 通过 GPT-3.5 系列大型语音模型微调而成的,全新对话式AI模型 ChatGPT 正式发布。
2023 年 3 月 15 日 OpenAI 震撼推出了大型多模态模型 GPT-4,不仅能够阅读文字,还能识别图像,并生成文本结果,现已接入 ChatGPT 向Plus用户开放。
How to use
2023 年 3 月 20 日开始,OpenAI 开始大面积封号,禁止使用亚洲节点登录。
在国内使用 Chatgpt 并不违法。只是 ChatGPT 屏蔽中国用户。
Github 镜像仓库。
hello-ai/home/FreeChatGPTSiteList.md at main · xxxily/hello-ai · GitHub
国内
文心一言
通义千问
https://tongyi.aliyun.com/qianwen/
蓝心千询
https://developers.vivo.com/product/ai/bluelm
腾讯混元
Kimi Chat
底层实现逻辑
大语言模型的架构和本质实现方法可以通过以下几个关键部分来解释:
1. Transformer 架构
Transformer 是现代大语言模型的核心架构,由 Vaswani 等人在 2017 年提出。它解决了之前序列模型(如 RNN 和 LSTM)在处理长序列数据时的限制。Transformer 架构的核心组件包括:
a. 多头自注意力机制(Multi-Head Self-Attention Mechanism)
- 自注意力:通过自注意力机制,模型可以在处理每个词时,关注序列中其他所有词的信息。自注意力计算每个词与其他词的相关性(注意力分数),并根据这些分数加权求和其他词的表示。
- 多头注意力:将自注意力机制扩展为多头形式,使模型可以在不同的子空间中并行计算注意力。这样可以捕获更多的语义信息。
b. 位置编码(Positional Encoding)
由于 Transformer 不像 RNN 那样逐步处理序列数据,因此需要通过位置编码引入位置信息。位置编码将序列中每个词的位置信息加入其嵌入表示中,使模型能够区分不同位置的词。
c. 前馈神经网络(Feed-Forward Neural Network)
每个 Transformer 层包括一个前馈神经网络(通常由两个全连接层组成),用于进一步处理注意力机制后的输出。
d. 残差连接和层归一化(Residual Connections and Layer Normalization)
每个子层(如自注意力和前馈网络)后都有残差连接和层归一化,使得训练更深层次的网络成为可能,并加速收敛。
2. 编码器-解码器结构(Encoder-Decoder Architecture)
经典的 Transformer 由编码器和解码器两部分组成,尤其在序列到序列任务(如机器翻译)中非常有效。
a. 编码器
编码器由一系列堆叠的 Transformer 层组成,每一层包括自注意力机制和前馈神经网络。编码器将输入序列转换为一组高维度的上下文向量。
b. 解码器
解码器也由一系列堆叠的 Transformer 层组成,每一层包括自注意力机制、编码器-解码器注意力机制和前馈神经网络。解码器接收编码器的上下文向量和先前生成的输出,逐步生成目标序列。
3. 预训练与微调(Pre-training and Fine-tuning)
大语言模型通常经历两个阶段:预训练和微调。
a. 预训练
在大规模未标注文本数据上进行预训练,通常使用自回归(如 GPT)或自编码(如 BERT)任务。预训练使模型学习广泛的语言表示。
- 自回归模型(如 GPT):通过预测下一个词来进行训练。
- 自编码模型(如 BERT):通过掩码语言模型任务,预测被掩码的词来进行训练。
b. 微调
在特定任务的数据集上进行微调,使模型适应具体的应用场景。微调时,模型保留预训练期间学习到的通用知识,并根据特定任务的数据进行进一步调整。
- ANN:人工神经网络(Artificial Neural Network)
- RNN:循环神经网络(Recurrent Neural Network)
- CNN:卷积神经网络(Convolutional Neural Network)
- GAN:生成对抗网络(Generative Adversarial Network)
- LSTM:长短期记忆(Long Short-Term Memory)
- LLM:大型语言模型(Large Language Model)
- BERT:Bidirectional Encoder Representations from Transformers
- GPT:Generative Pre-trained Transformer
参考链接:
什么是 AGI?(Artificial General Intelligence)通用人工智能的定义和能力 - 知乎 (zhihu.com)
What OpenAI Really Wants | WIRED
[博客速读]OpenAI的目标究竟是什么? - 知乎 (zhihu.com)
全网最全时间线梳理!从ChatGPT的前世今生,到如今AI领域的竞争格局,本文带你一路回看 - 知乎 (zhihu.com)
hello-ai/home/airport.md at main · xxxily/hello-ai · GitHub
科技爱好者周刊(第 259 期):如何免费使用 ChatGPT - 阮一峰的网络日志 (ruanyifeng.com)
hello-ai/home/FreeChatGPTSiteList.md at main · xxxily/hello-ai · GitHub
生成式人工智能服务管理暂行办法_国务院部门文件_中国政府网 (www.gov.cn)
AIGC工具导航 | 生成式AI工具导航平台-全品类AI应用商店!
国内13家大模型和体验地址 - 知乎 (zhihu.com)
https://tongyi.aliyun.com/qianwen/
https://developers.vivo.com/product/ai/bluelm
大语言模型(LLM)的更多相关文章
- 本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT
OpenAI公司基于GPT模型的ChatGPT风光无两,眼看它起朱楼,眼看它宴宾客,FaceBook终于坐不住了,发布了同样基于LLM的人工智能大语言模型LLaMA,号称包含70亿.130亿.330亿 ...
- 使用 LoRA 和 Hugging Face 高效训练大语言模型
在本文中,我们将展示如何使用 大语言模型低秩适配 (Low-Rank Adaptation of Large Language Models,LoRA) 技术在单 GPU 上微调 110 亿参数的 F ...
- Hugging News #0324: 🤖️ 黑客松结果揭晓、一键部署谷歌最新大语言模型、Gradio 新版发布,更新超多!
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
- pytorch在有限的资源下部署大语言模型(以ChatGLM-6B为例)
pytorch在有限的资源下部署大语言模型(以ChatGLM-6B为例) Part1知识准备 在PyTorch中加载预训练的模型时,通常的工作流程是这样的: my_model = ModelClass ...
- 保姆级教程:用GPU云主机搭建AI大语言模型并用Flask封装成API,实现用户与模型对话
导读 在当今的人工智能时代,大型AI模型已成为获得人工智能应用程序的关键.但是,这些巨大的模型需要庞大的计算资源和存储空间,因此搭建这些模型并对它们进行交互需要强大的计算能力,这通常需要使用云计算服务 ...
- LLM(大语言模型)解码时是怎么生成文本的?
Part1配置及参数 transformers==4.28.1 源码地址:transformers/configuration_utils.py at v4.28.1 · huggingface/tr ...
- 大语言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
本文将展示如何在 Habana Gaudi2 上使用 Optimum Habana.Optimum Habana 是 Gaudi2 和 Transformers 库之间的桥梁.本文设计并实现了一个大模 ...
- 算法题学习链路简要分析与面向 ChatGPT 编程
本文已收录到 AndroidFamily,技术和职场问题,请关注公众号 [彭旭锐] 提问. 声明:此图片由 MidJourney 生成 未经训练,不属于任何真实人物 大家好,我是小彭. 2023 开年 ...
- Hugging Face 每周速递: Chatbot Hackathon;FLAN-T5 XL 微调;构建更安全的 LLM
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
- Schillace法则:使用LLM创建软件的最佳实践
LLM(大语言模型)的发展正在改变软件开发的方式. 以前,开发人员需要编写大量的代码来实现其意图,但现在,随着语言模型的发展,开发人员可以使用自然语言来表达他们的意图,而无需编写大量的代码.这使得软件 ...
随机推荐
- pandas无法打开.xlsx文件,xlrd.biffh.XLRDError: Excel xlsx file; not supported
原因是最近xlrd更新到了2.0.1版本,只支持.xls文件.所以pandas.read_excel('xxx.xlsx')会报错. 可以安装旧版xlrd,在cmd中运行: pip uninstall ...
- [rCore学习笔记 018]实现特权级的切换
写在前面 本随笔是非常菜的菜鸡写的.如有问题请及时提出. 可以联系:1160712160@qq.com GitHhub:https://github.com/WindDevil (目前啥也没有 本节内 ...
- 我用Awesome-Graphs看论文:解读PowerGraph
PowerGraph论文:<PowerGraph: Distributed Graph-Parallel Computation on Natural Graphs> 上次通过文章< ...
- 【Git】Gitlab仓库访问拒绝,SSL校验影响
更新代码失败,不可访问[XX]仓库 fatal: unable to access 'https://gitcyx.yycsy.com/dmscloud/dcs/dcs-vue-coordinate. ...
- 【Java】IDEA普通JavaEE项目实现SSM整合
一.需要的组件 首先是解决组件问题,非Maven项目构建的jar包 [Servlet & JSP & JSTL] 虽然不是Maven项目,但是JSTL的组件是需要引入的 这里就按照Ma ...
- CyberDog测试视频 —— 【开箱】小米"限量"机器狗!被我玩坏了...
地址: https://www.youtube.com/watch?v=3ntAhy3thXM PS. 现在的智能机器人其实真的没有人们想象中的那么智能.感觉现在的智能机器人最为有用的功能一个是倒地自 ...
- 根据baselines库修改的运行输入参数的解析代码
如题: def arg_parser(): """ Create an empty argparse.ArgumentParser. """ ...
- Codeforces Round 964 (Div. 4)
Codeforces Round 964 (Div. 4) A送分 B 大意:两个人两张牌 随机翻 求a翻出来的牌比b大的可能 #include <cstdio> #include < ...
- 05-canvas绘制简单图形之三角形
1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="U ...
- logback日志级别动态切换的四种方案
荐
生产环境中经常有需要动态修改日志级别. 现在就介绍几种方案 方案一:开启logback的自动扫描更新 配置如下 <?xml version="1.0" encoding=&q ...