ChatGPT强势爆红，背后的技术原理是？一文轻松搞懂！

什么是ChatGPT？
OpenAI
背后的原理和发展历程
带来的争议和挑战
尾语

作者：小牛呼噜噜 | https://xiaoniuhululu.com

计算机内功、源码解析、科技故事、项目实战、面试八股等更多硬核文章，首发于公众号「小牛呼噜噜」

大家好，我是呼噜噜，最近一段时间被ChatGPT疯狂刷屏，自从2022年11月发布上线后，不仅 5 天时间便突破百万用户，月活用户突破 1 亿更是仅用时 2 个月，成为史上增速最快的消费级应用，远超如今其他知名应用，tiktok，facebook,google等等，可谓来势汹汹。

什么是ChatGPT？

ChatGPT是由OpenAI团队开发和训练一个人工智能聊天机器人程序,换句话说就是专注于对话生成的大型语言模型。在2022年11月30 日OpenAI 的首席执行官Sam Altman在推特上写道：“今天我们推出了 ChatGPT，尝试在这里与它交谈”，然后是一个链接，任何人都可以注册一个帐户，开始免费与 OpenAI 的新聊天机器人交谈。

它有着通用人工智能的名义，我们人类可以和他谈日常琐事，还可以利用它来写年度总结，和程序员一样写代码，修改 bug，书写情诗，做表格，发论文，写作业，做翻译，甚至可以探讨哲学问题擎等……。人类历史上还没有出现过这么通用，"全知全能"的AI。

在ChatGPT发布后的五天内，就有超过100万的玩家，而Facebook花了 10 个月才达到这种程度。《纽约时报》称其为“有史以来向公众发布的最好的人工智能聊天机器人，比尔盖茨说 ChatGPT 出现的意义“不亚于互联网的诞生”，微软 CEO 纳德拉（Satya Nadella）说它堪比工业革命，也有人担忧其会取代大多数普通人的工作岗位

OpenAI

这我们就不得不提，ChatGPT的研发者OpenAI，OpenAI公司于2015年12月在美国旧金山成立，那时谷歌刚收购一家公司DeepMind，没错就是那个研制出接连击败世界围棋冠军李世石、柯洁的AlphaGo的公司

谷歌本世纪初就已经开始布局ai领域，拥有多年的技术积累，再收购DeepMind，垄断人工智能领域的野心路人皆知。为了阻止谷歌在人工智能领域的垄断，Altman带头提议组建一个与谷歌竞争的实验室，将作为一个非营利组织运营，通过与其他机构和研究者的“自由合作”，向公众开放专利和研究成果，促进先进人工智能的好处"民主化"。OpenAI的创立者不仅仅有Altman，还有Elon Musk、Greg Brockman、Ilya Sutskever、John Schulman等知名企业家财力支持，还拥有

各种技术大牛加入，如 Ilya Sutskever, Carlos Virella, James Greene, Wojciech Zaremb等。OpenAI团队麻雀虽小五脏俱全，但其能带来大量技术创新。

背后的原理和发展历程

如今ChatGPT取得令人惊艳的成就，但一切并不是一蹴而就的。ChatGPT是由OpenAI团队在2019年6月首次发布的，下图就是ChatGPT训练的主要3个阶段：

上图来自ChatGPT官网

第一步，首先收集演示数据并训练监督策略模型（SFT）

ChatGPT 模型本身是无法理解人类不同类型指令中蕴含的不同意图，这时候需要一个"老师"去教它，这个叫"训练"。

所以需要由人类事先标注好的高质量数据集进行训练。ChatGPT使用的数据集里面数据是海量的，所以我们不能忽视在背后默默标注数据的第三方外包人员的辛苦付出。

为了训练ChatGPT，ChatGPT被美国《时代周刊》爆料初雇佣肯尼亚外包劳工进行数据标注，他们时薪不到2美元且内容对他们造成心理伤害。

接着我们就需要把这些整理好的数据来喂给ChatGPT进行半监督学习，在ChatGPT出现之前，NLP 模型（自然语言处理）主要是基于针对特定任务的大量标注数据进行训练，也就是“有答案”的数据集，这也叫"监督式学习"。自然语言处理是一个非常严密的推理过程，不仅要识别每个词，还要处理词语间的序列，因此诞生了循环神经网络（RNN）模型。但RNN只考虑单词或者上下文信息，常常导致全文句意前后不连贯，或者理解复杂句子时出错。这也就导致一些缺点：需要大量的高质量标注数据，高质量的标注数据往往很难获得，而且在实际标注中，有些标签并不存在明确的边界；模型又仅限于所接受的训练，泛化能力不足。

所以ChatGPT采用"半监督式学习"，使用海量的无标注数据训练一个预训练模型，然后再根据特定任务进行微调，比如自然语言推理、问答和常识推理、语义相似度、文本分类。将无监督学习的结果用于左右有监督模型的预训练目标，也叫生成式预训练（Generative Pre-training），没错这就是ChatGPT的GPT3个字的来源！

和谷歌一直换ai的策略不同的是，ChatGPT就很执着，ChatGPT-1刚出来的时候，被业内群嘲，但openai团队，并不气馁，不断扩大训练数据规模，属实是大力出奇迹的典范：

2019年6月，ChatGPT-1，这是第一个基于自然语言处理的对话生成模型，拥有1.17亿参数；
2020年6月：发布了ChatGPT-2，该模型拥有1.17亿个参数的基础上进一步增加到了15亿个参数，成为当时最先进的自然语言处理模型之一。
2020年11月：OpenAI推出了GPT-3，这是一个拥有1750亿个参数的巨型语言模型，可以生成高质量的自然语言文本。它的出现引起了广泛的关注和讨论，并被认为是人工智能领域的一项重大成就。
2022年3月，OpenAI新推出13亿参数的InstructGPT。从人工评测效果上看，相比1750亿参数的GPT3，人们更喜欢13亿参数的InstructGPT生成的回复。可见，并不是训练数据规模越大越好。更低的参数，也就意味着更低的成本
2022年11月，推测约20亿参数的ChatGPT-3.5被推出，具体数据暂未公开，轰动全球

到这里，就训练成了SFT模型(Supervised Fine-Tuning Model)，此时ChatGPT已经能初步能够理解人类的真实意图,算是"学有小成"了

第二步：训练奖励模型（RM）

由于现有的回答是多种多样的，界限是模糊的，无法直接通过标注直接划分。那么如何让AI的回答符合人类的意图？

根据论文Scalable agent alignment via reward modeling: a research direction的理论，这个时候我们需要给ChatGPT的随机抽取一批新问题，每个问题都设置一个奖励目标，让ChatGPT生成多个回答，接着人类根据回答的质量，打分，进而依据分数排名，让高质量回答的分数高于低质量回答，以符合人类意图的方式解决复杂的现实世界问题。

到这里，就形成了奖励模型(Reward Model),再次通过大量的训练，这个模型会让ChatGPT越来越能懂人类真是意图，不断打分，ChatGPT就会不断地进化。

第三步：采用近端策略优化PPO强化学习来优化策略

到了这一阶段，由于人类的精力是有限的，哪怕是雇佣更多的人，但对于互联网网上海量的数据，还是沧海一粟。这个时候，就需要让 ChatGPT 开启"自学"模式，不断学习，自我进化。

给ChatGPT更多全新的数据，通过PPO强化学习算法生成回答，并利用上一阶段训练好的奖励模型，来靠奖励打分排序来调整模型参数。然后不断重复第二和第三阶段的过程，也就是自己给自己出题，再自己对答案，然后微调模型参数，进行海量次数的迭代，这样直至训练出最终符合预期的模型，实现"最终进化"

在 ChatGPT 基础的 InstructGPT 的论文中，Actor 和监督微调模型都使用了 1750 亿参数的 GPT-3 系列模型，Critic 和奖励模型则使用了 60 亿参数的 GPT-3 系列模型。

更详细的移步论文：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

带来的争议和挑战

然后新事物的诞生并不仅仅只有美好的一面，ChatGPT也带来许多潜在的问题。2023年1月，国际机器学习大会禁止在提交的论文中使用ChatGPT或其他大型语言模型来生成任何文本。大量学生用ChatGPT来写作业，导致纽约市公立学校禁止师生在校园网路及装置上使用ChatGPT。

数据集的获取是否符合版权问题一直是ChatGPT绕不开的问题，无法保证个人信息安全，可能导致信息泄露。由于ChatGPT目前是基于2021年及其之前所拥有的数据集进行回答的整合，问它2022，2023或者最近国际上发生的事，它是不知晓的。这就不可避免地保证数据集接触到负面的，暴力的，充满恶意的信息。如何最大限度地并长久地隔离这些负面信息？如果是人工去隔离，是非常困难且痛苦的，类似于内容审核员，鉴黄师...

除此之外，用户对ChatGPT的恶意利用也会带来很多数据安全问题。比如利用自然语言编写的能力，编写恶意软件，从而逃避防病毒软件的检测；利用ChatGPT的编写功能，生成钓鱼电子邮件；利用对话功能，冒充真实的人或者组织骗取他人信息等。

现在尴尬的是当我们知晓答案的正确与否时，我们可以向ChatGPT求教，但当咨询我们不熟悉的领域，ChatGPT目前无法保证它的答案是正确的，需要再和专业的人确认。因为其技术上将海量的数据结合表达能力很强的Transformer模型结合，从而对自然语言进行了一个非常深度的建模。它本质上只是通过概率最大化不断生成符合预期的回答，而不是通过逻辑推理来生成正确的回答。

2022年12月，程序员非常熟悉的Stack Overflow禁止用户发布使用ChatGPT生成的答案，理由是ChatGPT的答案虽看似可用，实际上却有很高的错误率，一本正经地胡说八道。

尾语

从 IBM 的“深蓝”，到 Google 的 AlphaGo，再到 OpenAI 的 ChatGPT，AI的突破都是循序渐进、从小到大地一步步实现，只有脚踏实地深耕基础领域，才能有质的飞越。盲目地造新概念，一窝蜂去摘果实，割韭菜会制约整个行业的发展

随着时间和技术的发展，AI的崛起，是大势所趋。大量机械的、重复的，没有思考价值的工作，会逐渐消失，但也会将给世界带来新的产业革命。

ChatGPT可以用更接近人类的思考方式参与用户的查询过程，可以根据上下文和语境，提供恰当的回答，并模拟多种人类情绪和语气，甚至可以主动承认自身错误，吸取教训并优化答案。如果你长时间和它交流，你会有时感觉它在"讨好你"。

ChatGPT的出现给所有人都敲想了警钟，时代的轮盘已经悄悄转动，要想不被抛弃，我们人类只有不断地学习，思考，进步

参考论文&资料：

Illustrating Reinforcement Learning from Human Feedback (RLHF) Illustrating Reinforcement Learning from Human Feedback (RLHF)
Optimizing Language Models for Dialogue ChatGPT: Optimizing Language Models for Dialogue
Scalable agent alignment via reward modeling: a research direction
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
wikipedia.chatgpt
https://ishare.ifeng.com/c/s/v002SAoIcZHgoIRNibxJaZUF5GX--9krUn32boGRnKTCEXk4__

本篇文章到这里就结束啦，如果我的文章对你有所帮助，还请帮忙一键三连：点赞、关注、收藏，你的支持会激励我输出更高质量的文章，感谢！

计算机内功、源码解析、科技故事、项目实战、面试八股等更多硬核文章，首发于公众号「小牛呼噜噜」，我们下期再见。