【转载】最强NLP预训练模型！谷歌BERT横扫11项NLP任务记录

本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统，刷新了 11 项 NLP 任务的当前最优性能记录。

研究证明语言模型预训练可以有效改进许多自然语言处理任务，包括自然语言推断、复述（paraphrasing）等句子层面的任务，以及命名实体识别、SQuAD 问答等 token 层面的任务。前者通过对句子进行整体分析来预测句子之间的关系，后者则要生成 token 级别的细粒度输出。

目前将预训练语言表征应用于下游任务存在两种策略：基于特征的策略和微调策略（fine-tuning）。基于特征的策略（如 ELMo）使用将预训练表征作为额外特征的任务专用架构。微调策略（如生成预训练 Transformer (OpenAI GPT)）引入了任务特定最小参数，通过简单地微调预训练参数在下游任务中进行训练。在之前的研究中，两种策略在预训练期间使用相同的目标函数，利用单向语言模型来学习通用语言表征。

本论文作者（即 Google AI Language 团队的研究人员）认为现有的技术严重制约了预训练表征的能力，微调策略尤其如此。其主要局限在于标准语言模型是单向的，这限制了可以在预训练期间使用的架构类型。例如，OpenAI GPT 使用的是从左到右的架构，其中每个 token 只能注意 Transformer 自注意力层中的先前 token。这些局限对于句子层面的任务而言不是最佳选择，对于 token 级任务（如 SQuAD 问答）则可能是毁灭性的，因为在这种任务中，结合两个方向的语境至关重要。

本文通过 BERT（Bidirectional Encoder Representations from Transformers）改进了基于微调的策略。BERT 提出一种新的预训练目标——遮蔽语言模型（masked language model，MLM），来克服上文提到的单向局限。MLM 的灵感来自 Cloze 任务（Taylor, 1953）。MLM 随机遮蔽输入中的一些 token，，目标在于仅基于遮蔽词的语境来预测其原始词汇 id。与从左到右的语言模型预训练不同，MLM 目标允许表征融合左右两侧的语境，从而预训练一个深度双向 Transformer。除了 MLM，我们还引入了一个「下一句预测」（next sentence prediction）任务，该任务联合预训练文本对表征。

本文贡献如下：

展示了双向预训练语言表征的重要性。不同于 Radford 等人（2018）使用单向语言模型进行预训练，BERT 使用 MLM 预训练深度双向表征。本研究与 Peters 等人（2018）的研究也不同，后者使用的是独立训练的从左到右和从右到左 LM 的浅层级联。
证明了预训练表征可以消除对许多精心设计的任务特定架构的需求。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统。
BERT 刷新了 11 项 NLP 任务的当前最优性能记录。本论文还报告了 BERT 的模型简化测试（ablation study），证明该模型的双向特性是最重要的一项新贡献。代码和预训练模型将发布在 goo.gl/language/bert。

论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址：https://arxiv.org/pdf/1810.04805.pdf

摘要：本文介绍了一种新的语言表征模型 BERT，意为来自 Transformer 的双向编码器表征（Bidirectional Encoder Representations from Transformers）。与最近的语言表征模型（Peters et al., 2018; Radford et al., 2018）不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。因此，预训练的 BERT 表征可以仅用一个额外的输出层进行微调，进而为很多任务（如问答和语言推断任务）创建当前最优模型，无需对任务特定架构做出大量修改。

BERT 的概念很简单，但实验效果很强大。它刷新了 11 个 NLP 任务的当前最优结果，包括将 GLUE 基准提升至 80.4%（7.6% 的绝对改进）、将 MultiNLI 的准确率提高到 86.7%（5.6% 的绝对改进），以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分（提高 1.5 分）——比人类表现还高出 2 分。

BERT

本节介绍 BERT 及其实现细节。

模型架构

BERT 的模型架构是一个多层双向 Transformer 编码器，基于 Vaswani 等人 (2017) 描述的原始实现，在 tensor2tensor 库中发布。由于 Transformer 的使用最近变得很普遍，而且我们的实现与原始版本实际相同，我们将不再赘述模型架构的背景。

在本文中，我们将层数（即 Transformer 块）表示为 L，将隐藏尺寸表示为 H、自注意力头数表示为 A。在所有实验中，我们将前馈/滤波器尺寸设置为 4H，即 H=768 时为 3072，H=1024 时为 4096。我们主要报告在两种模型尺寸上的结果：

BERTBASE: L=12, H=768, A=12, 总参数=110M
BERTLARGE: L=24, H=1024, A=16, 总参数=340M

为了比较，BERTBASE 的模型尺寸与 OpenAI GPT 相当。然而，BERT Transformer 使用双向自注意力机制，而 GPT Transformer 使用受限的自注意力机制，导致每个 token 只能关注其左侧的语境。我们注意到，双向 Transformer 在文献中通常称为「Transformer 编码器」，而只关注左侧语境的版本则因能用于文本生成而被称为「Transformer 解码器」。图 1 直观显示了 BERT、OpenAI GPT 和 ELMo 的比较结果。

图 1：预训练模型架构之间的区别。BERT 使用双向 Transformer，OpenAI GPT 使用从左到右的 Transformer，ELMo 使用独立训练的从左到右和从右到左 LSTM 的级联来生成下游任务的特征。三种模型中，只有 BERT 表征会基于所有层中的左右两侧语境。

预训练任务

与 Peters 等人 (2018) 和 Radford 等人 (2018) 不同，我们不使用传统的从左到右或从右到左的语言模型来预训练 BERT，而是使用两个新型无监督预测任务。

任务 #1：Masked LM

为了训练深度双向表征，我们采取了一个直接的方法，随机遮蔽输入 token 的某些部分，然后预测被遮住的 token。我们将这一步骤称为「masked LM」(MLM)，不过它在文献中通常被称为 Cloze 任务 (Taylor, 1953)。在这种情况下，对应遮蔽 token 的最终隐藏向量会输入到 softmax 函数中，并如标准 LM 中那样预测所有词汇的概率。在所做的所有实验中，我们随机遮住了每个序列中 15% 的 WordPiece token。与去噪自编码器 (Vincent et al., 2008) 相反，我们仅预测遮蔽单词而非重建整个输入。

任务 #2：下一句预测

很多重要的下游任务（如问答（QA）和自然语言推断（NLI））基于对两个文本句子之间关系的理解，这种关系并非通过语言建模直接获得。为了训练一个理解句子关系的模型，我们预训练了一个二值化下一句预测任务，该任务可以从任意单语语料库中轻松生成。具体来说，选择句子 A 和 B 作为预训练样本：B 有 50% 的可能是 A 的下一句，也有 50% 的可能是来自语料库的随机句子。

实验

这部分，我们将展示 BERT 在 11 个 NLP 任务上的微调结果。

图 3：我们的任务特定模型是由向 BERT 添加了一个额外的输出层而形成的，因此一小部分参数需要从头开始学习。在众多任务中，(a) 和 (b) 任务是序列级任务，(c) 和 (d) 是 token 级任务，图中 E 表示输入嵌入，T_i 表示 token i 的语境表征，[CLS] 是分类输出的特殊符号，[SEP] 是分割非连续 token 序列的特殊符号。

表 1：GLUE 测试结果，评分由 GLUE 评估服务器得到。每个任务下面的数字表示训练样本的数量。「Average」列与 GLUE 官方分数略微不同，因为我们排除了有问题的 WNLI 集。OpenAI GPT = (L=12, H=768, A=12)；BERT_BASE = (L=12, H=768, A=12)；BERT_LARGE = (L=24, H=1024, A=16)。BERT 和 OpenAI GPT 是单个模型、单个任务。所有结果来自于以下地址：https://gluebenchmark.com/leaderboard 和 https://blog.openai. com/language-unsupervised/。

表 2：SQuAD 结果。BERT 集成是使用不同预训练检查点和微调种子（fine-tuning seed）的 7x 系统。

表 3：CoNLL-2003 命名实体识别结果。超参数通过开发集来选择，得出的开发和测试分数是使用这些超参数进行五次随机 restart 的平均值。

理论NLP预训练模型

5 1

【转载】最强NLP预训练模型！谷歌BERT横扫11项NLP任务记录的更多相关文章

[NLP自然语言处理]谷歌BERT模型深度解析
我的机器学习教程「美团」算法工程师带你入门机器学习已经开始更新了,欢迎大家订阅~ 任何关于算法.编程.AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主 ...
最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】
“最近刚好在用ERNIE写毕业论文” “感觉还挺厉害的” “为什么叫ERNIE啊,这名字有什么深意吗?” “我想让艾尼帮我写作业” 看了上面火热的讨论,你一定很好奇“艾尼”.“ERNIE”到底是个啥? ...
百度NLP预训练模型ERNIE2.0最强实操课程来袭！【附教程】
2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨.经过短短几个月时间,百度ERNIE再升级,发布持续学习的语义理解框架ERNIE 2.0,及基 ...
NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】
ERNIE是百度自研的持续学习语义理解框架,该框架支持增量引入词汇(lexical).语法 (syntactic) .语义(semantic)等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法 ...
BERT的通俗理解预训练模型微调
1.预训练模型 BERT是一个预训练的模型,那么什么是预训练呢?举例子进行简单的介绍假设已有A训练集,先用A对网络进行预训练,在A任务上学会网络参数,然后保存以备后用,当来一个新 ...
Pytorch——BERT 预训练模型及文本分类
BERT 预训练模型及文本分类介绍如果你关注自然语言处理技术的发展,那你一定听说过 BERT,它的诞生对自然语言处理领域具有着里程碑式的意义.本次试验将介绍 BERT 的模型结构,以及将其应用于文 ...
自然语言处理(三) 预训练模型：XLNet 和他的先辈们
预训练模型在CV中,预训练模型如ImagNet取得很大的成功,而在NLP中之前一直没有一个可以承担此角色的模型,目前,预训练模型如雨后春笋,是当今NLP领域最热的研究领域之一. 预训练模型属于迁移学 ...
使用Huggingface在矩池云快速加载预训练模型和数据集
作为NLP领域的著名框架,Huggingface(HF)为社区提供了众多好用的预训练模型和数据集.本文介绍了如何在矩池云使用Huggingface快速加载预训练模型和数据集. 1.环境 HF支持Pyt ...
斯坦福NLP课程 | 第11讲 - NLP中的卷积神经网络
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

随机推荐

01背包-dp
一问题分析二代码实现 package Dp_0_1_bag; import java.io.BufferedWriter; import java.io.FileWriter; import j ...
python基础一 ------"有序"的字典
"有序"字典:按照写入字典的先后顺序排序的字典(比list优点是按键查询) #-*-coding:utf-8 -*- #"有序"字典:按照写入字典的先后顺序排序 ...
潭州课堂25班：Ph201805201 django 项目第八课注册功能分析，图片验证码视图设计 (课堂笔记）
1,用户名是否已注册 2,手机号是否被注册 3,图形验证码 4,短信验证码, 5,验证成功后,向后台提交数据:用户名,密码,手机号,短信验证要写这五个视图, 获取图形验证码,请求方式:g ...
MPU和CPU有什么区别？
MPU(或称MP,微处理器)和CPU(中央处理器)同为处理器,但范畴不同. 计算机(即电脑)分为巨型机,大型机,中型机,小型机和微型计算机5类.这5类计算机的运算核心统称为CPU,而MPU只是微型计算 ...
Cow Exhibition [POJ2184] [DP] [背包的负数处理]
题意: 有很多羊,每只羊有一个幽默度和智商,要选出一些羊,智商加幽默度总和最大,其中智商总和和幽默度总和都不能是负数. 样例输入: 5 -5 7 8 -6 6 -3 2 1 -8 -5 样例输出: 8 ...
Yii2 查询构建器 QueryBuilder
查询构造器 QueryBuilder 1.什么是查询构建器查询构建器也是建立在 DAO 基础之上,可让你创建程序化的.DBMS 无关的 sql 语句,并且这样创建的 sql 语句比原生的 sql 语 ...
parcel 中小型项目打包工具
"0配置"打包器(bundler)Parcel Parcel官网(有中文文档) webpack 要有大量的配置,这样带来的成本就是复杂性--与此相对的,Parcel 带来了简洁性. ...
Vue（十一）计算属性
计算属性 1. 基本用法计算属性也是用来存储数据,但具有以下几个特点: a.数据可以进行逻辑处理操作 b.对计算属性中的数据进行监视 2.计算属性 vs 方法将计算属性的get函数定义为一个方法也 ...
【二分图最大匹配】Bullet @山东省第九届省赛 B
时间限制: 6 Sec 内存限制: 128 MB 题目描述 In GGO, a world dominated by gun and steel, players are fighting for t ...
如何将Powerdesign物理模型中的name复制成comment
Option Explicit ValidationMode = True InteractiveMode = im_Batch Dim mdl ' the current model ' get t ...

【转载】最强NLP预训练模型！谷歌BERT横扫11项NLP任务记录

【转载】最强NLP预训练模型！谷歌BERT横扫11项NLP任务记录的更多相关文章

随机推荐

热门专题