深入理解BERT Transformer ，不仅仅是注意力机制

来源商业新知网，原标题：深入理解BERT Transformer ，不仅仅是注意力机制

BERT是google最近提出的一个自然语言处理模型，它在许多任务检测上表现非常好。如：问答、自然语言推断和释义而且它是开源的。因此在社区中非常流行。

下图展示了不同模型的GLUE基准测试分数（不同NLP评估任务的平均得分）变化过程。

尽管目前还不清楚是否所有的GLUE任务都非常有意义，但是基于Trandformer编码器的通用模型（Open-GPT、BERT、BigBird），在一年内缩小了任务专用模型和人类的差距。

但是，正如Yoav Goldberg所说，我们并不能完全理解Transformer模型是如何编码句子的：

Transformer和RNN模型不同，它只依赖于注意力机制。除了标志每个单词的绝对位置嵌入，它没有明确的单词顺序标记。对注意力的依赖可能会导致Transformer模型在处理语法敏感的任务中相对于RNN（LSTM）模型性能表现较差——因为RNN模型是直接根据词序训练模型，并且明确地追踪句子的状态。

一些文章深入地研究了BERT的技术细节。这里，我们将尝试提出一些新的观点和假设来解释BERT的强大功能。

一种语言理解的框架：句法解析/语义合成

人类能够理解语言的方式是一个由来已久的哲学问题。在20世纪，两个互补的原理阐明了这个问题：

“语义合成性原理”表明复合词的含义来源于单个词的含义以及这些单词的组合方式。根据这个原理，名词短语“carnivorous plants” （食肉植物）的含义可以通过 “carnivorous” （食肉的）这个词的含义和“plant” （植物）这个词的含义组合得到。

另一个原理是“语言的层次结构”。它表明通过句法解析，句子可以分解为简单的结构——比如从句。从句又可以分解为动词短语和名词短语等等。

句法解析层次结构以及递归是从组成成分中提取含义，直到达到句子级别，这对于语言理解是一个很有吸引力的方法。考虑到这个句子“Bart watched a squirrel with binoculars” （Bart用双筒望远镜观察松鼠），一个好的句法解析会返回以下句法解析树：

“Bart watched a squirrel with binoculars”基于结构的句法解析树

这个句子的含义可根据连续的语义合成推导出来（将“a” 和 “squirrel” 语义合成, “watched” 和“a squirrel” 语义合成, “watched a squirrel” 和“ with binoculars” 语义合成），直到句子的含义完全得到。

向量空间可以用来表示一个单词、短语和其他成分。语义合成的过程可以被构造为一个函数f，f将(“a”,”squirrel”) 语义合成为 “a squirrel” 的一个有意义向量，表示为“a squirrel” = f(“a”,”squirrel”)。

相关链接：

http://csli-lilt.stanford.edu/ojs/index.php/LiLT/article/view/6

但是，语义合成和句法解析都是很难的任务，而且它们互相需要。

显然，语义合成依赖句法解析的结果来决定哪些应该被语义合成。但是即使有正确的输入，语义合成也是一个困难的问题。例如，形容词的含义会随着单词的不同而变化：“white wine” （白葡萄酒）的颜色实际上是黄色的，但是一只白猫（white cat）就是白色的。这种现象被称作联合语义合成（co-composition）。

相关链接：

http://gl-tutorials.org/wp-content/uploads/2017/07/Pustejovsky-Cocompositionality-2012.pdf

“white wine” （白葡萄酒）和 “white cat” （白猫）在二维语义空间中的表征(空间的维度是颜色)

对于语义合成，还需要更广泛的上下文。举个例子， “green light”（绿灯）单词的语义合成要根据语境来定。 “green light”可以表示授权或者实际的绿灯。一些习惯用语需要经验记忆而不是简单地组合它们。因此，在向量空间中进行语义合成需要强大的非线性函数，例如深度神经网络,也具有记忆功能。

相关链接：

https://arxiv.org/abs/1706.05394

相反，为了在一些特定情形下奏效，句法解析操作可能需要语义合成。考虑下面这个句子的句法解析树（和之前相同的句子） “Bart watched a squirrel with binoculars”

另一个"Bart watched a squirrel with binoculars"的基于结构的句法解析树

尽管它在语法上有效，但是句法解析操作导致了句子的畸形翻译，Bart watches (with his bare eyes) a squirrel holding binoculars（Bart（用他的裸眼）看到一个举着望远镜的小松鼠）。

因此，需要进行一些单词语义合成才能判断“松鼠举着望远镜”是不可能的！一般地说，在获得句子正确结构前，必须要一些消除歧义的操作和背景知识的整合。但是这种操作也可以通过一些句法解析和语义合成的形式完成。

一些模型尝试将句法解析和语义合成的操作同时结合应用到实践中。

相关链接：

https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf

然而，它们依赖于受限制的人工注释的标准句法解析树设置，并且性能还没有一些更简单的模型好。

BERT是如何实现句法解析/语义合成操作的

我们假设Transformer创新地依赖这两个操作（句法解析/语义合成）：由于语义合成需要句法解析，句法解析需要语义合成，Transformer便迭代地使用句法解析和语义合成的步骤，来解决它们相互依赖的问题。

实际上，Transformer由一些堆叠层组成（也叫做block）。每个block块由一个注意力层以及一个应用在每个输入元素的非线性函数组成。

我们试着展示Transformer的这些组件与句法解析/语义合成框架之间的联系：

一个视为连续的句法解析和语义合成步骤

将注意力视为一个句法解析步骤

在BERT中，一个注意力机制让输入序列（比如：由单词或子单词组成的元素）中的每个元素聚焦到其它的元素上。

出于解释的目的，我们根据这篇文章（https://medium.com/dissecting-bert/dissecting-bert-part2-335ff2ed9c73）使用的可视化工具来深入研究注意力头，并在预训练的的BERT模型上验证我们的假设。在下面对注意力头的解释中，单词“it”参与到其它所有元素中，看起来它会关注 “street” 和 “animal”这两个单词。

可视化第0层1号注意力头上的注意力值，用于标记“it”

BERT为每一层使用12个独立的注意力机制。因此，在每一层，每个token可以专注于其他标记的12个不同侧面。由于Transformers使用许多不同的注意力头（12 * 12 = 144用于基础BERT模型），每个头部可以专注于不同类型的成分组合。

我们忽略了与“[CLS]”和“[SEP]”标记相关的注意力值。我们尝试使用了几个句子，发现想不过度解释它们的结果很难。所以你可以随意用几个句子在这个colab notebook上测试我们的假设。请注意，在图中，左侧序列“注意”右侧序列。

相关链接：

https://colab.research.google.com/drive/1Nlhh2vwlQdKleNMqpmLDBsAwrv_7NnrB

第2层1号注意力头似乎基于相关性来生成成分

可视化第2层1号头上的注意力值

更有趣的是，在第3层中，9号头似乎显示出更高级别的成分：一些token注意到相同的中心词（if，keep，have）。

第3层11号头的注意力值的可视化，一些标记似乎注意到特定的中心词（例如，have，keep）

在第5层中，由6号注意力头执行的匹配似乎集中于特定组合，特别是涉及动词的组合。像[SEP]这样的特殊标记似乎用于表示没有匹配。这可以使注意力头能够检测适合该语义合成的特定结构。这种一致的结构可以用于语义合成函数。

可视化第5层6号头注意力值，更关注组合（we，have），（if，we），（keep，up）（get，angry）

可以用连续的浅层的句法解析层表示解析树，如下图所示：

若干注意力层如何表示成树结构

在检查BERT注意力头时，我们没有找到这种清晰的树结构。但是Transformers仍有可能表示它们。

我们注意到，由于编码是在所有层上同时执行的，因此很难正确解释BERT正在做什么。对指定层的分析只是对它自己的下一层和前一层才有意义。句法解析也分布在各注意力头上。

下图展示了两个注意力头的情况下，BERT注意力更为实际的样子：

BERT中注意力值更实际的展现

然而，正如我们之前所见，句法解析树是一种高级别的展示，它可能建立在更复杂的“根茎”结构上。例如，我们可能需要找出代词所引用的内容，以便对输入进行编码（共指消解）。在其他情况下，消除歧义也可能需要全文背景。

令人惊讶的是，我们发现一个注意力头（第6层0号头）似乎实际上执行了共指消解。

相关链接：

https://medium.com/dissecting-bert/dissecting-bert-part2-335ff2ed9c73

一些注意力头似乎为每一个单词（第0层0号头）都提供全文信息。

在第6层的头0号头中发生的共指消解

每个单词都会注意句子中的所有其它单词。这可能允许对每个单词建立一个粗略的语境。

语义合成阶段

在每一层中，所有注意力头的输出被拼接并被送到可以表示复杂非线性函数（表达语义合成所需要的）的神经网络。

依靠来自注意力头的结构化输入，该神经网络可以执行各种语义合成。在先前显示的第5层中，6号注意力头可以引导模型执行以下语义合成：（we，have），（if，we），（keep，up）（get，angry）。该模型可以非线性地组合它们并返回语义合成表示。因此，多注意力头可以作为辅助语义合成的工具。

注意力头如何辅助特定的语义合成，例如形容词/名词语义合成

虽然我们没有发现注意力头集中关注形容词/名词等更一致的组合，但是动词/副词的语义合成与模型所衍生的其它语义合成之间可能存在一些共同点。

有许多可能的相关语义合成（单词-子词，形容词-名词，动词-介词，子句-子句）。更进一步，我们可以将消歧看作把一个歧义词（如 bank）与其相关的上下文单词（如 river 或 cashier）语义合成的过程。在语义合成期间也可以执行与给定上下文的概念相关的背景常识知识的集成。这种消歧也可能发生在其它层面（例如句子层面、子句层面）。

作为一种语义合成的消歧

此外，语义合成也可能涉及词序推理。有人认为，位置编码可能不足以正确编码单词的顺序，然而位置编码被设计为编码每个token的粗略、精细和可能精确的位置。（位置编码是与输入嵌入平均求和的向量，以为输入序列中的每个 token 生成能够感知位置的表征）。因此，基于两个位置编码，非线性合成理论上可以基于单词相对位置执行一些关系推理。

我们假设语义合成阶段也在BERT自然语言理解中起到了重要作用：并不只需要注意力。

总结

我们提出了对Transformers的归纳偏差的见解。但我们的解释对Transformer的功能持乐观态度。作为提醒，LSTM显示能够隐性地处理树结构和语义合成。由于LSTM仍存在一些局限性，部分是因为梯度消失造成的。因此，需要进一步的研究来阐明Transformer的局限性。

引用：

Bowman, S., Manning, C. and Potts, C. (2015). Tree-structured composition in neural networks without tree-structured architectures.

Hochreiter, S. (1998). The Vanishing Gradient Problem During Learning Recurrent Neural Nets and Problem Solutions. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 06(02), pp.107-116。

Tai, K., Socher, R. and Manning, C. (2015). Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks.

深入理解BERT Transformer ，不仅仅是注意力机制的更多相关文章

Transformer 和 Transformer-XL——从基础框架理解BERT与XLNet
目录写在前面1. Transformer1.1 从哪里来?1.2 有什么不同?1.2.1 Scaled Dot-Product Attention1.2.2 Multi-Head Attention1 ...
Transformer可解释性：注意力机制注意到了什么？
原创作者 | FLPPED 论文: Self-Attention Attribution: Interpreting Information Interactions Inside Transform ...
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
理解BERT:一个突破性NLP框架的综合指南
概述 Google的BERT改变了自然语言处理(NLP)的格局了解BERT是什么,它如何工作以及产生的影响等我们还将在Python中实现BERT,为你提供动手学习的经验 BERT简介想象一下-- ...
Non-local Neural Networks 原理详解及自注意力机制思考
Paper:https://arxiv.org/abs/1711.07971v1 Author:Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming ...
机器学习（ML）十二之编码解码器、束搜索与注意力机制
编码器—解码器(seq2seq) 在自然语言处理的很多应用中,输入和输出都可以是不定长序列.以机器翻译为例,输入可以是一段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如英语输入:“T ...
用卷积神经网络和自注意力机制实现QANet（问答网络）
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/ ,学习更多的机器学习.深度学习的知识! 在这篇文章中,我们将解决自然语言处理(具体是指问答)中最具挑战性 ...
【注意力机制】Attention Augmented Convolutional Networks
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...

随机推荐

剑指offer 12.代码的完整性数值的整数次方
题目描述给定一个double类型的浮点数base和int类型的整数exponent.求base的exponent次方. 本人渣渣代码: public double Power(double ba ...
数据库if判断语句
THEN '青年' ELSE '未成年' END) as age_text from user 更多写法参考:http://www.cnblogs.com/martinzhang/p/3220595. ...
百度短信API开发
由于楼主学的是C#,所以目前做的百度短信API是C#版的,废话不说了,直接上代码. public void PostData() { string url = "http://sms.bj. ...
nginx ssl通讯优化思路
TLS通讯过程中主要做的两件事情: 1.交换密钥 2.加密数据如果优化的话,主要也是从这两个点来考虑优化: 1.nginx 打开session cache 如一天内不需要再次协商密钥. 2.小文件较 ...
视频流PS，PS封装H264
出处: ISOIEC 13818-1 PS流: PS流由PSGOP组成,每个PSGOP是由I帧起始的多帧集合,每个GOP之间没有相互依赖信息,可以剪切拼接. | PSGOP0 | PSGOP1 | P ...
python3学习笔记13（数据结构）
参考http://www.runoob.com/python3/python3-data-structure.html 列表列表是可修改的. 列表方法让列表可以方便的作为一个堆栈来使用,堆栈作为特定 ...
spring 事物不回滚
使用spring控制事物,为什么有些情况事物,事物不回滚呢?? 默认spring事务只在发生未被捕获的 RuntimeException时才回滚. spring aop 异常捕获原理: 被拦截的 ...
CentOS 7下Samba服务安装与配置详解
1. Samba简介 Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成.SMB(Server Messages Block,信息服务块)是一种在局域网上共 ...
Windows和MacOS的比较——不断完善和补充，欢迎吐槽
1. 鼠标滚轮的方向不一样,Windows上滚轮朝下,页面滚动条也会朝下.而Mac上则相反. 2. Windows上有Home和End键,经常可以Ctrl+Home,Ctrl+End,Ctrl+Shi ...
English 翻译到Vyeshal的软件
我或许可以做一个从英语到Vyeshal的翻译软件2333

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制的更多相关文章

随机推荐

热门专题