1.Self-Attention

之前的RNN输入是难以并行化的，我们下一个输入可能依赖前一个输出，只有知道了前面的输出才能计算后面的输出。

于是提出了 self-attention ，但是这时候 $b^{i}$ 能够并行化计算

论文地址：https://arxiv.org/pdf/1706.03762.pdf

我们的输入 $x^{i}$，先经过一个Embedding，变成 $a^{i}$ ，然后丢进 self-attention 层中。如上图所示。

在self-attention中，我们的 $a^{i}$ 都乘上3个不同的矩阵，进行 transformation，得到3个不同的向量，分别是 $q$、$k$ 和 $v$。

$q$ 是query，它要去match的。$k$ 是key，用来被 $q$ match的；$v$ 是value，它是要被抽取出来的information。现在我们的每一个timestamp都有一个 $q$、$k$ 和 $v$ 这3个不同的向量。

接下来我们对拿每一个 $q$ 对每一个 $k$ 做attention。如上图所示，$q^{1}$ 和 $k^{1}$ 做attention，得到 $\alpha _{1,1}$，下标（1,1）表示 $q^{1}$ 和 $k^{1}$ 的attention

attention有许多算法，它做的本质事情就是吃两个向量，输出一个分数，这个分数表明两个向量有多匹配

然后 $q^{1}$ 和 $k^{i}$ 计算得到 $\alpha _{1,i}$ ，计算公式和计算示意图如上图所示。然后我们会把得到的 $\alpha _{1,i}$ 经过一个softmax，得到 $\hat{\alpha }_{1,i}$，如下图所示

得到 $\hat{\alpha }_{1,i}$ 后，让 $\hat{\alpha }_{1,i}$ 分别乘以 $v^{i}$后累加，得到 $b^{1}$，我们输出 sequence 的第一个向量就是 $b^{1}$。但可以发现我们产生 $b^{1}$ 就已经使用了整个 sequence 的信息。

self-attention 输入是一个 sequence，输出也是sequence

其他 $b^{i}$ 也是同样的计算流程，可以并行计算，比如 $b^{2}$，这样就得到了输出sequence的第二个向量

论文中的公式：$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$

Q、K、V是矩阵各个向量拼接而成的矩阵，整个矩阵计算的示意图如下图所示

从上面可以看到，self-attention 就是一连串矩阵运算。

2.Multi-Head Attention

我们用 2 heads 的情况举例，这种情况下，我们的 $q^{i}$ 会分裂成两个—— $q^{i,1}$ 和 $q^{i,2}$。

实际中 head 的数目也是参数，可以调

然后 $q^{i,1}$ 和 $k^{i,1}$ 、$k^{j,1}$ 分别计算 attention，最后计算出 $b^{i,1}$，如上图所示。用同样的步骤计算出 $b^{i,1}$ 和 $b^{i,2}$，把它们两个 concat 后乘以一个矩阵 $W^{o}$ ，得到 $b^{i}$。

论文中的公式：$Multi-Head(Q,K,V)=Concat(head_{1},...,head_{h})W^{o}$

其中$head_{i}=Attention(QW^{Q}_{i},KW^{K}_{i},VW^{V}_{i})$

但是 self-attention 没有用到 sequence 的位置信息

所以在输入 $x^{i}$ 经过 transformation 得到 $a^{i}$ 后，还要加上一个 $e^{i}$， $e^{i}$ 是人工设置的，这个 $e^{i}$ 代表了位置信息。

论文3.5节Positional Encoding

定义这个向量的方式有多种多样。比如，用 $p^{i}$ 表示位置信息，让 $p^{i}$ 和一个矩阵 $W^{p}$ 相乘得到的就是我们的 $e^{i}$

下面是做 self-attention 的一个动态示意图。可以看到 encoder 阶段 self-attention 是并行的且用到了所有单词的信息。

3.transformer

transformer 模型架构图如下图所示，对 encoder 和 decoder 使用了 self-attention 机制

左边是 encoder ，右边是 decoder

encoder 是左边灰色的图块，它可以重复 N 次，在 encoder 中，有一个 Multi-Head Attention 层，根据前面了解到的信息。这层的输入是一个 sequence，输出也是一个 sequence。如下图所示。

然后再经过 Add & Norm。Add 指我们会把 Multi-Head Attention 的输入和输出加起来得到 $b'$，Norm指我们会把得到的 $b'$ 做 Layer Norm。

Layer Norm 和 Batch Norm 的不同：

在做 Batch Norm 的时候，在同一个 batch 里面，对不同 data 同样的 dimension 做 normalization，希望整个 batch 里面同一个 dimension 的均值为0，方差为1。

Layer Norm 是给一组 data，我们希望不同 dimension 的均值为0，方差为1。如下图所示

之后再经过 Feed Forward ，它对刚刚的输出进行处理，然后再经过一个 Add & Norm。

下面看看右边的 decoder ，它也可以重复 N 次。

它的输入是上一个 tiemstamp 的输出，同样经过 embedding 和 positional encoding 后进入 decoder 中。decoder 的第一层是 Masked Multi-Head Attention，Masked 是说我们在做 self-attention 的时候这个 decoder 只会 attend 到它已经产生出来的 sequence。然后经过 Add & Norm ，再经过 Multi-Head，这个 Multi-Head Attention 会 attend 到之前 encoder 的输出，……，然后输出。

上面这张图显示了英语到法语翻译（eight attention heads之一）训练的 transformer 第5层到第6层中encoder 的 “it” 一词的 self-attention 分布。

可以看到 “it” attend 到了 animal，可以看到我们的模型自动学到了在做 attention 时，“it” 要 attend 到 “animal”。

当我们只改动左边的一个单词，把 tired 改为 wide。这句子里 “it” 再指动物，而是指 street，说它太宽了，我们的模型也能 attend 到 street。

详细文章：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

Self-Attention 和 Transformer的更多相关文章

Attention和Transformer详解
目录 Transformer引入 Encoder 详解输入部分 Embedding 位置嵌入注意力机制人类的注意力机制 Attention 计算多头 Attention 计算残差及其作用 B ...
2. Attention Is All You Need（Transformer）算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
[阅读笔记]Attention Is All You Need - Transformer结构
Transformer 本文介绍了Transformer结构, 是一种encoder-decoder, 用来处理序列问题, 常用在NLP相关问题中. 与传统的专门处理序列问题的encoder-deco ...
Attention & Transformer
Attention & Transformer seq2seq; attention; self-attention; transformer; 1 注意力机制在NLP上的发展 Seq2Seq ...
RealFormer: 残差式 Attention 层的Transformer 模型
原创作者 | 疯狂的Max 01 背景及动机 Transformer是目前NLP预训练模型的基础模型框架,对Transformer模型结构的改进是当前NLP领域主流的研究方向. Transformer ...
对Attention is all you need 的理解
https://blog.csdn.net/mijiaoxiaosan/article/details/73251443 本文参考的原始论文地址:https://arxiv.org/abs/1706. ...
Paper Reading - Attention Is All You Need ( NIPS 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of ...
[Attention Is All You Need]论文笔记
主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络.而性能最好的模型在encoder和decoder之间加了attentnion机制.本文提出一种新的网络结构,摒弃 ...
【转载】图解Transformer（完整版）！
在学习深度学习过程中很多讲的不够细致,这个讲的真的是透彻了,转载过来的,希望更多人看到(转自-张贤同学-公众号). 前言本文翻译自 http://jalammar.github.io/illustr ...

随机推荐

JAVA对象序列化和反序列化学习
JAVA序列化就是将JAVA对象转化为字节序列的过程,而JAVA反序列化就是将字节序列转化为JAVA对象的过程. 这一过程是通过JAVA虚拟机独立完成,所以一个对象序列化后可以在任意时间和任意机器上反 ...
MongoDB的使用学习之（三）安装MongoDB以及一些基础操作
原文链接:http://www.cnblogs.com/huangxincheng/archive/2012/02/18/2356595.html 此博主的 8天学通MongoDB 系列还是不错的,本 ...
2018-10-2-win10-uwp-win2d-特效
title author date CreateTime categories win10 uwp win2d 特效 lindexi 2018-10-02 21:20:46 +0800 2018-6- ...
Raven2
Raven2实验 0x01 寻找IP 本机IP:56.130 1. 使用 nmap -sn "ip6"#主机发现(不进行端口扫描) https://cloud.tencent.c ...
11.SUSE Linux服务器系统网卡配置重启问题
问题:系统更改IP地址重启服务时网卡信息不正确 linux#~ vi /etc/sysconfig/network/ifcfg-eth0 BOOTPROTO='static'BROADCAST='19 ...
linux使用v 2ray
一.安装配置服务端程序是时候使用了,因为相对安全,使用方法很简单,使用root权限执行以下命令即可 $ sudo -i 一顿安装后如图输入命令可以查看链接,然后在客户端使用这个链接就能配置好了 ...
alert(1) to win 5
function escape(s) { var text = s.replace(/</g, '<').replace(/"/g, '"'); // URLs tex ...
generator (2)
generator 的使用第一次调用next 时传参没有任何意义打印不出来任何结果 function * read(){ let a = yield 1; console.log(a); ...
三、MyBatis-全局配置文件
XML 映射配置文件(官方结构) MyBatis 的配置文件包含了会深深影响 MyBatis 行为的设置(settings)和属性(properties)信息.文档的顶层结构如下: configura ...
前端每日实战：25# 视频演示如何用纯 CSS 创作一个慧星拖尾效果的 loader 动画
效果预览按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以全屏预览. https://codepen.io/comehope/pen/YLRLaM 可交互视频教程此视频 ...

Self-Attention 和 Transformer

1.Self-Attention

2.Multi-Head Attention

3.transformer

Self-Attention 和 Transformer的更多相关文章

随机推荐

热门专题