0. 目录

1. 前言

谷歌在2017年发表了一篇论文名字教Attention Is All You Need，提出了一个只基于attention的结构来处理序列模型相关的问题，比如机器翻译。传统的神经机器翻译大都是利用RNN或者CNN来作为encoder-decoder的模型基础，而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式，并没有用任何CNN或者RNN的结构。该模型可以高度并行地工作，所以在提升翻译性能的同时训练速度也特别快。

回到顶部

2. Transformer模型结构

Transformer的主体结构图：

2.1 Transformer的编码器解码器

模型分为编码器和解码器两个部分。

编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的自注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接，然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是dmodeldmodel。
解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层，解码器还加入了第三个支层，如图中所示同样也用了residual以及layer normalization。具体的细节后面再讲。

2.2 输入层

编码器和解码器的输入就是利用学习好的embeddings将tokens（一般应该是词或者字符）转化为d维向量。对解码器来说，利用线性变换以及softmax函数将解码的输出转化为一个预测下一个token的概率。

2.3 位置向量

由于模型没有任何循环或者卷积，为了使用序列的顺序信息，需要将tokens的相对以及绝对位置信息注入到模型中去。论文在输入embeddings的基础上加了一个“位置编码”。位置编码和embeddings由同样的维度都是dmodeldmodel所以两者可以直接相加。有很多位置编码的选择，既有学习到的也有固定不变的。

2.4 Attention模型

2.4.1 Scaled attention

论文中用的attention是基本的点乘的方式，就是多了一个所谓的scale。输入包括维度为dkdk的queries以及keys，还有维度为dvdv的values。计算query和所有keys的点乘，然后每个都除以dk−−√dk（这个操作就是所谓的Scaled）。之后利用一个softmax函数来获取values的权重。
实际操作中，attention函数是在一些列queries上同时进行的，将这些queries并在一起形成一个矩阵QQ同时keys以及values也并在一起形成了矩阵KK以及VV。则attention的输出矩阵可以按照下述公式计算：

Attention(Q,K,V)=softmax(QKTdk−−√)VAttention(Q,K,V)=softmax(QKTdk)V

2.4.2 Multi-Head Attention

本文结构中的Attention并不是简简单单将一个点乘的attention应用进去。作者发现先对queries，keys以及values进行hh次不同的线性映射效果特别好。学习到的线性映射分别映射到dkdk，dkdk以及dvdv维。分别对每一个映射之后的得到的queries，keys以及values进行attention函数的并行操作，生成dvdv维的output值。具体结构和公式如下。

MultiHead(Q,K,V)=Concat(head1,...,headh)MultiHead(Q,K,V)=Concat(head1,...,headh)

where:headi=Attention(QWiQ,KWiK,VWiV)where:headi=Attention(QWiQ,KWiK,VWiV)

2.4.3 模型中的attention

Transformer以三种不同的方式使用了多头attention。

在encoder-decoder的attention层，queries来自于之前的decoder层，而keys和values都来自于encoder的输出。这个类似于很多已经提出的seq2seq模型所使用的attention机制。
在encoder含有self-attention层。在一个self-attention层中，所有的keys,values以及queries都来自于同一个地方，本例中即encoder之前一层的的输出。
类似的，decoder中的self-attention层也是一样。不同的是在scaled点乘attention操作中加了一个mask的操作，这个操作是保证softmax操作之后不会将非法的values连到attention中。

2.4.4 Feed Foreword

每层由两个支层，attention层就是其中一个，而attention之后的另一个支层就是一个前馈的网络。公式描述如下。

FFN(x)=max(0,xW1+b1)W2+b2FFN(x)=max(0,xW1+b1)W2+b2

回到顶部

3. 总结

模型的整体框架基本介绍完了，其最重要的创新应该就是Self-Attention和Multi-Head Attention的架构。在摒弃传统CNN和RNN的情况下，还能提高表现，降低训练时间。Transformer用于机器翻译任务，表现极好，可并行化，并且大大减少训练时间。并且也给我们开拓了一个思路，在处理问题时可以增加一种结构的选择。

从Encoder-Decoder(Seq2Seq)理解Attention的本质的更多相关文章

6. 从Encoder-Decoder(Seq2Seq)理解Attention的本质
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
seq2seq和attention应用到文档自动摘要
一.摘要种类抽取式摘要直接从原文中抽取一些句子组成摘要.本质上就是个排序问题,给每个句子打分,将高分句子摘出来,再做一些去冗余(方法是MMR)等.这种方式应用最广泛,因为比较简单.经典方法有Lex ...
完全图解RNN、RNN变体、Seq2Seq、Attention机制
完全图解RNN.RNN变体.Seq2Seq.Attention机制本文主要是利用图片的形式,详细地介绍了经典的RNN.RNN几个重要变体,以及Seq2Seq模型.Attention机制.希望这篇文章 ...
从Seq2seq到Attention模型到Self Attention
Seq2seq Seq2seq全名是Sequence-to-sequence,也就是从序列到序列的过程,是近年当红的模型之一.Seq2seq被广泛应用在机器翻译.聊天机器人甚至是图像生成文字等情境. ...
深入理解Attention机制
要了解深度学习中的注意力模型,就不得不先谈Encoder-Decoder框架,因为目前大多数注意力模型附着在Encoder-Decoder框架下,当然,其实注意力模型可以看作一种通用的思想,本身并不依 ...
Atitit 深入理解软件的本质 attilax总结软件三原则"三次原则"是DRY原则和YAGNI原则的折
Atitit 深入理解软件的本质 attilax总结软件三原则"三次原则"是DRY原则和YAGNI原则的折 1.1.1. 软件的本质:抽象 1 1.2. 软件开发的过程就是不断 ...
自定义Encoder/Decoder进行对象传递
转载:http://blog.csdn.net/top_code/article/details/50901623 在上一篇文章中,我们使用Netty4本身自带的ObjectDecoder,Objec ...
比sun.misc.Encoder()/Decoder()的base64更高效的mxBase64算法
package com.mxgraph.online; import java.util.Arrays; /** A very fast and memory efficient class to e ...
Netty自定义Encoder/Decoder进行对象传递
转载:http://blog.csdn.net/top_code/article/details/50901623 在上一篇文章中,我们使用Netty4本身自带的ObjectDecoder,Objec ...
RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型总结
RNN RNN的发源: 单层的神经网络(只有一个细胞,f(wx+b),只有输入,没有输出和hidden state) 多个神经细胞(增加细胞个数和hidden state,hidden是f(wx+b) ...

随机推荐

Isaac Sim 机器人仿真器介绍、安装与 Docker [1]
前言与参考此文书写于: January 6, 2023, 更新于 January 6, 2023 :可能会随着时间的变化此教程会有过时概念哦 Isaac Sim 相关参考链接: 官方文档地址官方 ...
word取消保护
没有文档的保护密码可尝试用此方式,亲测有效 Excel.PPT 应该也可以,没试过 1.新建空白文档 2.插入.对象 3.点击[对象]右边的箭头,选择被加密的文件. 建议两个选项都试一下,我的第二 ...
Java入门及环境搭建
1.JAVA三大版本 JAVASE(标准版:桌面程序开发.控制台开发...) JAVAME(嵌入式:手机程序.小家电...) JAVAEE(企业级:web端.服务器开发...) 2.开发环境 JDK: ...
[Leetcode]旋转链表
题目代码 /** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * Li ...
Python 内置界面开发框架 Tkinter入门篇
本文大概 4158 个字,阅读需花 10 分钟内容不多,但也花了一些精力如要交流,欢迎关注我然后评论区留言谢谢你的点赞收藏分享首先,今天先给大家拜个好年!新年快乐,恭喜发财!为了感谢大家对我的 ...
BUG日记---SSM进行多表查询错误-----页面使用<c:foreach>错误
javax.servlet.ServletException: javax.servlet.jsp.JspTagException: Don't know how to iterate over su ...
drf基础：1、web应用模式、API接口、接口测试工具
drf入门一.web应用模式 web的应用模式共分为两种,前后端不分离.前后端分离 1.前后端混合之前所写的bbs项目就是前后端不分离,后端人员在开发过程中使用模板语法,前后端都由一个人员 ...
Containerd NRI 插件
Github:https://github.com/containerd/nri.git Slide:https://static.sched.com/hosted_files/kccncna2022 ...
高精度计算模板 -感谢acwing
高精度加 1 // C = A + B, A >= 0, B >= 0 2 vector<int> add(vector<int> &A, vector&l ...
Vue05 初识
1 下载vue.js 进入官网下载两个版本的vue.js 开发版本和生成版本的区别开发版本体量更大,包含完整的警告和调试模式生成版本体量更小,删除了警告 2 打开VSCode 新建一个空文件夹v ...

从Encoder-Decoder(Seq2Seq)理解Attention的本质

0. 目录

1. 语言模型

2. Attention Is All You Need（Transformer）算法原理解析

3. ELMo算法原理解析

4. OpenAI GPT算法原理解析

5. BERT算法原理解析

6. 从Encoder-Decoder(Seq2Seq)理解Attention的本质