Attention is all you need

Transformer模型

Model Architecture

Transformer结构上和传统的翻译模型相同，拥有encoder-decoder structure

encoder：将一系列输入的符号表示$(x_1...,x_n)$映射到连续表示$z=(z_1....,z_n)$

decoder：将$z$解码出系列输出序列$(y_i,....,y_n)$

模型结构图：

上述结构图中：左侧为encoder结构，右侧为decoder结构

1、encoder结构：整体上encoder由两部分构成：1、Multi-head Attention；2、Feed Forwarded构成。在每一部分里面都是通过残差进行连接。(论文中对此的描述为：$LayerNorm(x+Sublayer(x))$其中$x+Sublayer(x)$就是一个残差连接的操作，而$LayerNorm$就是一个Norm所进行的一个操作。)

2、decoder结构整体与encoder相似，只是多了一个Masker Multi-Head Attention结构，这部分结构起到的作用为：因为如果是做序列预测（时间序列、翻译等）一般来说都是不去借助未来的数据，也就是说保证我们在预测$i$时候只考虑了$i$之前的信息。

This masking, combined with fact that the output embeddings are offset by one position, ensures that the predictions for position i can depend only on the known outputs at positions less than i.

Attention模型

在Transformer函数中设计的注意模型：

1、Scaled Dot-Product Attention

\[Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V
\]

对于上层结构通过翻译的角度进行理解：

下述步骤都是针对关键字Thinking

第一步：imput到values为

第二步：计算Score：通过计算Q和K的点积；通过分数来确定在对某个位置的单词进行编码时，对输入句子其他部分的关注程度。

第三步：从Divide到sofmax就是上述Attention公式里面$softmax$部分，后续然后乘V就是一层Attention

第四步：对加权值向量求和，这会在该位置（第一个单词）产生自注意力层的输出

QKV理解视频

https://www.youtube.com/watch?v=OyFJWRnt_AY

补充内容

1、encoder-decoder

https://proceedings.neurips.cc/paper_files/paper/2014/hash/09c6c3783b4a70054da74f2538ed47c6-Abstract.html

2、norm

Training state-of-the-art, deep neural networks is computationally expensive. One way to reduce the training time is to normalize the activities of the neurons.

正则化：$x=\frac{x-x_{min}}{x_{max}- x_{min}}$将数据都转化到$[0,1]$；以及标准化：$x=\frac{x- \mu}{\sigma}$将数据都转化为0均值同方差。在深度学习中常见4类标准化操作：

1、Bath-Norm；2、Layer-Norm；3、Instance-Norm；4、Group-Norm。这4类标准化化唯一区别就在对样本$\mu,\sigma$的计算区别。

定义如下计算公式：

\[\mu_i= \frac{1}{m}\sum_{k\in S_i}x_k
\]

\[\sigma_i= \sqrt{\frac{1}{m}\sum_{k\in S_i}(x_k- \mu_i)^2+\epsilon}
\]

4类标准化区别就在于对于参数$S_i$的定义！！！

如：对一组图片定义如下变量：$(N,C,H,W)$分别代表：batch、channel、height、width

Bath-norm：$S_i=\{k_C=i_C\}$

Layer-norm：$S_i=\{k_C=i_N\}$

Instance-norm：$S_i=\{k_C=i_C,K_N=i_N\}$

Group-norm：$S_i=\{k_N=i_N, \lfloor \frac{k_C}{C/G} \rfloor=\lfloor \frac{i_C}{C/G} \rfloor\}$

$G$代表组的数量，$C/G$每个组的通道数量

对于Layer-norm、batch-norm、Instance-norm、Group-norm理解直观的用下面一组图片了解：

图片来源：http://arxiv.org/abs/1803.08494

2.1 Batch-norm详细原理

参考：https://proceedings.mlr.press/v37/ioffe15.html

在原始论文中主要是将Batch-norm运用在图算法（CNN等）中，作者得到结论：通过添加Batch-norm可以加快模型的训练速度，模型效果较以前算法效果更加好

原理：对每一个特征独立的进行归一化

we will normalize each scalar feature independently, by making it have zero mean and unit variance.

对于每一层$d$维输入$x=(x^{(1)},...,x^{(d)})$通过:

\[\widehat{x}^{(k)}=\frac{x^{k}- E[x^{k}]}{\sqrt{Var[x^{k}]}}
\]

问题一：如果只是简单的对每一层输入进行简单的正则化将会改变该层所表示的内容（原文中提到：对于通过sigmoid函数处理的输入进行正则化将会导致原本应该的非线性转化为线性）

Note that simply normalizing each input of a layer may change what the layer can represent. For instance, normalizing the inputs of a sigmoid would constrain them to the linear regime of the nonlinearity.

通过构建$y^{(k)}=\gamma^{(k)}\widehat{x}^{(k)}+\beta^{(k)}$其中$\gamma^{(k)}=\sqrt{Var[x^{(k)}]}、\beta^{(k)}=E[x^{(k)}]$

问题二：在训练过程中运用的是全部的数据集，因此想要做到随机优化是不可能的，因为通过小批量随机梯度训练，在每一次小梯度过程中都会产生均值以及方差。（Batch Normalizing Transform）

2.2 Layer-norm详细原理

参考：http://arxiv.org/abs/1607.06450

针对Batch-norm的部分缺点以及其在序列数据上的表现较差，提出通过使用Layer-norm在序列数据（时间序列、文本数据）上进行使用

原理：通过从一个训练样例中计算用于归一化的所有神经元输入之和的均值和方差（也就是说直接对某个神经元的所有的输入进行标准化）

we transpose batch normalization into layer normalization by computing the mean and variance used for normalization from all of the summed inputs to the neurons in a layer on a single training case

\[\mu^l= \frac{1}{H}\sum_{i=1}^{H}a_i^l \\
\sigma^l=\sqrt{\frac{1}{H}\sum_{i=1}^{H}(a_i^l- \mu^l)^2}
\]

其中$H$代表隐藏层的数量、$a^l$代表一层神经元的输入、$\mu和\sigma$则分别代表该层神经元的均值以及方差。

2.3 Group-norm

参考：http://arxiv.org/abs/1803.08494

参考

1、http://arxiv.org/abs/1706.03762

论文《Attention is all you need》阅读笔记的更多相关文章

《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
（转）Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
生成对抗网络（Generative Adversarial Networks，GAN）初探
1. 从纳什均衡(Nash equilibrium)说起我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
生成对抗网络（Generative Adversarial Networks, GAN）
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
论文笔记之：Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型仔细理解了在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

【发现一个小问题】坑爹的官方日志库`golang.org/x/exp/slog`，凭啥不让我设置debug级别日志
作者:张富春(ahfuzhang),转载时请注明作者和引用链接,谢谢! cnblogs博客 zhihu Github 公众号:一本正经的瞎扯一个代码使用了官方的日志库"golang.org ...
Python获取内存、CPU利用率，CPU温度
最近一个项目的需求,在软件上加入硬件实时信息,大概搜索一下,没太好的结果,所以决定自己写一篇我的代码不难发现,都使用了psutil包,为什么呢,别的包我没太关注,纯粹是这台机的环境上有这个包如果大 ...
从python3到python2的踩坑
为什么要从py3到py2 背景:之前自学写过一些py3,而且我写的工具是基于python3来写的,但是公司项目是使用python2版本,希望已有工具或者新写的工具能同时在py2和py3上执行,所以记录 ...
关闭表单验证/关闭控制台async-validator警告
找到util.js node_modules -> async-validator -> es -> util.js 将console.warn(type, errors)注释如果 ...
面试官：什么是JIT、逃逸分析、锁消除、栈上分配和标量替换？
JIT.逃逸分析.锁消除.栈上分配和标量替换等都属于 JVM 的优化手段,JVM 优化手段是指在运行 Java 程序时,通过对字节码的编译和执行过程进行优化,以提升程序的性能和效率. JVM 优化手段 ...
JQ模糊查询插件
//构造函数写法 ;(function($,window,document,undefined){//注意这里的分号必须加 //插件的全部代码 var FazzSearch = function (e ...
完蛋，我被offer包围了｜秋招自救指南
前言白泽时隔8年终于记起了b站的密码,这篇文章的视频讲解版已经上传,出镜怪不好意思的,后面写技术文章也会同步用视频的方式讲解,期待您的关注. 公众号:白泽talk,交流群:622383022. 大家 ...
让python程序一直在window后台进程运行
一.让python程序后台运行 1.创建一个app.py文件,如 while 1: print(123)2.创建一个set_py.bat文件,里面写 python app.py3.创建一个start_ ...
Python学习之Pytorch
一.如何查看本机是否安装了Pytorch 在Python环境中查看是否安装了PyTorch可以通过几个简单的步骤来完成.这里有一些方法: 使用Python命令行: 打开你的命令行工具(比如Termin ...
win10安装和配置weblogic12c
下载和安装 http://www.oracle.com/technetwork/middleware/ias/downloads/wls-main-097127.html ● 将jar放到jdk的bi ...

论文《Attention is all you need》阅读笔记