王树森Attention与Self-Attention学习笔记

iSherryZhang 2024-10-12 21:03:00 原文

目录

Seq2Seq + Attention
- Attention的原理
  - 方法一（Used in the original paper）
  - 方法二（more popular，the same to Transformer）
- Summary
Self Attention
- SimpleRNN与Attention当前状态计算对比
Reference

Seq2Seq + Attention

Seq2Seq模型，有一个Encoder和一个Decoder，默认认为Encoder的输出状态h_m包含整个句子的信息，作为Decoder的输入状态s_0完成整个文本生成过程。这有一个严重的问题就是，最后的状态不能记住长序列，也就是会遗忘信息，那么Decoder也就无法获得此信息。

用传统的Seq2Seq模型，当句子长度超过20个单词是，BLEU Score（机器翻译评价指标）就会下降；但是如果用上Attention，就会如下图红色曲线一样，即使输入序列很长也能保持较高的准确率。

使用Attention解决机器翻译的原文为：Bahdanau, Cho, & Bengio, Neural machine translation by jointly learning to align and translate. In ICLR, 2015.

Attention能够极大提升Seq2Seq模型的准确率；用了Attention，Decoder每次更新状态的时候都会看一下Encoder的所有状态，这样子就不会遗忘了；Attention还可以告诉Decoder应该关注Encoder的哪个状态，这就是Attention名字的由来。Attention有一个极大的缺点是，计算量很大。

Attention tremendously improves Seq2Seq model
With attention, Seq2Seq model does not forget source input
With attention, the decoder knows where to focus
Downside: much more computation

Attention的原理

Attention使用\(c_i\)整合\(h_1, h_2, ..., h_m\)的信息，因此Attention机制可以解决LSTM遗忘的问题。

\(c_0 = \alpha_1h_1 + \alpha_2h_2 + ... + \alpha_mh_m\)，其中，\(\alpha_i\)表示\(h_i\)和\(s_0\)的相关性，称为权重。

相关性的计算方法有两种：

方法一（Used in the original paper）

求\(h_i\)和\(s_0\)的相关性，将\(h_i\)和\(s_0\)进行Concatenate，然后乘一个参数矩阵\(W\)，结果进行\(tanh\)约束到(-1, 1)之间，然后再乘以一个\(v^T\)，并对得到的结果进行Softmax处理。

方法二（more popular，the same to Transformer）

求\(h_i\)和\(s_0\)的相关性，分为三步进行计算：

Linear maps
- \(k_i = W_K · h_i\)
- \(q_0 = W_Q · s_0\)
Inner product
- \(\widetilde{\alpha_i} = k^T_{i}q_0\)
Normalization
- \([\alpha_1, ..., \alpha_m] = Softmax([\widetilde{\alpha_1}, ... \widetilde{\alpha_m}])\)

计算得到\(c_0\)后，将\(A'\)的三个输入进行concatenate，作为输入得到状态\(s_1\)。每一个状态\(s_i\)对应一个Context向量\(c_i\)来表示\(s_i\)与\(H\)的相关性。

假设Encoder有m步，Decoder有t步，就需要计算mt次权重，每次权重计算都要计算m个\(\alpha\)的值。所以，Attention的时间复杂度是mt，也就是Encoder和Decoder状态数量的乘积。

Attention在机器翻译任务的可视化，可以看到Decoder与Encoder的每个状态都相关，但是会重点关注某个或某些状态。

Summary

优点：

Standard Seq2Seq model：decoder只关注其当前状态
Attention：decoder还会关注encoders的所有状态解决遗忘问题并且告诉decoder哪里需要重点关注

缺点：高时间复杂度（假设源序列的长度为m，目标序列的长度是t）

Standard Seq2Seq：\(O(m + t)\)
Seq2Seq + attention：\(O(mt)\)

Self Attention

之前RNN里面，使用\(h_4\)和\(x_5\)计算得到\(h_5\)，使用self-attention机制，当前状态\(h_5\)的计算依赖由\(h_4\)变为\(c_4\)。\(c_4 = \alpha_1h_1 + \alpha_2h_2 + \alpha_3h_3 + \alpha_4h_4\)，其中，\(\alpha_i\)计算的是\(h_4\)与\(h_i\)之间的相关性，计算方式前面已经讲过。因为这里会计算自己与自己的相关性，因此称为self-attention。

SimpleRNN与Attention当前状态计算对比

SimpleRNN状态\(h_5\)的计算：

\(h_5 = tanh(A·{x_5\brack h_4} + b)\)

Self-Attention状态\(h_5\)的计算：

\(h_5 = tanh(A·{x_5\brack c_4} + b)\)

Reference

王树森的Attention机制讲解

王树森Attention与Self-Attention学习笔记的更多相关文章

王树森Transformer学习笔记
目录 Transformer Attention结构 Self-Attention结构 Multi-head Self-Attention BERT:Bidirectional Encoder Rep ...
SQL反模式学习笔记3 单纯的树
2014-10-11 在树形结构中,实例被称为节点.每个节点都有多个子节点与一个父节点. 最上层的节点叫做根(root)节点,它没有父节点. 最底层的没有子节点的节点叫做叶(leaf). 中间的节点简 ...
SQL反模式学习笔记9 元数据分裂
目标:支持可扩展性.优化数据库的结构来提升查询的性能以及支持表的平滑扩展. 反模式:克隆表与克隆列 1.将一张很长的表拆分成多张较小的表,使用表中某一个特定的数据字段来给这些拆分出来的表命名. 2.将 ...
SQL反模式学习笔记1 开篇
什么是“反模式” 反模式是一种试图解决问题的方法,但通常会同时引发别的问题. 反模式分类 (1)逻辑数据库设计反模式在开始编码之前,需要决定数据库中存储什么信息以及最佳的数据组织方式和内在关联方式. ...
SQL反模式学习笔记5 外键约束【不用钥匙的入口】
目标:简化数据库架构一些开发人员不推荐使用引用完整性约束,可能不使用外键的原因有一下几点: 1.数据更新有可能和约束冲突: 2.当前的数据库设计如此灵活,以至于不支持引用完整性约束: 3.数据库为外 ...
SQL反模式学习笔记2 乱穿马路
程序员通常使用逗号分隔的列表来避免在多对多的关系中创建交叉表, 将这种设计方式定义为一种反模式,称为“乱穿马路”. 目标: 存储多属性值,即多对一反模式:将多个值以格式化的逗号分隔存储在一个字段中 ...
SQL反模式学习笔记4 建立主键规范【需要ID】
目标:建立主键规范反模式:每个数据库中的表都需要一个伪主键Id 在表中,需要引入一个对于表的域模型无意义的新列来存储一个伪值,这一列被用作这张表的主键, 从而通过它来确定表中的一条记录,即便其他的列 ...
SQL反模式学习笔记6 支持可变属性【实体-属性-值】
目标:支持可变属性反模式:使用泛型属性表.这种设计成为实体-属性-值(EAV),也可叫做开放架构.名-值对. 优点:通过增加一张额外的表,可以有以下好处 (1)表中的列很少: (2)新增属性时,不需 ...
SQL反模式学习笔记7 多态关联
目标:引用多个父表反模式:使用多用途外键.这种设计也叫做多态关联,或者杂乱关联. 多态关联和EAV有着相似的特征:元数据对象的名字是存储在字符串中的. 在多态关联中,父表的名字是存储在Issue_T ...
SQL反模式学习笔记8 多列属性
目标:存储多值属性反模式:创建多个列.比如一个人具有多个电话号码.座机号码.手机号码等. 1.查询:多个列的话,查询时可能不得不用IN,或者多个OR: 2.添加.删除时确保唯一性.判断是否有值:这些 ...

随机推荐

Win11、Win10局域网共享文件报错：共享文件夹出现，您的账号已锁定，无法访问
解决方法,见: https://blog.csdn.net/dengww_/article/details/133887598 解决方法: https://blog.csdn.net/dengww_/ ...
乌克兰学者的学术图谱case2
======================================= 0. 学者:Солонін Ю.М. 中文翻译名:索洛宁·尤里·米哈伊洛维奇英文翻译名:Solonin Yuriy M ...
pytorch中使用vutils对多张图像进行拼接（import torchvision.utils as vutils）
1.png 2.png 在pytorch中使用torchvision的vutils函数实现对多张图片的拼接.具体操作就是将上面的两张图片,1.png和2.png的多张图片进行拼接形成一张图片,拼接后的 ...
RabbitMQ普通集群同一宿主机docker搭建
1.准备3个节点安装rabbitmq,搭建集群(注意:每个节点启动间隔15~20s,如果启动失败,需删除宿主机文件重新启动) 2.宿主机文件目录手动创建,并设置可操作权限准备宿主机文件目录 cd / ...
从0实现基于Linux socket聊天室-实现聊天室的登录、注册功能-3
上一篇我们已经讲了如何搭建一个多线程的服务器模型,可以支持多个客户端同时连接服务器,本篇我们来实现多个客户端,如何实现向服务器注册信息,并实现登录的功能. 数据结构接着上一篇的实例代码继续增加功能. ...
微信小程序wx.getUserInfo授权获取用户信息（头像、昵称）
这个接口只能获得一些非敏感信息,例如用户昵称,用户头像,经过用户授权允许获取的情况下即可获得用户信息,至于openid这些,需要调取wx.login来获取. index.wxml <!-- 当已 ...
流体饱和多孔介质的本构关系 + Föppl-von Kármán 方程
向有液体的多孔介质上施加应力,应力一部分分布到骨架上,一部分分布到孔隙流体上.骨架上的应力会导致变形,所以被称为 "有效应力".这里考虑拉伸应力为正,有效应力原理写为 \[\sig ...
2023 PTA天梯赛补题（L1 & L2）
2023 天梯赛 L1 & L2 补题 L1 L1-089 最好的文档输入输出题 #include<bits/stdc++.h> using namespace std; int ...
部署在阿里云上的项目收到了阿里云发送的shiro漏洞
编辑还记得在十月份凯哥发布过一篇修改若依系统编辑器的文章,然后为了方便大家浏览,凯哥就部署在服务器上了,结果,没想到最近收到了阿里云漏洞扫描通知: 编辑如果不修改的话:对于长期存在安全隐患 ...
【YashanDB知识库】同时设置默认值和非空约束时报错YAS-02070
[问题分类]功能使用 [关键字]YAS-02070 [问题描述] SQL create table test01(id int,name varchar(10)); insert into test0 ...