Attention 和self-attention

1.Attention

最先出自于Bengio团队一篇论文：NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE ，论文在2015年发表在ICLR。

encoder-decoder模型通常的做法是将一个输入的句子编码成一个固定大小的state，然后将这样的一个state输入到decoder中的每一个时刻，这种做法对处理长句子会很不利，尤其是随着句子长度的增加，效果急速下滑。

论文动机：是针对encoder-decoder长句子翻译效果不好的问题。

解决原理：仿造人脑结构，对一张图片或是一个句子，能够重点关注到不同部分。

论文解决思路：在生成当前词的时候，只要把上一个state与所有的input word作为融合，而后做一个权重计算。通过这种方式生成的词就会有针对性，在句子长度较长时效果尤其明显。

整体框架如下图：

2.Self-attention

出自于Google团队的论文：Attention Is All You Need ，2017年发表在NIPS。

论文动机：RNN本身的结构，阻碍了并行化；同时RNN对长距离依赖问题，效果会很差。

解决思路：通过不同词向量之间矩阵相乘，得到一个词与词之间的相似度，进而无距离限制。

整体结构：

multi-head attention:

将一个词的vector切分成h个维度，求attention相似度时每个h维度计算。由于单词映射在高维空间作为向量形式，每一维空间都可以学到不同的特征，相邻空间所学结果更相似，相较于全体空间放到一起对应更加合理。比如对于vector-size=512的词向量，取h=8，每64个空间做一个attention，学到结果更细化。

self-attention：

　　每个词位的词都可以无视方向和距离，有机会直接和句子中的每个词encoding。比如下图这个句子，每个单词和同句其他单词之间都有一条边作为联系，边的颜色越深表明联系越强，而一般意义模糊的词语所连的边都比较深。比如：law，application，missing，opinion。

Attention 和self-attention的更多相关文章

注意力机制---Attention、local Attention、self Attention、Hierarchical attention
一.编码-解码架构目的:解决语音识别.机器翻译.知识问答等输出输入序列长度不相等的任务. C是输入的一个表达(representation),包含了输入序列的有效信息. 它可能是一个向量,也可能是一 ...
可视化展示attention(seq2seq with attention in tensorflow)
目前实现了基于tensorflow的支持的带attention的seq2seq.基于tf 1.0官网contrib路径下seq2seq 由于后续版本不再支持attention,迁移到melt并做了进一 ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...
Attention and Augmented Recurrent Neural Networks
Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain SHAN CARTERGoogle Brain Sep ...
（转）Attention
本文转自:http://www.cosmosshadow.com/ml/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/2016/03/08/Attention.ht ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（二）引入attention机制
在上一篇博客中介绍的论文"Show and tell"所提出的NIC模型采用的是最"简单"的encoder-decoder框架,模型上没有什么新花样,使用CNN ...
深度学习之seq2seq模型以及Attention机制
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...
Attention Model（注意力模型）思想初探
1. Attention model简介 0x1:AM是什么深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但 ...
【NLP】Attention Model（注意力模型）学习总结
最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下. 此文大部分参考深度学习中的注意力机制( ...

随机推荐

Docker系列-(3) Docker-compose使用与负载均衡
上一篇文章介绍了docker镜像的制作与发布,本文主要介绍实际docker工程部署中经常用到的docker-compose工具,以及docker的网络配置和负载均衡. Docker-compose介绍 ...
Matlab Robotics Toolbox 仿真计算：Kinematics, Dynamics, Trajectory Generation
1. 理论知识理论知识请参考: 机器人学导论++(原书第3版)_(美)HLHN+J.CRAIG著++贠超等译机器人学课程讲义(丁烨) 机器人学课程讲义(赵言正) 2. Matlab Robotic ...
大数据学习笔记——Linux基本知识及指令(理论部分)
Linux学习笔记整理上一篇博客中,我们详细地整理了如何从0部署一套Linux操作系统,那么这一篇就承接上篇文章,我们仔细地把Linux的一些基础知识以及常用指令(包括一小部分高级命令)做一个梳理, ...
python学习-while
"""while 条件: 条件满足时,干的事情.如果条件一直满足,一直去重复的执行代码.直接条件不满足为止,停止循环."""# salary ...
android之 xml文件一般用到的属性
android:layout_above 将该控件的底部至于给定ID的控件之上android:layout_below 将该控件的顶部至于给定ID的控件之下android:layout_toLeftO ...
《Java基础知识》Java正则表达式
正则表达式定义了字符串的模式. 正则表达式可以用来搜索.编辑或处理文本. 正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别. 正则表达式实例一个字符串其实就是一个简单的正则表达式,例如 ...
重载和重写的区别？构造器 Contructor 构造器是否可被 override？
重载发生在同一类,方法名必须相同,参数类型不同,顺序不同,类型不同,方法返回值和返回类型可以不同重写发生在子父类,方法名.参数名参数列表必须相同.返回值范围小于等于父类,抛出异常范围小于等于父类 ...
JQuery 表单textarea控制字数
/** *textarea 字数限制 *obj textarea * maxlength 限制的最大字数 */ function textarealength(obj,maxlength){ var ...
ubuntu虚拟环境的操作
查看已经安装的虚拟环境:workon 退出虚拟环境,home目录下执行:deactivate 进入虚拟环境:workon 虚拟环境名
Zuul 详解，带视频
疯狂创客圈 Java 高并发[ 亿级流量聊天室实战]实战系列 [博客园总入口 ] 架构师成长+面试必备之高并发基础书籍 [Netty Zookeeper Redis 高并发实战 ] 前言 Crazy ...

Attention 和self-attention

Attention 和self-attention的更多相关文章

随机推荐

热门专题