深度学习之Attention Model（注意力模型）

1、Attention Model 概述

　　深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。

　　人脑的注意力模型，说到底是一种资源分配模型，在某个特定时刻，你的注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。

2、Encoder-Decoder框架

　所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。seq2seq问题简单的说，就是根据一个输入序列x，来生成另一个输出序列y。常见的应用有机器翻译，文档提取，问答系统等。Encoder-Decoder模型中的编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

　　Encoder-Decoder（编码-解码）是深度学习中非常常见的一个模型框架，比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的；比如这两年比较热的image caption的应用，就是CNN-RNN的编码-解码框架；再比如神经网络机器翻译NMT模型，往往就是LSTM-LSTM的编码-解码框架。因此，准确的说，Encoder-Decoder并不是一个具体的模型，而是一类框架。Encoder和Decoder部分可以是任意的文字，语音，图像，视频数据，模型可以采用CNN，RNN，BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder，我们可以设计出各种各样的应用算法。

　　Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，应用场景异常广泛，下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

　　对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成：

　　Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：

　　对于解码器Decoder来说，其任务是根据句子X的中间语义表示C和之前已经生成的历史信息y₁, y₂….y_i-1来生成i时刻要生成的单词y_i

3、Attention Model

　　在Encoder-Decoder框架中，在预测每一个y_i时对应的语义编码c都是一样的，也就意味着无论句子X中的每个单词对输出Y中的每一个单词的影响都是相同的。这样就会产生两个弊端：一是语义向量无法完全表示整个序列的信息，再者就是先输入的内容携带的信息会被后输入的信息稀释掉，或者说，被覆盖了。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码的准确度自然也就要打个折扣了。

　　为了解决上面的弊端，就需要用到我们的Attention Model（注意力模型）来解决该问题。在机器翻译的时候，让生成词不是只能关注全局的语义编码向量c，而是增加了一个“注意力范围”，表示接下来输出词时候要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出。模型结构如下：

　　此时生成目标句子单词的过程就成了下面的形式：

　　比如输入的是英文句子：Tom chase Jerry，Encoder-Decoder框架逐步生成中文单词：“汤姆”，“追逐”，“杰瑞”。在没加入Attention Model之前，生成的语义编码C是一致的，而加入之后，对应的语义编码可能如下：

　　其中，f2函数代表Encoder对输入英文单词的某种变换函数，比如如果Encoder是用的RNN模型的话，这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值；g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数，一般的做法中，g函数就是对构成元素加权求和，也就是常常在论文里看到的下列公式：

　　假设C_i中那个i就是上面的“汤姆”，那么T_x就是3，代表输入句子的长度，h₁=f(“Tom”)，h₂=f(“Chase”)，h₃=f(“Jerry”)，对应的注意力模型权值分别是0.6, 0.2, 0.2，所以g函数就是个加权求和函数。如果形象表示的话，翻译中文单词“汤姆”的时候，数学公式对应的中间语义表示Ci的形成过程类似下图：

　　这里还有一个问题：生成目标句子某个单词，比如“汤姆”的时候，你怎么知道AM模型所需要的输入句子单词注意力分配概率分布值呢？就是说“汤姆”对应的概率分布：

　　此时的Encoder和Decoder都采用RNN模型，我们来看看现在的Encoder-Decoder模型结构：

　　用下图可以较为便捷地说明注意力分配概率分布值的通用计算过程：

　　对于采用RNN的Decoder来说，如果要生成yi单词，在时刻t = i，我们是可以知道在生成Y_i之前的隐层节点t = i时刻的输出值Hⁱ的，而我们的目的是要计算生成Y_i时的输入句子单词“Tom”、“Chase”、“Jerry”对Y_i来说的注意力分配概率分布，那么可以用t = i时刻的隐层节点状态H_i去一一和输入句子中每个单词对应的RNN隐层节点状态h_j进行对比，即通过函数F(h_j, H_i)来获得目标单词Y_i和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息，区别只是在F的定义上可能有所不同。

4、论文中模型简述

　　论文中的模型结构图如下：

　　Encoder层：采用了双向的RNN网络，最后隐层的输出是两个向量的拼接 $h_t = [\leftarrow{h_t}, \rightarrow{h_t}]$ 。

　　Attention层：

　　其中

　　在上面公式中 $h_j$ 是Encoder层的隐层第 $j$ 时刻的输出，$s_{i-1}$ 是Decoder层第 $i-1$ 时刻隐层的输出。可以发现在计算 $c_i$ 的模型实际上是一个线性模型，而且 $c_i$ 事实上是Encoder层中各时刻隐层的输出的加权平均值。

　　Decoder层：采用了单向的RNN模型，第 $i$ 时刻的隐层的输出是 $s_i$ 。第 $i$ 时刻的输出和 $s_i, y_{i-1}, c_i$ 有关

　　因此引入Attention 机制，在机器翻译中，模型会自己去学得在不同时刻不同的权重系数 $a_{ij}$ 。

　　Attention 模型在深度学习中的应用越来越重要，这种切合人的大脑活动的模型也能更真实的模拟人的大脑。在机器翻译中，在传统的Encoder-Decoder 框架中，随着翻译的句子的增长，翻译的质量会下降（以人脑为例，句子太长，人也是无法记住整个句子然后进行翻译的，而是会分成小段，逐个的翻译）。这是因为，将一个长的句子编码成一个定长的向量很容易丢失句子中的信息。Attention 模型就能很好的解决该问题，每一时刻的翻译都只关注与之相关较大的部分，因此Attention 能提高长句子的翻译质量。除了在机器翻译中的应用，在文本分类以及其他的领域都有着广泛的应用。

深度学习之Attention Model（注意力模型）的更多相关文章

深度学习方法（九）：自然语言处理中的Attention Model注意力模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 上一篇博文深度学习方法(八):Enc ...
模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用
模型汇总24 - 深度学习中Attention Mechanism详细介绍:原理.分类及应用 lqfarmer 深度学习研究员.欢迎扫描头像二维码,获取更多精彩内容. 946 人赞同了该文章 Atte ...
NLP与深度学习（四）Transformer模型
1. Transformer模型在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]. ...
NLP与深度学习（六）BERT模型的使用
1. 预训练的BERT模型从头开始训练一个BERT模型是一个成本非常高的工作,所以现在一般是直接去下载已经预训练好的BERT模型.结合迁移学习,实现所要完成的NLP任务.谷歌在github上已经开放 ...
【神经网络与深度学习】Caffe Model Zoo许多训练好的caffemodel
Caffe Model Zoo 许多的研究者和工程师已经创建了Caffe模型,用于不同的任务,使用各种种类的框架和数据.这些模型被学习和应用到许多问题上,从简单的回归到大规模的视觉分类,到Siames ...
深度学习之加载VGG19模型分类识别
主要参考博客: https://blog.csdn.net/u011046017/article/details/80672597#%E8%AE%AD%E7%BB%83%E4%BB%A3%E7%A0% ...
深度学习之加载VGG19模型获取特征图
1.加载VGG19获取图片特征图 # coding = utf-8 import tensorflow as tf import numpy as np import matplotlib.pyplo ...
<A Decomposable Attention Model for Natural Language Inference>（自然语言推理）
http://www.xue63.com/toutiaojy/20180327G0DXP000.html 本文提出一种简单的自然语言推理任务下的神经网络结构,利用注意力机制(Attention Mec ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...

随机推荐

(6)Microsoft office Word 2013版本操作入门_文件封面，页首，页尾
1插入封面: 1.1光标移动到首段,按住 Ctrl+Enter键可以插入一个新页面. 1.2 插入--->封面可以在封面插入一个文件封面,里面的图片可以自己修改,文字标题也可以自己修改. 1. ...
MyBatis进阶使用——动态SQL
MyBatis的强大特性之一就是它的动态SQL.如果你有使用JDBC或者其他类似框架的经验,你一定会体会到根据不同条件拼接SQL语句的痛苦.然而利用动态SQL这一特性可以彻底摆脱这一痛苦 MyBati ...
Redis配置解读
eclipse安装阿里编码规约插件
点击帮助,Install New Software... 地址为https://p3c.alibaba.com/plugin/eclipse/update 然后选择安装, 一路next即可
[总结]vue开发常见知识点及问题资料整理（持续更新）
package.json中的dependencies与devDependencies之间的区别 –save-dev 和 –save 的区别我们在使用npm install 安装模块或插件的时候,有两 ...
简单选择排序算法的C++实现
简单选择排序采用最简单的选择方法,即在剩余序列中选出最小(或最大)的关键字,和剩余序列的第一个关键字交换位置,依次选择下去,直至使整个序列有序. 算法中两层循环的执行次数和初始序列没有关系,第二层循环 ...
Android Studio： Error:Cannot locate factory for objects of type DefaultGradleConnector, as ConnectorServiceRegistry
将别人的项目导入自己的环境下出现的问题. Gradle refresh failed; Error:Cannot locate factory for objects of type DefaultG ...
「Android」基于Binder通信的C/S架构体系认知
C/S架构(Client/Server,即客户机/服务器模式)分为客户机和服务器两层:第一层是在客户机系统上结合了表示与业务逻辑,第二层是通过网络结合了数据库服务器.简单的说就是第一层是用户表示层,第 ...
git 入门教程之分支策略
默认情况下合并分支常常直接使用 git merge 命令,是最方便快速的合并方法.其实这种情况下 git 采用的是 fast forward 模式,特点是删除分支后,会丢失分支信息,好像从来没存在该分 ...
Windows Zip/CentOS/Radhat系统安装Mysql5.7.x方法
CentOS/Redhat 安装: wget http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm rpm -Uvh ...

深度学习之Attention Model（注意力模型）

深度学习之Attention Model（注意力模型）的更多相关文章

随机推荐

热门专题