5.3序列模型与注意力机制

觉得有用的话,欢迎一起讨论相互学习~Follow Me

3.7注意力模型直观理解Attention model intuition

长序列问题 The problem of long sequences

  • 对于给定的长序列的法语句子,在下图中的网络中,绿色的编码器读取整个句子,然后记忆整个句子,再在感知机中传递,紫色的解码神经网络将生成英文翻译。
  • 人工的方法不会通过读取在记忆整个句子中的内容,然后从零开始翻译成一个英语句子,人工翻译做的是先翻译出句子的部分,再看下一部分,并翻译这一部分,再看下一部分,然后翻译这一部分,一直进行下去。会一部分一部分的进行翻译,因为一次性看完并记忆所有句子是十分困难的。
  • 对于机器翻译的 编码解码 结构,对于短句子,其会有很高的Bleu得分,但是对于长句子 比如说大于30-40词 的句子而言,它的表现就会变差,而对于很短的句子由于很难从中学到有用的知识,翻译的性能也不太好。而对于长句子,注意力模型 会和人类翻译一样,每次翻译句子中的一部分,从而提高句子翻译长句子的能力。

注意力模型 Attention model intuition

Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.

  • 这个模型一般使用在长句子上,此处使用短句子进行举例。 示例 Jane visite I'Afrique en Septembre ,假定使用一个双向的RNN网络:

  1. 与普通的RNN不同的是,注意力模型不会看每一个输入的单词,而是对输入的每个单词选择一定的 注意力权重 用于 表示这个单词对于正在翻译的单词具有多大的影响 下图中的 \(\alpha^{<1,1>},\alpha^{<1,2>},\alpha^{<1,3>}\) 分别表示前三个单词对第一个词语的翻译具有的影响力。
  2. 对于第二个要翻译的单词,有 \(\alpha^{<2,1>},\alpha^{<2,2>},\alpha^{<2,3>}\) 用以表示在翻译第二个单词时,要分别放多少注意力在前三个单词上。并且前一步翻译的输出也会作为下一步的输入。


3.8注意力模型细节Attention model

  1. 特征提取模型 使用的双向循环神经网络,这样其对于 前向传播后向传播 分别有激活值\(\overrightarrow{a^{<t'>}}和\overleftarrow{a^{<t'>}}\) , 对于一个时间步,使用\(a^{<t'>}表示一组前向传播和后向传播的激活值 即 \overrightarrow{a^{<t'>}}和\overleftarrow{a^{<t'>}}\) ,即有 \(a^{<t'>}=(\overrightarrow{a^{<t'>}},\overleftarrow{a^{<t'>}})\)
  2. 翻译 使用的是一个单向循环神经网络,用状态S表示时间步序列,第一个时间步输出为\(y^{<1>}\),使用参数\(\alpha^{<1,t>}表示上下文的特征对状态S^{<t>}的翻译的影响\),使用\(C^{<t>}\)表示状态\(S^{<t>}\)时的输入。其中其满足以下公式:
    \[<1> 注意力权重之和为1\]
    \[\sum_{t'}\alpha^{<1,t'>}=1\]
    \[<2> 特征步的激活值和注意力权重的乘积之和成为翻译RNN的输入\]
    \[C^{<1>}=\sum_{t'}\alpha^{<1,t'>}a^{<t'>}\]

  • 即当你在t处生成输出词时,你应该花多少注意力在第t'个输入词上

注意力计算方法 Computing attention \(\alpha^{<t,t'>}\)

[1] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.
[2] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science, 2015:2048-2057.

  • \(a^{<t,t’>}\) 是你应该在\(a^{<t'>}\)上的注意力数量,但你需要翻译第t个输出的翻译词。

    • \(a^{<t,t'>}\)=amount of attention \(y^{<t>}\) should pay to \(a^{<t'>}\)
    • 公式
    • 要计算以上公式,重点是需要计算出\(e^{<t,t'>}\),而\(e^{<t,t'>}\)的计算需要通过上一个翻译状态的值\(s^{<t-1>}\)和上一个单项循环模块的输出值\(s^{<t-1>}\)

    • 即如果你想要决定要花多少注意力在t'的激活值上,它会很大程度的取决于上一个时间步的隐藏状态的激活值,你没有当前状态的激活值,因为上下文会输入到这里,所以当前状态的激活值还没有被计算出来。
    • 虽然我们能够知道\(a^{<t,t'>}\)的关键项和上一个状态的隐藏项\(s^{<t-1>}\)与特征提取模型中本状态的激活值\(a^{<t'>}\)有关,但并不知道明确的函数对应关系,这可以通过一个小型的神经网络进行学习这个函数。

      缺点 这个算法的缺点是其算法的复杂度是\(O(n^{3})\),如果有\(T_x\)个输入单词和\(T_y\)个输出单词,于是注意力参数的总数就是\(T_x乘以T_y\)

应用

  1. 这个算法不仅可以用于机器翻译,也可以被用于 图片加标题
  2. 日期标准化问题
    • July 20th 1969-->1969-07-20;
    • 23 April,1564-->1564-04-23
  3. 可视化不同输入输出的注意力权重

[DeeplearningAI笔记]序列模型3.7-3.8注意力模型的更多相关文章

  1. [DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述 对于音频片段(audio clip)x ,y生成文本 ...

  2. [DeeplearningAI笔记]序列模型1.7-1.9RNN对新序列采样/GRU门控循环神经网络

    5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.7对新序列采样 基于词汇进行采样模型 在训练完一个模型之后你想要知道模型学到了什么,一种非正式的方法就是进行一次新序列采 ...

  3. [DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.6Bleu得分 在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题. 常见的解决 ...

  4. [DeeplearningAI笔记]序列模型3.3集束搜索

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想要一 ...

  5. [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...

  6. [DeeplearningAI笔记]序列模型3.1基本的 Seq2Seq /image to Seq

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1基础模型 [1] Sutskever I, Vinyals O, Le Q V. Sequence to Se ...

  7. [DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN

    5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...

  8. [DeeplearningAI笔记]序列模型1.5-1.6不同类型的循环神经网络/语言模型与序列生成

    5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.5不同类型的循环神经网络 上节中介绍的是 具有相同长度输入序列和输出序列的循环神经网络,但是对于很多应用\(T_{x}和 ...

  9. [DeeplearningAI笔记]序列模型1.3-1.4循环神经网络原理与反向传播公式

    5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.3循环神经网络模型 为什么不使用标准的神经网络 假如将九个单词组成的序列作为输入,通过普通的神经网网络输出输出序列, 在 ...

随机推荐

  1. centos7.2下解决用Mysql 使用navicate远程连接数据库出现1045 access denied for user 'root'@'localhost' using password yes

    在mysql命令行中执行 SET PASSWORD FOR 'root'@'localhost' = PASSWORD('123456');  GRANT ALL PRIVILEGES ON *.*  ...

  2. sshpass 指定密码远程 ssh 到服务器 或者 scp 发送文件到服务器

    在操作linux时,虽然可以对linux配置免秘钥登录,但是在配置免密码登录之前,是需要登录到其他节点主机的,这里提供一种类似ssh的方式,可以在命令后面加上相应的参数来设置你将要登录的远程主机的密码 ...

  3. 解析DXF图形文件格式

    一.DXF文件格式分析 DXF文件由标题段.表段.块段.实体段和文件结束段5部分组成,其内容如下. ☆标题段(HEADER)标题段记录AutoCAD系统的所有标题变量的当前值或当前状态.标题变量记录了 ...

  4. haproxy入门 (作用: 高可用性,负载平衡和用于TCP和基于http的应用程序的代理)

    安装haproxy 1:RPM包安装 yum install -y haproxy   2:编译安装 http://www.haproxy.org/#down   例如安装1.7.9版本 http:/ ...

  5. 201621123037 《Java程序设计》第12周学习总结

    作业12-流与文件 标签(空格分隔): Java 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 答: 读取操作 从文件中读取: 1.字节流 InputStr ...

  6. Kotlin在处理GET和POST请求的数据问题

    1.网络请求获取到的数据流处理 java写法 BufferedReader br = new BufferedReader(new InputStreamReader(in, "utf-8& ...

  7. udp 局域网群聊

    UDP: 无连接协议 udp协议发送数据,用的是数据报包的形式.(64KB以内)     发送端: 1.定义发送的datagramsocket对象,发送端可以不用定义端口 2.定义封装数据包datag ...

  8. 【beta】Scrum站立会议第4次....11.6

    小组名称:nice! 组长:李权 成员:于淼  刘芳芳韩媛媛 宫丽君 项目内容:约跑app(约吧) 时间:  12:00——12:30 地点:传媒西楼220室 本次对beta阶段的需求进行更新如下: ...

  9. (四)Jmeter之逻辑控制器(Logic Controller)

    Jmeter之逻辑控制器(Logic Controller) 前言: 1. Jmeter官网对逻辑控制器的解释是:“Logic Controllers determine the order in w ...

  10. 新浪 ip 地址库

    API地址:http://int.dpool.sina.com.cn/iplookup/iplookup.php 帮助 1 2 3 4 5 6 7 8 function get_location($i ...