读论文
Neural Machine Translation by Jointly Learning to Align and Translate

这个论文是在NLP中第一个使用attention机制的论文。他们把attention机制用到了神经网络机器翻译(NMT)上。NMT其实就是一个典型的sequence to sequence模型,也就是一个encoder to decoder模型,传统的NMT使用两个RNN,一个RNN对源语言进行编码,将源语言编码到一个固定维度的中间向量,然后在使用一个RNN进行解码翻译到目标语言。

直接来看这个模型

\(c_{i} = \sum_{j=1}^{T_{x}}\alpha_{i,j}h_{j}\)

\(\alpha_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^{T_{x}}exp(e_{i,k})}\)

\(e_{ij} = a(s_{i-1},h_{j})\)

我们使用一个前馈神经网络来对对齐网络模型\(a\)进行参数化。(在这里有一个知识点需要取了解什么是前馈神经网络)。对于这个前馈神经网络模型,是整体模型的一部分,所以参数会随着整体模型的其他部分异同进行训练更新,而不是单独把这个模型拿出来训练。

值得注意的是这个对齐模型并不是一个隐变量(什么是隐变量在这里有一个解释。这个对齐模型是一个软对齐模型,允许损失函数的梯度进行反向传播并更新(这里我并没有看懂,为啥软对齐模型可以达到这个效果)。换句话讲,这个对齐模型可以和整个翻译模型一起进行训练更新。

我们把计算隐层状态权重和的过程可以理解为一个求期望隐层状态表达的过程。
我们可以把\(\alpha_{i,j}或者是说与它相关\)当做是一个概率。这个概率的含义就是目标单词\(y_{i}\)和源单词\(x_{j}\)对齐的概率。或者说,目标单词\(y_{i}\)是从源单词\(x_{j}\)翻译过来的概率带下。然后对于目标单词\(y_{i}\)来说的,它的环境向量\(c_{i}\)是一个期望中的表达,这个表达是基于annotations(这里指的是所有的隐层状态)和相对应的\(\alpha_{ij}\)的结合计算。

\(\alpha_{i,j}\)或者\(e_{i,j}\)反应出的是\(h_{j}\)和上一层隐层状态\(s_{i-1}\)对于下一个隐层状态\(s_{i}\)和下一个单元输出\(y_{i}\)

解码器应用这个attention机制,从而决定在原始句子中的哪个部分需要花费更多的注意力。通过使用这个机制,编码器消除了一个负担,这个负担就是不得不把所有的原始句子信息经过神经网络由一个固定长度的向量表达。其实用了这个机制,长度也是固定的,只不过对于现在这个机制,这个向量会针对不同的目标单词有着不同的环境向量。

我自己有一个思考,在整个模型训练完成之后,我们得到的应该是一个权重矩阵C。为什么这么说呢,因为针对每个目标单词,我们都有一行的权重(其中这一行的每一个权重值代表的是输入句子中的每个单词的重要程度)。

对于这个权重矩阵\(C_{i}\)是权重矩阵的一行,表示对于目标单词\(y_{i}\)输入句子每个单词对应的重要程度。

对于\(\alpha_{i.j}\),它表示的是一个单词的重要程度,是\(C_{i}\)中的一个具体单词的重要程度。

现在我自己有一种感觉,就是说,这个权重矩阵,学习的重要程度,从现在我直观感受来说,它是一种两种翻译语言的语法关系。是输入句子一个位置对输出句子中的一个位置的影响程度,这个并没有体现出意思之间的对应的关系。

我们使用的是只有一层的多层感知机来计算\(a(s_{i-1},h_{j})=v_{a}^Ttanh(W_{a}s_{i-1}+U_{a}h_{j}\)

(其实这里并没有搞清楚为啥是一个多层感知机模式。多层感知机其实是一个最简单的神经网络模型,如果看做是一个多层感知机,那么输入是\(s_{i-1}\)和\(h_{j}\),怎么会有两个输入呢?)

在原始论文中,作者说\(U_{a}h_{j}\)并没有依赖于\(i\),那么我们可以提前将这个东西算出来减少计算消耗。(那么这一步提前算出来是怎么实现的呢?)

对Neural Machine Translation by Jointly Learning to Align and Translate论文的详解的更多相关文章

  1. 神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

    论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 背景及问题 背景: 翻译: 翻译模型学习条件分布 ...

  2. [笔记] encoder-decoder NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

    原文地址 :[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate (arxiv.org) ...

  3. 课程五(Sequence Models),第三周(Sequence models & Attention mechanism) —— 1.Programming assignments:Neural Machine Translation with Attention

    Neural Machine Translation Welcome to your first programming assignment for this week! You will buil ...

  4. Sequence Models Week 3 Neural Machine Translation

    Neural Machine Translation Welcome to your first programming assignment for this week! You will buil ...

  5. Effective Approaches to Attention-based Neural Machine Translation(Global和Local attention)

    这篇论文主要是提出了Global attention 和 Local attention 这个论文有一个译文,不过我没细看 Effective Approaches to Attention-base ...

  6. On Using Very Large Target Vocabulary for Neural Machine Translation Candidate Sampling Sampled Softmax

    [softmax分类器的加速器] https://www.tensorflow.org/api_docs/python/tf/nn/sampled_softmax_loss This is a fas ...

  7. 【转载 | 翻译】Visualizing A Neural Machine Translation Model(神经机器翻译模型NMT的可视化)

    转载并翻译Jay Alammar的一篇博文:Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models Wi ...

  8. Learning Cocos2d-x for WP8(5)——详解Menu菜单

    原文:Learning Cocos2d-x for WP8(5)--详解Menu菜单 C#(wp7)兄弟篇Learning Cocos2d-x for XNA(5)——详解Menu菜单 菜单是游戏必不 ...

  9. Introduction to Neural Machine Translation - part 1

    The Noise Channel Model \(p(e)\): the language Model \(p(f|e)\): the translation model where, \(e\): ...

随机推荐

  1. [Java][Liferay] File system in liferay

    EditFileEntryAction.java protected FileEntry updateFileEntry(PortletConfig portletConfig, ActionRequ ...

  2. css画扇形按钮

    最近项目中需要制作一个扇形按钮,效果是这样的: 周围四个扇形,和中间的小圆,全是能点击的.这就需要画扇形.百度了一下,有很多文章讲了如何生成扇形,最后我借鉴了一个最简单的实现方式,使用css的clip ...

  3. 企业工商营业执照副本模板PSD源文件素材下载

    企业工商营业执照副本PSD模板下载地址: http://www.qijieworld.com/thread-1911181-1-1.html 模板为psd格式内容可编辑修改,需使用 Photoshop ...

  4. Miner3D 数据分析软件

    现在,越来越多的专业人士愿意选择Miner3D来帮助他们进行快速高效的智能决策,因为它是一个功能强大.专业性强.海量数据存储能力.三维可视化效果逼真的数据分析解决工具.Miner3D凭借出色的图形质量 ...

  5. 转:解决Arcsde用户锁定的问题

    采用arcgis平台做GIS应用的人,可能偶尔碰到sde用户锁定(Arccatalog 或应用程序异常退出的时比较多)的问题,往往咱们解决的办法是重启sde服务.如果一个服务器上有多个连接时,重启服务 ...

  6. iphone 微信下浏览器中数字去除下划线

    在开发iphone应用程序的时候,safari下手机号码默认是有下划线的,通过下面的方法就可以去掉: <meta name="format-detection" conten ...

  7. sharepoint 查阅项SPFieldLookup 赋值 .

    在项目中,经常会涉及列表或者文档库之间的相互引用,而这个时候我们用的更多的就是查阅项(lookup),以前没有去关注取值或者赋值的问题,今天正好碰到一个Case,就顺道总结一下.我们知道链接和图片的字 ...

  8. React 环境搭建及页面调试方法

    React 环境搭建及页面调试方法 |作者:RexFang |出处:http://www.cnblogs.com/rexfang/ |关于作者:Java 程序员一枚 |版权:本文版权归作者和博客园共有 ...

  9. 实现vmare虚拟机系统随主机开机自动启动

    服务器主机上的虚拟机每次开机要手动启动是很麻烦的事,so,在网上找到一方法让虚拟机随主机开机自动运行:挺方便的,记录下来: 1.操作环境 主机:windows 2003 虚拟机:centos6 2.下 ...

  10. 1.jdk的安装

    1.下载jdk放到某(E)盘底下的(java)某文件夹里 2.配置环境变量 (1)配置JAVA_HOME,CLASSPATH,PATH三个变量 其中JAVA_HOME必须的 JAVA_HOME=E:\ ...