Memory Network

转自：https://www.jianshu.com/p/e5f2b20d95ff，感谢分享！

基础Memory-network

传统的RNN/LSTM等模型的隐藏状态或者Attention机制的记忆存储能力太弱,无法存储太多的信息,很容易丢失一部分语义信息,所以记忆网络通过引入外部存储来记忆信息.记忆网络的一般框架如下图所示:

记忆网络

它包括四个模块:I(Input),G(Generalization),O(Output),R(Response),另外还包括一些记忆单元用于存储记忆.
Input:输入模块,用于将文本资源(文档或这KB)和问题(question)等文本内容编码成向量.然后文本资源向量会作为Generalization模块的输入写入记忆单元中,而问题向量会作为Output模块的输入.
Generalization:泛化模块,用于对记忆单元的读写,也就是更新记忆的作用.
Output:输出模块,Output模块会根据Question（也会进过Input模块进行编码）对memory的内容进行权重处理，将记忆按照与Question的相关程度进行组合得到输出向量.
Response:响应模块,将Output输出的向量转为用于回复的自然语言答案.

End-To-End Memory Networks

由于Memory-network的自身缺陷,不太容易使用反向传播进行训练,无法进行end-to-end的训练,所以在基础的模型之上进行了扩展,形成了可以end-to-end的模型.论文中提出了单层和多层两种架构，多层其实就是将单层网络进行stack。我们先来看一下单层模型的架构

单层 Memory Networks

单层Memory-network

输入模块:将文本资源sentence进行embedding得到文本向量保存到Output和Input两个记忆单元中,论文里介绍了两种方法BoW和位置编.BOW就是直接将一个句子中所有单词的词向量求和表示成一个向量的形式，这种方法的缺点就是将丢失一句话中的词序关系，进而丢失语义信息；而位置编码的方法，不同位置的单词的权重是不一样的，然后对各个单词的词向量按照不同位置权重进行加权求和得到句子表示。位置编码公式如下：lj就是位置信息向量

位置编码

此外，为了编码时序信息，比如Sam is in the bedroom after he is in the kitchen。我们需要在上面得到mi的基础上再加上个矩阵对应每句话出现的顺序，不过这里是按反序进行索引,所以最终每句话对应的记忆mi的表达式如下所示：

最终记忆向量

这里给的符号A是Input中的A矩阵,同理,Output中的记忆向量也是这种方法求得,只不过矩阵符号换成B,结果不是mi是ci.注这里参数矩阵A和B不是共享的,都需要参与训练.

思考:是否可以使用RNN/CNN对文本表示进行建模呢?

输出模块:上面的输入模块产生的两个记忆模块Output和Input.一个(Input)用于与问题计算,得出问题与各个memory slot的相关度,另一个(Output)用于与Input产生的相关度计算,得出答案输出.
首先看第一部分，将Question经过输入模块编码成一个向量u，与mi维度相同，然后将其与每个mi点积得到两个向量的相似度(也可以用其他方法计算相似度)，在通过一个softmax函数进行归一化(得到Question与各个memory slot的相关度评分或者说权重)：

多层模型

多层Memory-network

首先来讲，上面几层的输入就是下层o和u的和。至于各层的参数选择，论文中提出了两种方法（主要是为了减少参数量，如果每层参数都不同的话会导致参数很多难以训练）。

1. Adjacent：这种方法让相邻层之间的A=C。也就是说Ak+1=Ck，此外W等于顶层的C，B等于底层的A，这样就减少了一半的参数量。

2. Layer-wise（RNN-like)：与RNN相似，采用完全共享参数的方法，即各层之间参数均相等。Ak=...=A2=A1,Ck=...=C2=C1。由于这样会大大的减少参数量导致模型效果变差，所以提出一种改进方法，即令uk+1=Huk+ok，也就是在每一层之间加一个线性映射矩阵H。

总结:

Memory-Network可以用于MRC,KB-QA,多轮对话系统和语言模型建模.根据本人的理解,就是用于处理有历史信息(阅读理解中的文档,多轮对话的历史对话,以及语言建模中的前面的单词或字)的问题.本篇文章算是本人在学习memory-network时的笔记,所以有些地方写的不明白的可以参考大佬文章
知乎:呜呜哈 https://zhuanlan.zhihu.com/p/29679742.

Memory Network的更多相关文章

【RS】Collaborative Memory Network for Recommendation Systems - 基于协同记忆网络的推荐系统
[论文标题]Collaborative Memory Network for Recommendation Systems (SIGIR'18) [论文作者]—Travis Ebesu (San ...
【记忆网络 2 】 End-to-End Memory Network
继上一篇:Memory Network 1. 摘要引入了一个神经网络,在一个可能很大的外部记忆上建立了一个recurrent attention模型. 该体系结构是记忆网络的一种形式,但与该工作中的 ...
【记忆网络 1 】 Memory Network
2015年,Facebook首次提出Memory Network. 应用领域:NLP中的对话系统. 1. 研究背景大多数机器学习模型缺乏一种简单的方法来读写长期记忆. 例如,考虑这样一个任务:被告知 ...
Long-Short Memory Network(LSTM长短期记忆网络)
自剪枝神经网络 Simple RNN从理论上来看,具有全局记忆能力,因为T时刻,递归隐层一定记录着时序为1的状态但由于Gradient Vanish问题,T时刻向前反向传播的Gradient在T-1 ...
Windows中查看进程的资源消耗(cpu, Disk,Memory,NetWork)
1.通过Windows Task Manager 的 Performance Tab 可以看到总体的性能消耗情况. 2.如果想看系统中每个进程的资源消耗,可以点击下面的 Open Resource ...
论文笔记：Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering 2019-04-25 21: ...
Recurrent Neural Network[Content]
下面的RNN,LSTM,GRU模型图来自这里简单的综述 1. RNN 图1.1 标准RNN模型的结构 2. BiRNN 3. LSTM 图3.1 LSTM模型的结构 4. Clockwork RNN ...
论文笔记：Learning Dynamic Memory Networks for Object Tracking
Learning Dynamic Memory Networks for Object Tracking ECCV 2018Updated on 2018-08-05 16:36:30 Paper: ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http:/ ...

随机推荐

Spring事务的隔离级别和传播机制
七个传播机制:(红色字体的代表如果不设置传播机制时候默认的)PROPAGATION_REQUIRED-支持当前事务;如果不存在,创建一个新的. PROPAGATION_SUPPORTS-支持当前事务; ...
PAT 甲级 1046 Shortest Distance (20 分)（前缀和,想了一会儿）
1046 Shortest Distance (20 分) The task is really simple: given N exits on a highway which forms a ...
Python - Django - 作者表多对多关联书籍表
models.py 代码: from django.db import models # Create your models here. # 出版社 class Publisher(models.M ...
hadoop：/bin/bash: /bin/java: No such file or directory
Stack trace: ExitCodeException exitCode=127 In HADOOP_HOME/libexec/hadoop-config.sh look for the if ...
JS CSS写下拉菜单竖行
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Python2 中字典实现的分析【翻译】
在这片文章中会介绍 Python2 中字典的实现,Hash 冲突的解决方法以及在 C 语言中 Python 字典的具体结构,并分析了数据插入和删除的过程.翻译自python-dictionary-im ...
nginx 为什么受欢迎？
优势:1.高并发 2.可扩展性 3.高可靠性 4.热部署 5.BSD许可证如何做到以上优势呢?高并发:异步io非阻塞,占用更少资源,支持更多连接可扩展:模块化设计,第三方模块多高可靠:核心框架代码的 ...
学习笔记：oracle学习二：oracle11g数据库sql*plus命令之数据库交互、设置运行环境
目录 1.SQL*PLUS与数据库的交互 2.设置sql*plus运行环境 2.1 set命令简介 2.2 使用set命令设置运行环境 2.2.1 pagesize变量 2.2.2 NEWPAGE变量 ...
springboot集成elk 一： springboot + Elasticsearch
1.ELK介绍 1> Elasticsearch是实时全文搜索和分析引擎, 提供搜集.分析.存储数据三大功能: 是一套开放REST和JAVA API等结构提供高效搜索功能,可扩展的分布式系统. ...
【k8s第三步】Kubernetes-Dashboard仪表盘【已修正错误】
⒈下载描述文件 wget https://raw.githubusercontent.com/kubernetes/dashboard/v2.0.0-beta6/aio/deploy/recommen ...