Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇

本文链接：https://blog.csdn.net/liuchonge/article/details/70238350

最近忙着实验室的项目，一直没有时间做仿真，所以就先写一下之前看的一篇文章，总结一下吧。这次要说的是Gated CNN，这也是第一次将门限控制引入到CNN中的文章，感觉十分有新意，效果也很棒。下面我们来看一下，文章的主要贡献包括：

提出一种新的门控机制
缓解梯度传播，降低梯度弥散等现象
相比LSTM，模型更加简单，收敛速度更快
模型的结构图如下所示：

首先我们可以通过堆叠CNN来标识长文本，提取更高层、更抽象的特征，而且相比LSTM而言，我们需要的op更少（CNN需要O(N/k)个op，而LSTM将文本视为序列需要O(N)个op，其中N为文本长度，k为卷积核宽度），这样一来，我们需要的非线性操作也更少，有效地降低了梯度弥散的现象，使模型收敛和训练变得更加简单。此外，LSTM中模型下一时刻的输出依赖于前一个时刻的隐藏层状态，无法实现模型并行化。但是，CNN无需这种依赖，可以方便的实现并行化，从而实现计算速度的提升。最后，本文中提出的线性门控单元不仅有效地降低了梯度弥散，而且还保留了非线性的能力。接下来我们看一下模型的具体实现方法：
从上图可以看出，其主要结构跟原始的CNN并无很大差异，只不过在卷积层引入了门控机制，将卷积层的输出变成了下面的公式，即一个没有非线性函数的卷积层输出*经过sigmod非线性激活函数的卷积层输出：

其中W和V是不同的卷积核，卷积核宽度为k，输出通道数为n，b和c是偏置参数。而且这里使用的是宽卷积，但是论文中对于使用宽卷积的原因的描述我没有看太懂=-=。上面公式中的后半部分，即有激活函数的卷积就是所谓的门控机制，其控制了X*W+b中哪些信息可以传入下一层。这里将其定义为Gated Linear Units (GLU).然后就可以将该模型进行堆叠，以捕获Long_Term memory。
文中还论述了关于不同门控单元的效果，首先其提出CNN中不需要像LSTM那样复杂的门限机制，不需要忘记门，一个输入门就足够了。此外，还提出了另外一种门控单元GTU，如下所示：

作者从梯度的角度对两种门控单元进行了分析，发现GTU会衰减的比较快，因为其梯度公式中包含两个衰减项。而GLU只有一个衰减项，可以较好地减轻梯度弥散。

实验结果

实验用了WikiText-103和GBW两个数据集，结果这里仅展示几个图表：

一个细节就是，对于文本长度更大的数据集而言，论文使用了更深的网络结构以获取其Long-Term记忆。

Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇的更多相关文章

Language Modeling with Gated Convolutional Networks
语言模型所谓的语言模型,即是指在得知前面的若干个单词的时候,下一个位置上出现的某个单词的概率. 最朴素的方法是N-gram语言模型,即当前位置只和前面N个位置的单词相关.如此,问题便是,N小了,语言 ...
【论文笔记】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 2018-01-28 15:4 ...
FlowNet: Learning Optical Flow with Convolutional Networks
作者:嫩芽33出处:http://www.cnblogs.com/nenya33/p/7122701.html 版权:本文版权归作者和博客园共有转载:欢迎转载,但未经作者同意,必须保留此段声明:必须 ...
卷积神经网络(CNN)在句子建模上的应用
之前的博文已经介绍了CNN的基本原理,本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献: Kim Y. Convolutional neural n ...
RNN and Language modeling in TensorFlow
RNNs and Language modeling in TensorFlow From feed-forward to Recurrent Neural Networks (RNNs) In th ...
【注意力机制】Attention Augmented Convolutional Networks
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...
Recurrent Neural Network Language Modeling Toolkit代码学习
Recurrent Neural Network Language Modeling Toolkit 工具使用点击打开链接本博客地址:http://blog.csdn.net/wangxingin ...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 摘要动态人体骨架模型带有进行动 ...
Emotion Recognition Using Graph Convolutional Networks
Emotion Recognition Using Graph Convolutional Networks 2019-10-22 09:26:56 This blog is from: https: ...

随机推荐

SVN commit:remains in tree-conflict错误的解决办法
转自:https://chenjinbo1983.iteye.com/blog/2005123 昨天在提交一个新类包的时候,出错了,重新提交了几次也不行. 错误是:Aborting commit: ‘ ...
FreeRTOS计数型信号量
API函数 //创建 #if( configSUPPORT_DYNAMIC_ALLOCATION == 1 ) #define xSemaphoreCreateCounting( uxMaxCount ...
[AIR] NativeExtension在IOS下的开发实例 --- 新建项目测试ANE(四)
来源:http://bbs.9ria.com/thread-102043-1-1.html 通过前面的努力,好了,我们终于得到了一个ANE文件了.下面我们开始新建一个Flex Mobile项目做一下测 ...
基于335X的Linux网口驱动分析
基于335X的linux网口驱动分析一. 系统构成 1. 硬件平台 AM335X 2. LINUX内核版本 4.4.12 二. 网口驱动构架(mdio部分) mdio网口驱动部分使用总线.设 ...
Java中创建线程主要有三种方式
一.继承Thread类创建线程类 (1)定义Thread类的子类,并重写该类的run方法,该run方法的方法体就代表了线程要完成的任务.因此把run()方法称为执行体. (2)创建Thread子类的实 ...
China International Industry Fair 2019
Today i visit the CIIF 2019, as a "professional visitor" since i have made an appointment ...
MySQL将某个数据库下的所有表的存储引擎修改为InnoDB类型语句
如何将mysql数据库中的MyISAM类型表更改为InnoDB类型的表改单个表 ALTER TABLE TABLENAME ENGINE=InnoDB; ALTER TABLE TABLENAME ...
思想家：一个http接口的设计
一个简单的接口,反应出来一些简单的思想. auth_token= xxx post response (命令) 记住:我们是给第3方提供接口,不是自己使用问题:平时就知道写代码,文档重视不够,有一 ...
《你又怎么了我错了行了吧》【Beta】Scrum meeting 3
第三天日期:2019/6/26 前言: 第3次会议在女生宿舍召开(前一天晚上开的) 项目全部基本测试完成,解决了多处bug,明天终于可以拿去演示了.... 1.1 今日完成任务情况.成员贡献时间及工 ...
.net框架-栈（Stack）
栈(Stack) 栈代表一个后进先出的集合栈元素为Object类型 .net框架提供Stack<T>泛型栈类压栈(Push)和出栈(Pop)是栈的基本操作,压栈入栈顶,出栈也出栈顶. ...

Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇

实验结果

Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇的更多相关文章

随机推荐

热门专题