Recurrent Neural Network(2):BPTT and Long-term Dependencies

在RNN(1)中，我们将带有Reccurent Connection的node依照时间维度展开成了如下的形式：

在每个时刻t=0,1,2,3,...，神经网络的输出都会产生error：E₀,E₁,E₂,E₃,....。同Feedforward Neural Network一样，RNN也使用Backpropagation来更新参数V,W,U，只不过对于RNN，该算法称为Backpropagation Through Time(BPTT)。其算法思路为：根据各个时刻的输出（如果有），计算各个时刻的Loss Function(Error)，而后对各个时刻的loss求和。如果使用mini-batch，则再对batch内的examples求和，计算Cost Function。而后分别对V,W,U求梯度，最后最梯度下降。

在本例中，我们设定从某个时刻的状态s_t，到最终的输出，一路经过：与权重V相乘得到输出值o_t;转换为Softmax输出概率;Cost Function使用Cross-entropy，得到t时刻的误差值E_t。基于此设定，我们来看该误差在V上的梯度：

可以看出，t时刻所产生误差，在V上的梯度，只与当前时刻的状态与输出有关。下面再来看E_t在W上的梯度：

在上式中，s_t的计算公式为:

其中f(z)是activation function，而s_t-1也是w的函数，所以在求梯度时不能简单视其为常量。经过推导后得出：

上式是误差在各个时间分量上的梯度之和，可以看出，某个时间t上的误差E_t,会延时间方向反向传播(Backpropagation Through Time)，如下图：

而上式中的，dS_t/dS_k本身就是链式法则，我们展开后可以得到类似Feedforward NN里Gradient Vanishing Problemactivation function偏导数连程形式。据此可以知晓，虽然E_t在W上的梯度是求和的形式，看似考虑了该误差与所有时间t之间的关系，实际上该误差随着t维度上深度的增加逐渐衰减。而在参数U上面，同样也存在了此Gradient Vanishing的问题。

从而，我们的RNN模型无法获取到Long term dependencies. 例如：The country I traveled with my wife Mia in 2013 summer holiday is Japan ,这里需要填写的词是一个国家的名字。GRU和LSTM会解决此问题。

Recurrent Neural Network(2):BPTT and Long-term Dependencies的更多相关文章

Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 这是RNN教程的第三部分. 在前面的教程中,我们从头实现了一个循环 ...
Recurrent Neural Network系列4--利用Python，Theano实现GRU或LSTM
yi作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORK ...
Recurrent Neural Network[survey]
0.引言我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech ...
Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Recurrent Neural Network(循环神经网络)
Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks] Alex是RNN最著名变种 ...
Recurrent Neural Network系列2--利用Python，Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
【NLP】Recurrent Neural Network and Language Models
0. Overview What is language models? A time series prediction problem. It assigns a probility to a s ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http:/ ...

随机推荐

洛谷P4391 [BOI2009]Radio Transmission 无线传输
(https://www.luogu.org/problemnew/show/P4391) 题目描述给你一个字符串,它是由某个字符串不断自我连接形成的. 但是这个字符串是不确定的,现在只想知道它的最 ...
使用Jest测试JavaScript (入门篇)
1 什么是 Jest? Jest是 Facebook 的一套开源的 JavaScript 测试框架, 它自动集成了断言.JSDom.覆盖率报告等开发者所需要的所有测试工具,是一款几乎零配置的测试框架. ...
第7章 PTA查找练习题
这道题与第7章查找有关,当时提前看到,翻到书里面的算法,然后打进去,虽然是正确的,但是那时候并不知道二叉排序树的基础知识,包括插入查找的来龙去脉,现在已经学到了,有了一定了解,发现题目只用到了其中部分 ...
SQL server 关于 GROUP BY 详细讲解和用法
1. Group By 语句简介: Group By语句从英文的字面意义上理解就是“根据(by)一定的规则进行分组(Group)”.它的作用是通过一定的规则将一个数据集划分成若干个小的区域,然后针对若 ...
【学习总结】java数据结构和算法-第三章-稀疏数组和队列
相关链接 [学习总结]尚硅谷2019java数据结构和算法 github:javaDSA 目录稀疏数组队列稀疏数组稀疏数组介绍图示应用实例代码实现 SparseArray.java:与二 ...
java 中Shallow Heap与Retained Heap的区别
Shallow Size Shallow Size是对象本身占据的内存的大小,不包含其引用的对象.对于常规对象(非数组)的Shallow Size由其成员变量的数量和类型来定,而数组的ShallowS ...
Robot Framework 源码阅读 day2 TestSuitBuilder
接上一篇 day1 run.py 发现build test suit还挺复杂的, 先从官网API找到了一些资料,可以看出这是robotframework进行组织测试案例实现的重要步骤, 将传入的te ...
手工实现hashset
package cn.study.lu.four; import java.util.*; /** * 手工实现hashmap,加深理解底层原理 * @author Administrator * * ...
windows2008R2双网卡设置(一内网,一外网)
非安装路由角色修改注册表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\Interfaces 下的二网卡 ...
springboot-启动一段时间图片不能上传
问题:[B2B]后台服务.PC服务.APP服务.仓储服务,启动一段时间图片不能上传. 原因:/tmp下以tomcat开头的目录被清理了. 处理方案:1.找到涉及服务器注:后台服务.PC服务.APP服 ...

Recurrent Neural Network(2):BPTT and Long-term Dependencies

Recurrent Neural Network(2):BPTT and Long-term Dependencies的更多相关文章

随机推荐

热门专题