（数据科学学习手札39）RNN与LSTM基础内容详解

一、简介

　　循环神经网络（recurrent neural network，RNN），是一类专门用于处理序列数据（时间序列、文本语句、语音等）的神经网络，尤其是可以处理可变长度的序列；在与传统的时间序列分析进行比较的过程之中，RNN因为其梯度弥散等问题对长序列表现得不是很好，而据此提出的一系列变种则展现出很明显的优势，最具有代表性的就是LSTM（long short-term memory），而本文就从标准的循环神经网络结构和原理出发，再到LSTM的网络结构和原理，对其有一个基本的认识和阐述；

二、关于基本的RNN

基本结构：

　　循环神经网络又叫递归神经网络，因为其向前传播过程中折叠了一个循环计算的重复结构，这里我们先观察一个经典的动态系统，即：

其中s^(t)为系统在t时刻的状态，和传统时间序列分析中的模型类似，在有限时间步τ的条件下，经过τ-1次上述展开过程就可以完全展开这个有限时间步内的过程，以τ=3为例：

上述过程可以用图论中的有向无环计算图来表示：

每一个时刻的状态都经由函数f映射到下一个时刻，而这是仅有自我状态驱动的系统，我们再考虑引入外部信号x^(t)的系统：

即对于一个序列，其当前状态包含了过去所有时刻状态对其的影响，以及当前时刻外部信号的影响，我们的循环神经网络就是建立在上述知识的基础上，因为RNN中的状态即是网络的隐藏单元，我们用h来重新定义上式：

则一个最简单典型的RNN架构如下（未包含输出层部分），左边是循环计算部分未展开的结构，右边是展开后的结构：

其中左边的黑色方块表示单个时间步的延迟，可以类比时间序列分析中的n阶延迟，接着我们添加上输出层以及不同层之间的连接权信息，便得到下面这张经典RNN的结构示意图：

由上图，在这个将输入序列x映射到输出值o的过程中，层与层之间通过连接权进行映射，并在功能神经元内部进行激活（通常是tanh激活函数），其中在分类任务时，h到o的映射由softmax完成，接着与真实的label，即y进行比较计算出损失L，总结一下经典RNN结构的特点；

　　1、每个时间步完成后都有输出，且时间步之间有按照时序顺序的循环连接，这也决定了RNN的向后传播过程不同于传统BP算法可以并行，RNN在一个未展开的时间步内部只能按顺序调整参数，即通过时间反向传播算法（back-propagation through time，BPTT）；

　　2、不同的任务决定了不同的输出方式，如翻译就是序列到序列，分类或时序预测就是在最后一次得到输出；

　　3、参数共享

前向传播：

　　在输出为离散的情况下，上述经典RNN的前向传播过程如下：

　　1、时刻t的隐藏状态h⁽^t)：

　　2、时刻t的输出o^(t)：

　　3、时刻t的预测类别输出：

　　4、损失函数，离散分类任务时通常为对数似然函数，连续预测任务通常是均方误差：

三、关于LSTM

　　RNN在实际使用过程中，在处理较长序列输入时，难以传递相隔较远的信息，究其原因，我们先回想一下RNN的基本结构，其真正的输入有两部分——来自序列第t个位置的输入x_t，和来自上一个隐层的输出h_t-1，考虑隐层的信息往后传导的过程，这里令RNN中隐层连接下一个时刻隐层的权重为W_hh，不考虑每一次隐层的非线性激活时，从初始状态h₀到第t时刻状态h_t，其信息传递的过程如下，其中对W_hh的连乘部分做了特征分解：

当特征值小于1时，连续相乘的结果是特征值向0方向衰减；当特征值大于1时，连续相乘的结果是特征值向∞方向增长。这两种情况都会导致较远时刻状态的信息消失（vanish）或爆炸（explode），无法有效地反馈到t时刻；

　　上述情况导致的结果是我们的RNN网络难以通过梯度下降进行有效的学习，为了有效地利用梯度下降法来进行学习，我们需要控制传递过程中梯度的积在1左右，目前最有效的方式是gated RNNs，而LSTM就是其中的一个代表；

　　再次回想前面的RNN中的t时刻状态计算过程，其中σ为激活函数，通常为tanh：

而LSTM就是在RNN的基础上施加了若干个门（gate）来控制，我们先看LSTM的示意图即网络结构中涉及的计算内容，然后在接下来的过程中逐一解释：

且这些门均由Sigmoid型函数激活，具体如下：

　　1、遗忘门（forget gate）

　　这个gate控制对上一层的cell状态c_t-1中的信息保留多少，它流入当前时刻x_t与上一时刻传递过来的状态h_t-1，通过对应的所有事件步共享的权重W_xf，W_hf，偏移b_f来进行线性组合，并通过sigmoid函数进行处理后得到当前时刻遗忘门输出f_t，即下式：

　　2、输入门（input gate）

　　输入门控制了有多少信息可以流入cell，即上图中i_t的部分（所谓a_t的部分其实就是经典RNN中的输入层）它对应了下式：

　　3、输出门（output gate）

　　输出门顾名思义，控制了有多少当前时刻的cell中的信息可以流向当前隐藏状态h_t，与经tanh处理的c_t进行哈达玛相乘得到h_t，对应下式：

　　4、t时刻c_t的更新

　　如上图，我们这一个时间步的cell中的c_t为遗忘门处理后的上一时刻中的c_t-1、输入门控制流入的信息i_t、经典RNN中的输入层信息a_t等信息的汇总，计算过程对应着：

　　5、t时刻h_t的更新

　　如上图所示，LSTM新加的这些结构的作用就是为了调整h_t使其在长时间步的传递过程中减少信息失效的可能，对应的新的h_t：

　　而其他部分的计算内容就同RNN，即LSTM就是一个扩充了数倍调整过滤参数的RNN，以上就是本篇文章的基本内容，如有笔误，望指出。

参考文献：

《深度学习》

《Yjango的循环神经网络》https://zhuanlan.zhihu.com/p/25518711

（数据科学学习手札39）RNN与LSTM基础内容详解的更多相关文章

（数据科学学习手札26）随机森林分类器原理详解&Python与R实现
一.简介作为集成学习中非常著名的方法,随机森林被誉为“代表集成学习技术水平的方法”,由于其简单.容易实现.计算开销小,使得它在现实任务中得到广泛使用,因为其来源于决策树和bagging,决策树我在前 ...
（数据科学学习手札29）KNN分类的原理详解&Python与R实现
一.简介 KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述 ...
（数据科学学习手札24）逻辑回归分类器原理详解&Python与R实现
一.简介逻辑回归(Logistic Regression),与它的名字恰恰相反,它是一个分类器而非回归方法,在一些文献里它也被称为logit回归.最大熵分类器(MaxEnt).对数线性分类器等:我们 ...
（数据科学学习手札21）sklearn.datasets常用功能详解
作为Python中经典的机器学习模块,sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集,本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进 ...
（数据科学学习手札40）tensorflow实现LSTM时间序列预测
一.简介上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完 ...
（数据科学学习手札50）基于Python的网络数据采集-selenium篇（上）
一.简介接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...
（数据科学学习手札55）利用ggthemr来美化ggplot2图像
一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原 ...
（数据科学学习手札49）Scala中的模式匹配
一.简介 Scala中的模式匹配类似Java中的switch语句,且更加稳健,本文就将针对Scala中模式匹配的一些基本实例进行介绍: 二.Scala中的模式匹配 2.1 基本格式 Scala中模式匹 ...
（数据科学学习手札47）基于Python的网络数据采集实战（2）
一.简介马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...

随机推荐

Centos大文件切割和合并
现在很多公司都会把项目放在云服务器上,当我想把云服务器里面的代码和生成的文件 “sz 文件名称” down下来的时候,发现太大.云服务器不支持下载很大的文件.那么这种情况就需要使用split命令切割文 ...
如何用SAP Cloud for Customer的手机App创建销售订单
第一次启动App,设置一个初始化的pin code: 输入C4C tenant的url,用户名和密码: 登录进系统后,找到Sales Order工作中心: 可以看到系统里很多已有的销售订单了.点击屏幕 ...
some language grammars
ANSI C grammar Python grammar 怎么识别LL(1) LR(0) SLR(1) 等文法,一个不错的解答. http://stackoverflow.com/questions ...
css3实现两个点之间有一条线，循环运动
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
html基值仿淘宝
$(function(){ var scale = 1 / devicePixelRatio; document.querySelector('meta[name="viewport&quo ...
关于映射异常org.hibernate.MappingException: An association from the table DUTY_INFO refers to an unmapped class: com.pms.entities.other.Department的原因。
在编程过程当中由于修改过了包名. 原来的包名是: com.pms.entities.base 然后改为了:com.pms.entities.other 当我重新映射生成数据表的时候就报错:org.hi ...
thuwc2018 爆炸记
从没考过这么差,必须好好总结一下.. $day1$: 上午到了雅礼洋湖,下午就开始考试.. 食堂饭菜还是很不错的,听说都是雅礼自己垫的? 下午的$day1$爆炸了.. 开考以后看了一下三个题,感觉一开 ...
从windows到linux的换行转换工具dos2unix
同学们也许知道,windows中的文本文件的换行符是"\r\n",而linux中是"\n".由于换行符的不同,所以有的时候会发生一些莫名其妙的状况.至于具体什么 ...
利用python进行数据分析——（一）库的学习
总结一下自己对python常用包:Numpy,Pandas,Matplotlib,Scipy,Scikit-learn 一. Numpy: 标准安装的Python中用列表(list)保存一组值,可以用 ...
CssSelector之selenium元素定位
CssSelector是我最喜欢的元素定位方法,Selenium官网的Document里极力推荐使用CSS locator,而不是XPath来定位元素,原因是CSS locator比XPath loc ...

（数据科学学习手札39）RNN与LSTM基础内容详解

（数据科学学习手札39）RNN与LSTM基础内容详解的更多相关文章

随机推荐

热门专题