网络流量预测入门（二）之LSTM介绍

网络流量预测入门（二）之LSTM介绍

这篇blog大家就随便看一下吧，基本上是参照RNN模型与NLP应用(4/9)：LSTM模型这个是video和Understanding LSTM Networks这篇博客写出来的。实际上大家只需要看上述两个内容就了，他们的教程深入浅出，形象生动。

在网络流量预测入门（一）之RNN 介绍中，对RNN的原理进行了介绍，然后，在简单明朗的 RNN 写诗教程中详细的介绍了如何使用keras构建RNN模型来写诗。

而在这篇blog中将对LSTM进行介绍。

LSTM简介

LSTM全称Long Short-Term Memory，中文名：长短期记忆，是一种循环网络。值得注意的是，Long Short-Term Memory中的-是放在Short与Term中间的。相比较于Simple RNN，LSTM在长的时间序列中有着更好的表现。

Simple RNN网络会因为梯度消失问题，导致无法回忆起长久的记忆，也就是说Simple RNN是一个Short-Term Memory的模型。但是，LSTM通过某一些操作，使得其能够回忆起长久的记忆，也就是说它是一个长的短期记忆，因此被称之为 Long Short-Term Memory。——李宏毅

Simple RNN的弊端

RNN会面临两个问题：梯度消失问题和梯度爆炸问题，关于具体的公式推导，可以参考RNN 的梯度消失问题。

简单点来说，就是下图中的$W$和$U$会随着时间序列的加长，也就是layer层数的增多而产生梯度消失和梯度爆炸问题。而LSTM通过门的机制解决了整个问题。

下面将对LSTM的结构进行介绍。

LSTM的结构

下面是一张LSTM的结构示意图，来自Understanding LSTM Networks，看起来很复杂，确实相比较于RNN，它确实要复杂很多，但是却也没那么难理解。与Simple RNN很类似，input 一个$x_t$，output一个状态$h_t$。（只不过在其内部多了一个叫做Cell State的东西）

下图中，被重复的单元称之为细胞（Cell），也就是图中绿色的框框。

下图是结构图中所出现的符号：

先对符号做解释：

代表的是神经网络，中间的$\sigma$或者$tanh$代表的是其激活函数。

表示逐点操作：
表示逐点相乘：$\left[\begin{array}{c}0.9 \\ 0.2 \\ -0.5 \\ -0.1\end{array}\right] \circ\left[\begin{array}{c}0.5 \\ 0 \\ 1 \\ 0.8\end{array}\right]=\left[\begin{array}{c}0.45 \\ 0 \\ -0.5 \\ -0.08\end{array}\right]$

表示逐点相加：$\left[\begin{array}{c}0.9 \\ 0.2 \\ -0.5 \\ -0.1\end{array}\right] + \left[\begin{array}{c}0.5 \\ 0 \\ 1 \\ 0.8\end{array}\right]=\left[\begin{array}{c}1.4 \\ 0.2 \\ 0.5 \\ 0.7\end{array}\right]$

表示逐点用tanh函数：$tanh(\left[\begin{array}{c}0.9 \\ 0.2 \\ -0.5 \\ -0.1\end{array}\right]) =\left[\begin{array}{c}0.717 \\ 0.198 \\ -0.462 \\ -0.100\end{array}\right]$

表示如下将两个矩阵连接起来：

LSTM发挥作用，离不开以下几个概念：Cell State ，Forget Gate，Input Gate ，Output Gate。下面将详细对其进行介绍。

细胞状态（Cell State）

Celle State是LSTM最关键的部分，它类似一条传输带，贯穿LSTM整个部分（可以形象地理解为主要矛盾）。举个例子：

当我们分析一部小说主题的时候，肯定不会一个字一个字地分析，我们会抓住主要矛盾，分析小说中的主要情节矛盾，然后判断一部小说的主题。

有些小说写的比较隐晦，主题可能会在后段部分才显现出来，因此我们在读小说的时候，会不断更新脑海中对主要矛盾的印象，往里面添加新的东西，同时删除某些次要的东西。

有的小说开门见山，在文章的开始就会告诉你主题是什么，因此，你在后面阅读的过程中，你就不会再向你脑海中的主要矛盾添加内容了，因为你知道后面的内容不会影响主要矛盾。

接下来将讨论三种门，不过在讨论三种门之前，我们应该先弄清楚什么是门。

内容参考于RNN模型与NLP应用(4/9)：LSTM模型。

门（Gate）

在LSTM中有三种门，那么门到底是什么呢？门的作用很简单，就是让information选择性通过。门的结构如下图左边所示：

在这种情况下，当一个数据$c$通过一个门$f$的时候（$f$ 中的每一个数都位于$0\sim 1$之间），$f$会对数据 $c$ 进行选择，可以让它全部通过（图中的$-0.5*1=-0.5$），也可以让它完全不通过（图中的$0.2*0=0$），当然也可以让它部分的通过。

而在LSTM分别有着以下三种门：Forget Gate，Input Gate，Output Gate。

遗忘门（Forget Gate）

遗忘门构成如下所示$f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)$，$f_t$中的每一个值都介于$0\sim1$之间，其中$W_f$和$b_f$是LSTM在训练的时候，通过反向传播进行学习的。

遗忘门的作用很简单，那就是控制$C_{t-1}$中哪一些数据应该被“遗忘”。

输入门（Input Gate）

图中的 $i_t$ 表示输入门，$\tilde{C}_{t}$表示待加入Cell State的数据。$i_t$中的每一个值都介于$0\sim1$之间，而$\tilde{C}_{t}$的值介于$-1 \sim 1$之间，其中$W_i,W_c,b_i,b_c$是通过反向传播进行学习更新的。

输入门的作用就是控制$\tilde{C}_{t}$中哪一些数据能够加入到Cell State中。

Cell State的更新

Cell State的更新需要遗忘门和输入门的同时作用，遗忘门作用于上一个状态$C_{t-1}$，输入门作用于当前输入$\tilde{C}_{t}=\tanh \left(W_{C} \cdot\left[h_{t-1}, x_{t}\right]+b_{c}\right)$。这样，当被遗忘门处理后的$C_{t-1}$加上新的输入$\tilde{C}_{t}$，就组成新的$C_t$了，完成了一次Cell State的更新。

输出门（Output Gate）

输出门的结构如下说所示，$O_t$中的每一个值都介于$0\sim1$之间，其中$W_o$和$b_o$是LSTM在训练的时候，通过反向传播进行学习的。

输出门的作用实际上就是通过控制$C_t$以达到控制$h_t$的目的。

输出$h_t$

输出的示意图如下所示，$tanh(C_t)$中的每一个值都位于$-1 \sim +1$之间，输出门$O_t$通过控制$C_t$的information，来产生输出$h_t$。$h_t$会被赋值为两份，一份作为下个layer的$h_t$，一份用于LSTM在时序$t$时刻的输出。

总结

以上，便是对LSTM结构的介绍，如果已经能够很好的理解上面的内容，让我们再回过头来看下面这张图，是不是就感觉简单起来了呢？

在下篇博客，将介绍如何使用LSTM来生成音乐。嘿嘿嘿~~

参考