理解LSTM

本文基于Understanding-LSTMs进行概括整理，对LSTM进行一个简单的介绍

什么是LSTM

LSTM(Long Short Term Memory networks)可以解决传统RNN的长期依赖(long-term dependencies)问题。它对传统RNN的隐层进行了结构上的改进。

LSTM的内部结构

这是传统的RNN的结构，内部有一个tanh层

LSTM和传统RNN结构类似，然而内部结构却有所不同

图中所示的水平线就是LSTM中的状态信息，可以把这个理解为记忆(memory)

下面介绍门的概念，LSTM中的门可以选择性的控制信息的流动，通常由一个sigmoid神经网络层和一个point wise(或者叫element wise)的乘法操作组成。

LSTM中有三种门：

遗忘门：

可以看到这里的\(f_{t}\)由输入的\(x_t\)和\(h_{t-1}\)得到，用来控制\(C_{t-1}\)中的信息的遗忘程度。\(f_{t}\)中的每个值都是0-1中的一个数，下界0代表完全遗忘，上界1代表完全不变。
输入门：

遗忘门决定了历史状态信息的遗忘程度，那么输入门的作用就是往状态信息中添加新东西。同样，由输入的\(x_t\)和\(h_{t-1}\)得到当前的\(i_t\)用以控制新状态信息的更新程度。这里新状态信息\(\tilde{C}\)也是通过输入的\(x_t\)和\(h_{t-1}\)计算得出。

那么当前新的状态信息\(C_t\)就很显然可以通过上式计算得出，通俗的说就是遗忘一些旧信息，更新一些新信息进去。

输出门：

最后就是输出门了。类似地，根据\(x_t\)和\(h_{t-1}\)得出\(o_{t}\)用以控制哪些信息需要作为输出。

概括一下：

状态信息\(C_t\)的依赖于遗忘门\(f_t\)和输入门\(i_t\)
遗忘门\(f_t\)和输入门\(i_t\)依赖于输入参数中的\(h_{t-1}\)
而当前隐层输出\(h_t\)依赖于\(C_t\)

LSTM的一些变种

增加peephole connections

Gers & Schmidhuber (2000)提出的增加peephole connections

图中所示，在所有的门之前都与状态线相连，使得状态信息对门的输出值产生影响。但一些论文里只是在部门门前加上这样的连接，而不是所有的门

耦合遗忘门和输入门

这一种变体是将遗忘门和输入门耦合在一起，简单来说就是遗忘多少就更新多少新状态，没有遗忘就不更新状态，全部遗忘那就新状态全部更新进去。

GRU

这是目前比较流行的LSTM变种，不仅将遗忘门和输入门统一为更新们，而且将h和c也给合并了。可参考Cho, et al. (2014)

参考

Understanding-LSTMs

理解LSTM的更多相关文章

[译] 理解 LSTM 网络
原文链接:http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 吴恩达版:http://www.ai-start.com/dl2017/h ...
[译] 理解 LSTM(Long Short-Term Memory, LSTM) 网络
本文译自 Christopher Olah 的博文 Recurrent Neural Networks 人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这篇文章时候,你都是基于自己已经拥有 ...
（译）理解 LSTM 网络（Understanding LSTM Networks by colah）
@翻译:huangyongye 原文链接: Understanding LSTM Networks 前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是到现在对LST ...
RNN（1） ------ “理解LSTM”（转载）
原文链接:http://www.jianshu.com/p/9dc9f41f0b29 Recurrent Neural Networks 人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这 ...
[转] 理解 LSTM 网络
[译] 理解 LSTM 网络 http://www.jianshu.com/p/9dc9f41f0b29 Recurrent Neural Networks 人类并不是每时每刻都从一片空白的大脑开始他 ...
技能｜三次简化一张图：一招理解LSTM/GRU门控机制
作者 | 张皓引言 RNN是深度学习中用于处理时序数据的关键技术, 目前已在自然语言处理, 语音识别, 视频识别等领域取得重要突破, 然而梯度消失现象制约着RNN的实际应用.LSTM和GRU是两种目 ...
『cs231n』RNN之理解LSTM网络
概述 LSTM是RNN的增强版,1.RNN能完成的工作LSTM也都能胜任且有更好的效果:2.LSTM解决了RNN梯度消失或爆炸的问题,进而可以具有比RNN更为长时的记忆能力.LSTM网络比较复杂,而恰 ...
【翻译】理解 LSTM 网络
目录理解 LSTM 网络递归神经网络长期依赖性问题 LSTM 网络 LSTM 的核心想法逐步解析 LSTM 的流程长短期记忆的变种结论鸣谢本文翻译自 Christopher Olah ...
【翻译】理解 LSTM 及其图示
目录理解 LSTM 及其图示本文翻译自 Shi Yan 的博文 Understanding LSTM and its diagrams,原文阐释了作者对 Christopher Olah 博文 U ...
如何简单的理解LSTM——其实没有那么复杂（转载）
转载地址:https://www.jianshu.com/p/4b4701beba92 1.循环神经网络人类针对每个问题的思考,一般不会是完全的从头开始思考.正如当你阅读这篇译文的时候,你会根据已经 ...

随机推荐

Angular学习第一步
前端开发越来越流行了,作为后端开发人员,也开始需要学习前端了.随着前端技术的发展,前端技术也越来越复杂,复杂程度不亚于后端,各种框架各种设计模式前端都用上了,什么AngularJS,Angular, ...
Deep Reinforcement Learning: Pong from Pixels
这是一篇迟来很久的关于增强学习(Reinforcement Learning, RL)博文.增强学习最近非常火!你一定有所了解,现在的计算机能不但能够被全自动地训练去玩儿ATARI(译注:一种游戏机) ...
第6章 Selenium2-Java 自动化测试模型
6.1 自动化测试模型介绍 6.1.1 线性测试 :其实就是单纯地来模拟用户完整的操作场景. 优势就是每一个脚本都是完整且独立的: 缺陷测试用例的开发与维护成本很高. 6.1.2 模块化驱动 ...
Nginx反向代理上传大文件报错（failed to load resource : net :: ERR_CONNECTION_RESET）
转自: https://blog.csdn.net/kinginblue/article/details/50753271?locationNum=14&fps=1 Nginx反向代理上传大文 ...
BBWebImage 设计思路
BBWebImage 设计思路 BBWebImage 是高性能 Swift 图片组件,用于图片下载.缓存.编解码.编辑与展示. GitHub 地址: https://github.com/Silenc ...
[Mysql]——通过例子理解事务的4种隔离级别
SQL标准定义了4种隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的. 低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销. 首先,我们使用 test 数据库, ...
光流法详解之二（HS光流）
Horn–Schunck光流算法[1]是一种全局方法估算光流场. 参考博文:https://blog.csdn.net/hhyh612/article/details/79216021 假设条件: H ...
httpd配置文件httpd.conf规则说明和一些基本指令
apache httpd系列文章:http://www.cnblogs.com/f-ck-need-u/p/7576137.html 本文主要介绍的是httpd的配置文件,包括一些最基本的指令.配置规 ...
Linux终端命令全面介绍
Linux终端命令一.文件目录类 1.建立目录:mkdir 目录名2.删除空目录:rmdir 目录名3.无条件删除子目录: rm -rf 目录名4.改变当前目录:cd 目录名 (进入用户home目录 ...
[转]Building a REST-Backend for Angular with Node.js & Express
本文转自:https://malcoded.com/posts/angular-backend-express Angular is a single page application framewo ...