LSTM入门学习——本质上就是比RNN的隐藏层公式稍微复杂了一点点而已

LSTM入门学习

摘自：http://blog.csdn.net/hjimce/article/details/51234311

下面先给出LSTM的网络结构图：

看到网络结构图好像很复杂的样子，其实不然，LSTM的网络结构图无非是为了显示其高大上而已，这其实也是一个稍微比RNN难那么一丁点的算法。为了简单起见，下面我将直接先采用公式进行讲解LSTM，省得看见LSTM网络结构图就头晕。

(1)RNN回顾

先简单回顾一下RNN隐层神经元计算公式为：

其中U、W是网络模型的参数，f(.)表示激活函数。RNN隐层神经元的计算由t时刻输入xt，t-1时刻隐层神经元激活值st-1作为输入。总之说白了RNN的核心计算公式就只有上面这么简简单单的公式，所以说会者不难，难者不会，对于已经懂得RNN的人来说，RNN是一个非常简单的网络模型。

(2)LSTM前向传导

相比于RNN来说，LSTM隐层神经元的计算公式稍微复杂一点，LSTM隐藏层前向传导由下面六个计算公式组成，而且其中前4个公式跟上面RNN公式都非常相似：

首先需要先记住上面五个公式中输入变量的含义：

(1)输入变量：x(t)表示t时刻网络的输入数据，S(t-1)表示t-1时刻隐藏层神经元的激活值、C是一个记忆单元

(2)网络参数：U、W都是网络LSTM模型的参数,或者称之为权值矩阵

(3)σ表示sigmoid激活函数

(4)另外s(t)是t时刻，LSTM隐藏层的激活值

从上面的公式我们可以看出LSTM在t时刻的输入包含：X(t)、S(t-1)、C(t-1)，输出就是t时刻隐层神经元激活值S(t)。LSTM前四个公式和RNN非常相似，模型都是：

这四个公式的输入都是x(t)，s(t-1)，每个公式各有各自的参数U、W。前面三个公式的激活函数选择s型函数，大牛门给它们起了一个非常装逼的名词，i、f、o分别称之为输入门、遗忘门、输出门；第4个公式选用tanh激活函数。

1、输入门

输入门可以控制你的输入是否影响你的记忆当中的内容。因变量为i,自变量为:输入数据x(t)、上一时刻隐藏层神经元激活值s(t-1)，其采用S激活函数，输出的数值在0~1之间。如果从业余的角度来讲，可以把它看成是一个权值；当i为0的时候，表示当前时刻x(t)的信息被屏蔽，没有存储到记忆中。

2、遗忘门

遗忘门是来看你的记忆是否自我更新保持下去。因变量为f,自变量依旧为:

3、输出门

输出门是影响你的记忆是否被输出出来影响将来这三个们有一个特点:它们的输入数据都是x(t),上一时刻隐藏层的激活值s(t-1),另外这三个们

这种方式使你的记忆得到灵活的保持，而控制记忆如何保持的这些门本身是通过学习得到的，通过不同的任务学习如何去控制这些门。

三、源码实现

https://github.com/fchollet/keras/blob/master/keras/layers/recurrent.py

x_i = K.dot(x * B_W[0], self.W_i) + self.b_i
x_f = K.dot(x * B_W[1], self.W_f) + self.b_f
x_c = K.dot(x * B_W[2], self.W_c) + self.b_c
x_o = K.dot(x * B_W[3], self.W_o) + self.b_o
i = self.inner_activation(x_i + K.dot(h_tm1 * B_U[0], self.U_i))
f = self.inner_activation(x_f + K.dot(h_tm1 * B_U[1], self.U_f))
c = f * c_tm1 + i * self.activation(x_c + K.dot(h_tm1 * B_U[2], self.U_c))
o = self.inner_activation(x_o + K.dot(h_tm1 * B_U[3], self.U_o))
h = o * self.activation(c)

LSTM入门学习——本质上就是比RNN的隐藏层公式稍微复杂了一点点而已的更多相关文章

LSTM入门学习——结合《LSTM模型》文章看
摘自:https://zybuluo.com/hanbingtao/note/581764 写得非常好见原文长短时记忆网络的思路比较简单.原始RNN的隐藏层只有一个状态,即h,它对于短期的输入非常 ...
使用深度学习检测DGA（域名生成算法）——LSTM的输入数据本质上还是词袋模型
from:http://www.freebuf.com/articles/network/139697.html DGA(域名生成算法)是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检 ...
Altium Designer入门学习笔记4：PCB设计中各层的含义
阻焊层:solder mask,是指板子上要上绿油的部分:因为它是负片输出,所以实际上有solder mask的部分实际效果并不上绿油,而是镀锡,呈银白色! 助焊层:paste mask,是机器贴片时 ...
RNN 入门学习资料整理
建议按序阅读 1. RNN的一些简单概念介绍 A guide to recurrent neural networks and backpropagation Deep learning:四十九(RN ...
git入门学习(二)：新建分支/上传代码/删除分支
一.git新建分支,上传代码到新的不同分支我要实现的效果,即是多个内容的平行分支:这样做的主要目的是方便统一管理属于同一个内容的不同的项目,互不干扰.如图所示: 前提是我的github上已经有we ...
git入门学习(一)：github for windows上传本地项目到github
Git是目前最先进的分布式版本控制系统,作为一个程序员,我们需要掌握其用法.Github发布了Github for Windows 则大大降低了学习成本和使用难度,他甚至比SVN都简单. 一.首先在g ...
使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模
from:https://www.jiqizhixin.com/articles/2018-08-11-11 可以通过分析流量包来检测TOR流量.这项分析可以在TOR 节点上进行,也可以在客户端和入口 ...
tensorflow学习之（十一）RNN+LSTM神经网络的构造
#RNN 循环神经网络 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data tf.se ...
DQN 处理 CartPole 问题——使用强化学习，本质上是训练MLP，预测每一个动作的得分
代码: # -*- coding: utf-8 -*- import random import gym import numpy as np from collections import dequ ...

随机推荐

关于JWT(Json Web Token)的思考及使用心得
什么是JWT? JWT(Json Web Token)是一个开放的数据交换验证标准rfc7519(php 后端实现JWT认证方法一般用来做轻量级的API鉴权.由于许多API接口设计是遵循无状态的(比如 ...
Opencv 三对角线矩阵(Tridiagonal Matrix)解法之(Thomas Algorithm)
1. 简介三对角线矩阵(Tridiagonal Matrix),结构如公式(1)所示: aixi−1+bixi+cixx+1=di(1) 其中a1=0,cn=0.写成矩阵形式如(2): ⎡⎣⎢⎢⎢⎢ ...
Solr教程--官方自带数据的三个练习及讨论翻译版本
Solr教程在你开始之前解压Solr 练习1:索引Techproducts示例数据在SolrCloud模式下启动Solr 索引技术产品数据基本搜索练习1总结练习2:修改架构和索引影片数据 ...
ubuntu 非长期支持版升级系统版本号（ssh登录情况适用）
(1)当前系统为非长期支持版.而且已被废弃,仅仅能逐版本号升级以当前系统版本号为11.10为例改动source.list更新源为通用old源,由于原来的源已经不可用 deb http://old- ...
vijos - P1732能量採集 (状态转移)
P1732能量採集 Accepted 标签:NOI2010[显示标签] 背景描写叙述栋栋有一块长方形的地.他在地上种了一种能量植物,这样的植物能够採集太阳光的能量. 在这些植物採集能量后,栋栋再使 ...
node04---fs文件操作、静态服务器
08fs.js var http = require("http"); var fs = require("fs"); var server = http.cr ...
Android JNI和NDK学习(09)--JNI实例二传递类对象
1 应用层代码 NdkParam.java是JNI函数的调用类,它的代码如下: package com.skywang.ndk; import android.app.Activity; impo ...
Django是什么
Django是什么 Django是什么? 是基于python语言的优秀的web开发框架.很多有名的网站比如youtube就是用django开发的. Python写的开源Web应用框架, 快速搭建blo ...
HTML5，CSS3新特性，与旧版的区别
HTML5新特性 (1)语意化更好的内容元素,比如 article.footer.header.nav.section (2)本地存储.sessionStorage.localStorage和inde ...
为什么在input中加了display:inline;再加宽，还有作用？
以前一直一位input是个行内元素,但是,行内元素的特性就是没有宽高的概念,元素多高,多宽,全凭内容撑起来的. 但是今天写了个demo,用chrome控制台显示:display:inline-bloc ...

LSTM入门学习——本质上就是比RNN的隐藏层公式稍微复杂了一点点而已

LSTM入门学习——本质上就是比RNN的隐藏层公式稍微复杂了一点点而已的更多相关文章

随机推荐

热门专题