RNN,LSTM,GRU基本原理的个人理解

记录一下对RNN,LSTM,GRU基本原理（正向过程以及简单的反向过程）的个人理解

RNN

Recurrent Neural Networks，循环神经网络
（注意区别于recursive neural network，递归神经网络）

为了解决DNN存在着无法对时间序列上的变化进行建模的问题（如自然语言处理、语音识别、手写体识别），出现的另一种神经网络结构——循环神经网络RNN。

RNN结构

第tt层神经元的输入，除了其自身的输入xtxt，还包括上一层神经元的隐含层输出st−1st−1
每一层的参数U,W,V都是共享的

每一层并不一定都得有输入和输出，如对句子进行情感分析是多到一，文本翻译多到多，图片描述一到多
数学描述

（以下开始符号统一）
回忆一下单隐含层的前馈神经网络
输入为X∈Rn×xX∈Rn×x（n个维度为x的向量）
隐含层输出为
H=ϕ(XWxh+bh)
H=ϕ(XWxh+bh)

输出层输入H∈Rn×hH∈Rn×h
输出为
Y^=softmax(HWhy+by)
Y^=softmax(HWhy+by)

现在对XX、HH、YY都加上时序下标
同时引入一个新权重Whh∈Rh×hWhh∈Rh×h
得到RNN表达式
Ht=ϕ(XtWxh+Ht−1Whh+bh)
Ht=ϕ(XtWxh+Ht−1Whh+bh)
Y^t=softmax(HtWhy+by)
Y^t=softmax(HtWhy+by)

H0H0通常置零
深层RNN和双向RNN

通过时间反向传播和随之带来的问题

输入为xt∈Rxxt∈Rx
不考虑偏置
隐含层变量为
ht=ϕ(Whxxt+Whhht−1)
ht=ϕ(Whxxt+Whhht−1)

输出层变量为
ot=Wyhht
ot=Wyhht

则损失函数为
L=1T∑t=1Tℓ(ot,yt)
L=1T∑t=1Tℓ(ot,yt)
以一个三层为例

三个参数更新公式为
Whx=Whx−η∂L∂Whx
Whx=Whx−η∂L∂Whx
Whh=Whh−η∂L∂Whh
Whh=Whh−η∂L∂Whh
Wyh=Wyh−η∂L∂Wyh
Wyh=Wyh−η∂L∂Wyh

明显的
∂L∂ot=∂ℓ(ot,yt)T⋅∂ot
∂L∂ot=∂ℓ(ot,yt)T⋅∂ot

根据链式法则
∂L∂Wyh=∑t=1Tprod(∂L∂ot,∂ot∂Wyh)=∑t=1T∂L∂oth⊤t
∂L∂Wyh=∑t=1Tprod(∂L∂ot,∂ot∂Wyh)=∑t=1T∂L∂otht⊤

先计算目标函数有关最终时刻隐含层变量的梯度
∂L∂hT=prod(∂L∂oT,∂oT∂hT)=W⊤yh∂L∂oT
∂L∂hT=prod(∂L∂oT,∂oT∂hT)=Wyh⊤∂L∂oT

假设ϕ(x)=xϕ(x)=x（RNN中用激活函数relu还是tanh众说纷纭，有点玄学）
∂L∂ht=prod(∂L∂ht+1,∂ht+1∂ht)+prod(∂L∂ot,∂ot∂ht)=W⊤hh∂L∂ht+1+W⊤yh∂L∂ot
∂L∂ht=prod(∂L∂ht+1,∂ht+1∂ht)+prod(∂L∂ot,∂ot∂ht)=Whh⊤∂L∂ht+1+Wyh⊤∂L∂ot

通项为
∂L∂ht=∑i=tT(W⊤hh)T−iW⊤yh∂L∂oT+t−i
∂L∂ht=∑i=tT(Whh⊤)T−iWyh⊤∂L∂oT+t−i
注意上式，当每个时序训练数据样本的时序长度T较大或者时刻t较小，目标函数有关隐含层变量梯度较容易出现衰减和爆炸

∂L∂Whx=∑t=1Tprod(∂L∂ht,∂ht∂Whx)=∑t=1T∂L∂htx⊤t
∂L∂Whx=∑t=1Tprod(∂L∂ht,∂ht∂Whx)=∑t=1T∂L∂htxt⊤
∂L∂Whh=∑t=1Tprod(∂L∂ht,∂ht∂Whh)=∑t=1T∂L∂hth⊤t−1
∂L∂Whh=∑t=1Tprod(∂L∂ht,∂ht∂Whh)=∑t=1T∂L∂htht−1⊤
梯度裁剪

为了应对梯度爆炸，一个常用的做法是如果梯度特别大，那么就投影到一个比较小的尺度上。θθ为设定的裁剪“阈值”，为标量，若梯度的范数大于此阈值，将梯度缩小，若梯度的范数小于此阈值，梯度不变
g=min(θ∥g∥,1)g
g=min(θ‖g‖,1)g
LSTM

RNN的隐含层变量梯度可能会出现衰减或爆炸。虽然梯度裁剪可以应对梯度爆炸，但无法解决梯度衰减。因此，给定一个时间序列，例如文本序列，循环神经网络在实际中其实较难捕捉两个时刻距离较大的文本元素（字或词）之间的依赖关系。
LSTM（long short-term memory）由Hochreiter和Schmidhuber在1997年被提出。

LSTM结构

这里两张图先不用细看，先着重记住公式后再回来看

数学描述

（同上，符号统一）
设隐含状态长度hh,tt时刻输入Xt∈Rn×xXt∈Rn×x（xx维）及t−1t−1时刻隐含状态Ht−1∈Rn×hHt−1∈Rn×h,
输入门，遗忘门，输出门，候选细胞如下

It=σ(XtWxi+Ht−1Whi+bi)
It=σ(XtWxi+Ht−1Whi+bi)
Ft=σ(XtWxf+Ht−1Whf+bf)
Ft=σ(XtWxf+Ht−1Whf+bf)
Ot=σ(XtWxo+Ht−1Who+bo)
Ot=σ(XtWxo+Ht−1Who+bo)
C~t=tanh(XtWxc+Ht−1Whc+bc)
C~t=tanh(XtWxc+Ht−1Whc+bc)
（思考侯选细胞激活函数的不同）
记忆细胞
Ct=Ft⊙Ct−1+It⊙C~t
Ct=Ft⊙Ct−1+It⊙C~t

想象，如果遗忘门一直近似1且输入门一直近似0，过去的细胞将一直通过时间保存并传递至当前时刻
隐含状态
Ht=Ot⊙tanh(Ct)
Ht=Ot⊙tanh(Ct)

输出同RNN
Y^=softmax(HWhy+by)
Y^=softmax(HWhy+by)
GRU

由Cho、van Merrienboer、 Bahdanau和Bengio在2014年提出，比LSTM少一个门控，实验结果却相当

GRU结构

数学描述

设隐含状态长度hh,tt时刻输入Xt∈Rn×xXt∈Rn×x（xx维）及t−1t−1时刻隐含状态Ht−1∈Rn×hHt−1∈Rn×h,
重置门，更新门如下
Rt=σ(XtWxr+Ht−1Whr+br)
Rt=σ(XtWxr+Ht−1Whr+br)
Zt=σ(XtWxz+Ht−1Whz+bz)
Zt=σ(XtWxz+Ht−1Whz+bz)

候选隐含状态
H~t=tanh(XtWxh+Rt⊙Ht−1Whh+bh)
H~t=tanh(XtWxh+Rt⊙Ht−1Whh+bh)

隐含状态
Ht=Zt⊙Ht−1+(1−Zt)⊙H~t
Ht=Zt⊙Ht−1+(1−Zt)⊙H~t

输出
Y^=softmax(HWhy+by)
Y^=softmax(HWhy+by)
（无力吐槽csdn了，预览和实际用的不一套渲染，公式丑死）
---------------------
作者：lily_knight
来源：CSDN
原文：https://blog.csdn.net/qq_38210185/article/details/79376053
版权声明：本文为博主原创文章，转载请附上博文链接！

RNN,LSTM,GRU基本原理的个人理解的更多相关文章

深度学习中的序列模型演变及学习笔记（含RNN/LSTM/GRU/Seq2Seq/Attention机制）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...
RNN/LSTM/GRU/seq2seq公式推导
概括:RNN 适用于处理序列数据用于预测,但却受到短时记忆的制约.LSTM 和 GRU 采用门结构来克服短时记忆的影响.门结构可以调节流经序列链的信息流.LSTM 和 GRU 被广泛地应用到语音识别. ...
RNN & LSTM & GRU 的原理与区别
RNN 循环神经网络,是非线性动态系统,将序列映射到序列,主要参数有五个:[Whv,Whh,Woh,bh,bo,h0][Whv,Whh,Woh,bh,bo,h0],典型的结构图如下: 和普通神经网 ...
[PyTorch] rnn,lstm,gru中输入输出维度
本文中的RNN泛指LSTM,GRU等等 CNN中和RNN中batchSize的默认位置是不同的. CNN中:batchsize的位置是position 0. RNN中:batchsize的位置是pos ...
RNN - LSTM - GRU
循环神经网络 (Recurrent Neural Network,RNN) 是一类具有短期记忆能力的神经网络,因而常用于序列建模.本篇先总结 RNN 的基本概念,以及其训练中时常遇到梯度爆炸和梯度消失 ...
RNN, LSTM, GRU cells
项目需要,先简记cell,有时间再写具体改进原因 RNN cell LSTM cell: GRU cell: reference: 1.https://towardsdatascience.com/a ...
RNN，GRU，LSTM
2019-08-29 17:17:15 问题描述:比较RNN,GRU,LSTM. 问题求解: 循环神经网络 RNN 传统的RNN是维护了一个隐变量 ht 用来保存序列信息,ht 基于 xt 和 ht- ...
NLP教程(5) - 语言模型、RNN、GRU与LSTM
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
自己动手实现深度学习框架-7 RNN层--GRU, LSTM
目标这个阶段会给cute-dl添加循环层,使之能够支持RNN--循环神经网络. 具体目标包括: 添加激活函数sigmoid, tanh. 添加GRU(Gate Recurrent U ...

随机推荐

bzoj1101
1101: [POI2007]Zap Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 2319 Solved: 936[Submit][Status] ...
ASP.NET Core MVC 打造一个简单的图书馆管理系统 (修正版)（五）外借/阅览图书信息的增删改查
前言: 本系列文章主要为我之前所学知识的一次微小的实践,以我学校图书馆管理系统为雏形所作. 本系列文章主要参考资料: 微软文档:https://docs.microsoft.com/zh-cn/asp ...
python pip安装第三方模块
一.pip工具使用安装windows版本python,自带pip工具.2者路径相同. 如果设置了环境路径,可以直接在命令提示符窗口下尝试运行pip.如果没有设置环境路径,可以先cd命令到pip工具的 ...
QB学堂济南游记
七天很快就过去了,今天的测试意味着集训也将结束.回首七天来,与许多dalao同处一室,见识到了各种厉害的老师.厉害的算法.厉害的数据结构. 前两天jzh与yl老师讲课的时候还是全程在线,然而讲到数据结 ...
【react native】rn踩坑实践——从输入框“们”开始
因为团队技术栈变更为react native,所以开始写起了rn的代码,虽然rn与react份数同源,但是由于有很多native有关的交互和变动,实际使用还是碰到蛮多问题的,于是便有了这个系列,本来第 ...
NOIP-2018
时隔一年,再度踏入NOIp的考场,内心感慨万分 Day0 在中巴上昏睡了3h++,终于到了长沙理工大学,国际学术交流中心......不太对,好像是国际交流中心与综合实验楼连线--理工大学的另一个大门外 ...
洛谷 P2742 [USACO5.1]圈奶牛Fencing the Cows || 凸包模板
整篇都是仅做记录... 蓝书上的板子.水平序,单调栈.先求下凸包,再求上凸包.叉积的作用是判定向量的位置关系. 48行的作用是在求上凸包的时候不至于去删下凸包中的点.上凸包中第一个点被认为是t1. 另 ...
牛客小白月赛5-D-阶乘（求n内每个数的阶乘相乘后尾数为0的个数）
题目描述输入描述: 输入数据共一行,一个正整数n,意义如“问题描述”. 输出描述: 输出一行描述答案:一个正整数k,表示S的末尾有k个0 输入例子: 10 输出例子: 7 --> 示例1 输入 ...
"HIBERNATE_SEQUENCE" does not exist问题处理
JavaWeb应用在MySQL环境下可以正常运行,数据迁移至Oracle或者人大金仓后应用运行爆出如下错误: 严重: Servlet.service() for servlet [JeeCmsAdmi ...
Windows 7操作系统下Apache的安装与配置（图文详解）
我这里是 Apache2.4.X-win64 首先, 我的操作系统信息如下 Apache2.4-win64的下载官网 http://www.apachelounge.com/download/ 因 ...

RNN,LSTM,GRU基本原理的个人理解

RNN,LSTM,GRU基本原理的个人理解的更多相关文章

随机推荐

热门专题