人工智能算法综述（二） RNN and LSTM

接上一篇：AI算法综述（一）

RNN：循环神经网络 and LSTM 长短期记忆网络

LSTM就是一个RNN网络，外部的结构是一样的，主要是单元的内在结构不同。或者说LSTM是为了让RNN能够更好的处理NLP（自然语言问题）做的一些内部改造。

我推荐这篇文章理解LSTM ：https://www.jianshu.com/p/9dc9f41f0b29

可能会比我自己说的更好，我这里就简单说一下，不涉及太多技术细节。

我们先回顾一下基本的神经网络结构图

整体结构就是输入层+N层隐层+输出层。

数据的流向就是由左往右，输入X1，X2，X3 会分发给隐层通过这些连线传递过去，然后在节点计算之后有一个输出，继续分发给下一层。

那么单独拎一个节点放大来看的话就是这样的。

Z就是某中间节点。这就是标准的前馈神经网络的结构。

这种结构在处理某一类问题的时候非常无力，就是比方说当前的识别结果，需要依赖上一次的识别结果。

具体的场景就是自然语言的翻译，翻译需要结合上下文语境才能更精确的翻译出来。而不能像某些机译一样，一句一句单独翻译。

那么RNN 所谓的循环神经网络就是在这中间节点做了一个改造。

这个改造就是，把中间节点的输出拷贝一份出来，然后混合着下一次的输入再做一次计算（激活函数）得出结果，反复如是，直到没有输入。

那LSTM跟这个RNN有什么区别呢？

RNN当然也不是万能的，其中也存在各种利弊。

然后有个缺陷，就是假如当前 T 结果依赖上一次（就是 T -1）的结果，这问题不大，那如果依赖 T-2 或者更远一点 T-10 的结果呢？

然后大家看回那个结构图，h20 的结果如果依赖 X1 那么中间的路途遥远，原输入经过了很多次计算才到H20 损耗非常大，变数更大。

而且需要依赖上下文语境的情况在自然语言处理中还普遍存在。所以……

当当当……

LSTM应运而生，为了世界和平而生。

我们先看一下LSTM跟常规的RNN区别。

主要是绿色块里面的变化，外部结构是一样的。

这个内在结构长的很像电路板，可以把这个电路板分为3个部件。

分别是“遗忘门” “输入门” “输出门”

具体这个结构怎么实现的这3个门这里不细说，上面那个地址有详细说明，爱看公式的童鞋可以移步。

这里我概括性的讲为啥要有遗忘门跟输入门、输出门

接我们刚才在RNN那里讲的，如果依赖的结果离的很远，比如说T 依赖 T-10 的输出结果。中间隔了一条银河。

你想要T么？先忘掉T-11 T-12…… 之前的所有信息，然后输入T-10，然后忘掉 T-9 T-8 T-7 …… 然后把 T-10 的输入通过输出门得出结果。

那么遗忘门的摊开之后的参数就是从T-12 到 T 就是：

T-11	T-10	T-9	T-8	T-7	T-6	T-5	T-4	T-3	T-2	T-1	T-0
0	1	0	0	0	0	0	0	0	0	0	0

输入门就是：

T-11	T-10	T-9	T-8	T-7	T-6	T-5	T-4	T-3	T-2	T-1	T-0
0	0	0	0	0	0	0	0	0	0	0	1

所以由

RNN的训练过程就是根据标识好的数据，训练调整这些参数到符合这些数据的规律。

好了，RNN就讲到这里，感谢各位阅读！

后续我会补充，GANs，跟迁移学习方面的综述。

人工智能算法综述（二） RNN and LSTM的更多相关文章

【机器学习PAI实战】—— 玩转人工智能之综述
摘要: 基于人工智能火热的大背景下,通过阿里云的机器学习平台PAI在真实场景中的应用,详细阐述相关算法及使用方法,力求能够让读者读后能够马上动手利用PAI搭建属于自己的机器学习实用方案,真正利用PAI ...
深度学习：浅谈RNN、LSTM+Kreas实现与应用
主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...
RNN、LSTM、Char-RNN 学习系列（一）
RNN.LSTM.Char-RNN 学习系列(一) zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouw 2016-3-15 版权声明 ...
RNN 与 LSTM 的应用
之前已经介绍过关于 Recurrent Neural Nnetwork 与 Long Short-Trem Memory 的网络结构与参数求解算法( 递归神经网络(Recurrent Neural N ...
TensorFlow之RNN：堆叠RNN、LSTM、GRU及双向LSTM
RNN(Recurrent Neural Networks,循环神经网络)是一种具有短期记忆能力的神经网络模型,可以处理任意长度的序列,在自然语言处理中的应用非常广泛,比如机器翻译.文本生成.问答系统 ...
RNN和LSTM
一.RNN 全称为Recurrent Neural Network,意为循环神经网络,用于处理序列数据. 序列数据是指在不同时间点上收集到的数据,反映了某一事物.现象等随时间的变化状态或程度.即数据之 ...
浅谈RNN、LSTM + Kreas实现及应用
本文主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学 ...
深度学习之从RNN到LSTM
1.循环神经网络概述循环神经网络(RNN)和DNN,CNN不同,它能处理序列问题.常见的序列有:一段段连续的语音,一段段连续的手写文字,一条句子等等.这些序列长短不一,又比较难拆分成一个个独立的样本 ...
RNN以及LSTM的介绍和公式梳理
前言好久没用正儿八经地写博客了,csdn居然也有了markdown的编辑器了,最近花了不少时间看RNN以及LSTM的论文,在组内『夜校』分享过了,再在这里总结一下发出来吧,按照我讲解的思路,理解RN ...

随机推荐

kafka概念使用简介注意点
使用场景大数据量.低并发.高可用.订阅消费场景概念理解分区个数与消费者个数分区个数 = 消费者个数 :最合适状态分区个数 > 消费者个数 :某些消费者要承担更多的分区数据消费分区个数 ...
如何创建一个model对象保存到LIST集合里面并取出来
/// <summary> /// 缓存客服集合信息 /// </summary> public class model { /// <summary> /// 客 ...
微信小程序开发之--”emplate模板“的应用
第一步:定义模板 ①:新建一个template文件夹用来管理项目中所有的模板(本文案例定义文件夹名为:temp): ②.新建一个wxml文件来定义模板(本文案例定义文件夹名为:temp.wxml): ...
Win32 API之绘图函数
AbortPath 抛弃选入指定设备场景中的所有路径.也取消目前正在进行的任何路径的创建工作 AngleArc 用一个连接弧画一条线 Arc 画一个圆弧 BeginPath 启动一个路径分支 Canc ...
C语言第十次博客作业--结构体
一.PTA实验作业题目1: 结构体数组按总分排序 1. 本题PTA提交列表 2. 设计思路求出每名学生的总分定义i,j循环变量 for i=0 to n for j=0 to 3 p[i].su ...
客户端(winform)更新
winform更新有两种情况,一种是在线更新在线使用:直接右击项目发布出去就可以更新在线使用了.还有一种更新是不用一直连接网络的模式. 1:C#Winform程序如何发布并自动升级--------ht ...
JavaWeb学习笔记五会话技术Cookie&Session
什么是会话技术? 例如网站的购物系统,用户将购买的商品信息存储到哪里?因为Http协议是无状态的,也就是说每个客户访问服务器端资源时,服务器并不知道该客户端是谁,所以需要会话技术识别客户端的状态.会话 ...
C#触发器知识总结及案例
触发器触发器是在对表进行插入.更新.删除操作时自动执行的存储过程,常用于强制业务规则,是一种高级约束,可以定义比用check约束更为复杂的约束.可以执行复杂的SQL语句(if/while/case) ...
2018最新版本Sublime Text3注册码（仅供测试交流使用）
-– BEGIN LICENSE -– TwitterInc 200 User License EA7E-890007 1D77F72E 390CDD93 4DCBA022 FAF60790 61AA ...
Linux下I/O多路转接之select --fd_set
fd_set 你终于还是来了,能看到这个标题进来的,我想,你一定是和我遇到了一样的问题,一样的疑惑,接下来几个小时,我一定竭尽全力,写出我想说的,希望也正是你所需要的: 关于Linux下I/O多路转接 ...

人工智能算法综述（二） RNN and LSTM

人工智能算法综述（二） RNN and LSTM的更多相关文章

随机推荐

热门专题