deeplearning.ai学习LSTM】的更多相关文章

一.LSTM架构与公式 这里的a<t>表示的就是原始输出,y<t>表示的就是经过softmax的输出,c<t>相当于状态.u(update)代表是输入门,f代表遗忘门,o(output)代表输出门. 上图就是串联起来的结构,从图中我们可以看出,如果门控设置比较合理的话,c<0>从左到右是可以一直传递的,无论中间经过多少层,这就是LSTM可以处理长依赖的优势. 二.Bidirectional RNN(双向RNN结构) 上图就是andrew ng画的双向RNN的…
第一章 神经网络与深度学习(Neural Network & Deeplearning) DeepLearning.ai学习笔记(一)神经网络和深度学习--Week3浅层神经网络 DeepLearning.ai学习笔记(一)神经网络和深度学习--Week4深层神经网络 第二章 改善深层神经网络 DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试.正则化以及优化--Week1深度学习的实用层面 DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试.正则化以…
一.进行误差分析 很多时候我们发现训练出来的模型有误差后,就会一股脑的想着法子去减少误差.想法固然好,但是有点headlong~ 这节视频中吴大大介绍了一个比较科学的方法,具体的看下面的例子 还是以猫分类器为例,假设我们的模型表现的还不错,但是依旧存在误差,预测后错误标记的数据中有一部分狗图片被错误的标记成了猫.这个时候按照一般的思路可能是想通过训练出狗分类器模型来提高猫分类器,或者其他的办法,反正就是要让分类器更好地区分狗和猫. 但是现在的问题是,假如错误分类的100个样本中,只有5个狗样本被…
一.RNN基本结构 普通神经网络不能处理时间序列的信息,只能割裂的单个处理,同时普通神经网络如果用来处理文本信息的话,参数数目将是非常庞大,因为如果采用one-hot表示词的话,维度非常大. RNN可以解决这两个问题: 1)RNN属于循环神经网络,当从左到右读取文本信息的时候,上一时刻的状态输出可以传递到下一时刻,例如上图的a表示状态,a(1)向下传递,这样就考虑了前面的信息,如果是双向RNN的话,上下文都考虑进去了. 2)RNN参数是共享的.为方便理解,上述图示是展开的RNN结构,其实RNN只…
介绍 DeepLearning课程总共五大章节,该系列笔记将按照课程安排进行记录. 另外第一章的前两周的课程在之前的Andrew Ng机器学习课程笔记(博客园)&Andrew Ng机器学习课程笔记(CSDN)系列笔记中都有提到,所以这里不再赘述. 1.神经网络概要 注意:这一系列的课程中用中括号表示层数,例如\(a^{[1]}\)表示第二层(隐藏层)的数据. 2.神经网络表示 这个图的内容有点多,跟着下面的步骤来理解这个图吧: 首先看蓝色字体,这个2层的神经网络(输入层一般理解成第0层)有输入层…
一.为什么选择序列模型 序列模型可以用于很多领域,如语音识别,撰写文章等等.总之很多优点... 二.数学符号 为了后面方便说明,先将会用到的数学符号进行介绍. 以下图为例,假如我们需要定位一句话中人名出现的位置. 红色框中的为输入.输出值.可以看到人名输出用1表示,反之用0表示: 绿色框中的\(x^{<t>},y^{<t>}\)表示对应红色框中的输入输出值的数学表示,注意从1开始. 灰色框中的\(T_x,T_y\)分别表示输入输出序列的长度,在该例中,\(T_x=9,T_y=9\)…
一.词汇表征 首先回顾一下之前介绍的单词表示方法,即one hot表示法. 如下图示,"Man"这个单词可以用 \(O_{5391}\) 表示,其中O表示One_hot.其他单词同理. 但是这样的表示方法有一个缺点,看是看下图中右侧给出的例子,比如给出这么一句不完整的话: **I want a glass of orange ___** 假设通过LSTM算法学到了空白处应该填"juice".但是如果将orange改成apple,即 **I want a glass…
一.基础模型 假设要翻译下面这句话: "简将要在9月访问中国" 正确的翻译结果应该是: "Jane is visiting China in September" 在这个例子中输入数据是10个中文汉字,输出为6个英文单词,\(T_x\)和\(T_y\)数量不一致,这就需要用到序列到序列的RNN模型. ​ 类似的例子还有看图说话: 只需要将encoder部分用一个CNN模型替换就可以了,比如AlexNet,就可以得到"一只(可爱的)猫躺在楼梯上"…
1. Mini-batch梯度下降法 介绍 假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,所以我们对数据做如下处理: 如图所示,我们以1000为单位,将数据进行划分,令\(x^{\{1\}}=\{x^{(1)},x^{(2)}--x^{(1000)}\}\), 一般地用\(x^{\{t\}},y^{\{t\}}\)来表示划分后的mini-batch. 注意区分该系列教学视频的符号标记: 小括号() 表示具体的某一个元素,指一个…
一.计算机视觉 如图示,之前课程中介绍的都是64* 64 3的图像,而一旦图像质量增加,例如变成1000 1000 * 3的时候那么此时的神经网络的计算量会巨大,显然这不现实.所以需要引入其他的方法来解决这个问题. 二.边缘检测示例 边缘检测可以是垂直边缘检测,也可以是水平边缘检测,如上图所示. 至于算法如何实现,下面举一个比较直观的例子: 可以很明显的看出原来6 * 6的矩阵有明显的垂直边缘,通过3 * 3的过滤器(也叫做 "核")卷积之后,仍然保留了原来的垂直边缘特征,虽然这个边缘…