1. Word representation One-hot representation的缺点:把每个单词独立对待,导致对相关词的泛化能力不强.比如训练出“I want a glass of orange juice”后,面对“I want a glass of apple          ”,由于任何两个不同单词的one-hot vector的内积都为0,算法不知道orange和apple是一类词,所以没办法泛化出在apple后面填“juice”. Featurized represent…
1. Notations 循环序列模型的输入和输出都是时间序列.$x^{(i)<t>}$表示第$i$个输入样本的第$t$个元素,$T_x^{(i)}$表示输入的第$i$个样本的元素个数:$y^{(i)<t>}$表示第$i$个样本的输出的第$t$个元素,$T_y^{(i)}$表示第$i$个样本的输出的元素个数. 在NLP领域,为了描述一句话,会有一个词典(vocabulary),里面保存了所有的英文单词(一般包含3万到5万单词),每个单词依次有一个编号.这样每个单词都可以用一个向量表…
1. 基础模型 A. Sequence to sequence model:机器翻译.语音识别.(1. Sutskever et. al., 2014. Sequence to sequence learning with neural networks.   2. Cho et. al., 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation.) B…
参考 1. Word Representation 之前介绍用词汇表表示单词,使用one-hot 向量表示词,缺点:它使每个词孤立起来,使得算法对相关词的泛化能力不强. 从上图可以看出相似的单词分布距离较近,从而也证明了Word Embeddings能有效表征单词的关键特征. 2. 词嵌入(word embedding) Transfer learning and word embedding: 从海量词汇库中学习word embeddings(即所有单词的特征向量),或者从网上下载预训练好的w…
1.使用词嵌入 给了一个命名实体识别的例子,如果两句分别是“orange farmer”和“apple farmer”,由于两种都是比较常见的,那么可以判断主语为人名. 但是如果是榴莲种植员可能就无法判断了,因为比较不常见. 此时使用 词嵌入,是一个训练好的模型,能够表示说,oragne和durian是类似的词,farmer和cultivator是同义词. 词向量需要在大量数据上进行训练,此时又谈到了迁移学习. 首先从大的语料库中学习词嵌入,然后将模型运用到小的数据集上,或许还可以从小数据集上更…
吴恩达深度学习课程的课堂笔记以及课后作业 代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weixin.qq.com/s/cX9_DiqofPhdXrY_0oTEAw 课程1 - 神经网络和深度学习 周数 名称 类型 地址 week1 深度学习简介 测验 略 week2 神经网络基础 笔记 逻辑回归 逻辑回归推导 具有神经网络思维的Logistic回归 编程作业 识别猫 week3 浅层神经网络…
一.为什么选择序列模型 序列模型可以用于很多领域,如语音识别,撰写文章等等.总之很多优点... 二.数学符号 为了后面方便说明,先将会用到的数学符号进行介绍. 以下图为例,假如我们需要定位一句话中人名出现的位置. 红色框中的为输入.输出值.可以看到人名输出用1表示,反之用0表示: 绿色框中的\(x^{<t>},y^{<t>}\)表示对应红色框中的输入输出值的数学表示,注意从1开始. 灰色框中的\(T_x,T_y\)分别表示输入输出序列的长度,在该例中,\(T_x=9,T_y=9\)…
目录 第一周 循环序列模型 第二周 自然语言处理与词嵌入 第三周 序列模型和注意力机制 第一周 循环序列模型 在进行语音识别时,给定一个输入音频片段X,并要求输出对应的文字记录Y,这个例子中输入和输出数据就是序列模型. 音乐生产问题也是使用序列数据的一个例子. 在自然语言处理中,首先需要决定怎样表示一个序列里单独的单词,解决办法式创建一个词典.然后每个单词的序列表示可以使用该词典长度的一维数组来表示,匹配的位置数据为1,其它位置数据为0. 下面看一个循环神经网络模型: RNN反向传播示意图: 如…
5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.1词汇表征 Word representation 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示词汇表中的词汇. 这种表示方法最大的缺点是 它把每个词孤立起来,这样使得算法对相关词的泛化能力不强 例如:对于已知句子"I want a glass of orange ___ " 很可能猜出下一个词是"juice". 如果模型已知读过了这个句子但是当看见句子"I…
Week 2 Quiz: Natural Language Processing and Word Embeddings (第二周测验:自然语言处理与词嵌入) 1.Suppose you learn a word embedding for a vocabulary of 10000 words. Then the embedding vectors should be 10000 dimensional, so as to capture the full range of variation…