Character level language model - Dinosaurus land Welcome to Dinosaurus Island! 65 million years ago, dinosaurs existed, and in this assignment they are back. You are in charge of a special task. Leading biology researchers are creating new breeds of…
Character level language model - Dinosaurus land 为了构建字符级语言模型来生成新的名称,你的模型将学习不同的名字,并随机生成新的名字. 任务清单: 如何存储文本数据,以便使用RNN进行处理. 如何合成数据,通过采样在每个time step预测,并通过下一个RNN-cell unit. 如何构建字符级文本,生成循环神经网络(RNN). 为什么梯度修剪(clipping the gradients)很重要? import numpy as np imp…
Character level language model - Dinosaurus land Welcome to Dinosaurus Island! 65 million years ago, dinosaurs existed, and in this assignment they are back. You are in charge of a special task. Leading biology researchers are creating new breeds of…
Sequence Models This is the fifth and final course of the deep learning specialization at Coursera which is moderated by deeplearning.ai Here are the course summary as its given on the course link: This course will teach you how to build models for n…
About this Course This course will teach you how to build models for natural language, audio, and other sequence data. Thanks to deep learning, sequence algorithms are working far better than just two years ago, and this is enabling numerous exciting…
Word embeding 给word 加feature,用来区分word 之间的不同,或者识别word之间的相似性. 用于学习 Embeding matrix E 的数据集非常大,比如 1B - 100B 的word corpos. 所以即使你输入的是没见过的 durian cutivator 也知道和 orange farmer 很相近. 这是transfter learning 的一个case. 因为t-SNE 做了non-liner 的转化,所以在原来的300维空间的平行的向量在转化过后…
Neural Machine Translation Welcome to your first programming assignment for this week! You will build a Neural Machine Translation (NMT) model to translate human readable dates ("25th of June, 2009") into machine readable dates ("2009-06-25…
第三周 序列模型和注意力机制(Sequence models & Attention mechanism) 基础模型(Basic Models) 在这一周,你将会学习 seq2seq(sequence to sequence)模型,从机器翻译到语音识别,它们都能起到很大的作用,从最基本的模型开始.之后你还会学习集束搜索(Beam search)和注意力模型(Attention Model),一直到最后的音频模型,比如语音. 现在就开始吧,比如你想通过输入一个法语句子,比如这句 "Jane…
Neural Machine Translation Welcome to your first programming assignment for this week! You will build a Neural Machine Translation (NMT) model to translate human readable dates ("25th of June, 2009") into machine readable dates ("2009-06-25…
前一篇文章  用 CNTK 搞深度学习 (一) 入门    介绍了用CNTK构建简单前向神经网络的例子.现在假设读者已经懂得了使用CNTK的基本方法.现在我们做一个稍微复杂一点,也是自然语言挖掘中很火的一个模型: 用递归神经网络构建一个语言模型. 递归神经网络 (RNN),用图形化的表示则是隐层连接到自己的神经网络(当然只是RNN中的一种): 不同于普通的神经网络,RNN假设样例之间并不是独立的.例如要预测“上”这个字的下一个字是什么,那么在“上”之前出现过的字就很重要,如果之前出现过“工作”,…
Sequence to Sequence models basic sequence-to-sequence model: basic image-to-sequence or called image captioning model: but there are some differences between how you write a model like this to generate a sequence, compared to how you were synthesizi…
上文提到了pytorch里的world language model,那么怎么能不说tensorflow的实现呢,还是以tensorflow ptb的代码为例说说. 地址: https://github.com/tensorflow/models/tree/master/tutorials/rnn/ptb 大概处理流程是,一大段文章,然后转成ids,然后根据batchsize切割成.batchsize * M num_steps是一个sequence的长度 epoch_size 就是进行多少轮训…
2 Natural Language Processing & Word Embeddings 2.1 Word Representation(单词表达) vocabulary,每个单词可以使用1-hot表示,写作\(O^{5391}\)之类,上标可以变.只是用1-hot,不能知道任意两个单词的关系,例如man/woman;king/queen;apple/orange. 特征化表示:词嵌入(Featurized representation:word embedding).一个特征,使用-1到…
1. NLP问题简介 0x1:NLP问题都包括哪些内涵 人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发,来尽可能复原人们的感知世界,从而表达真实世界的过程.这里面就包括如图中所示的模型和算法,包括: ()文本层:NLP文本表示: ()文本-感知世界:词汇相关性分析.主题模型.意见情感分析等: ()文本-真实世界:基于文本的预测等: 显而易见,文本表示在文本挖掘中有着绝对核心的地位,是其他所有模型建构…
第一周 循环序列模型(Recurrent Neural Networks) 为什么选择序列模型?(Why Sequence Models?) 在本课程中你将学会序列模型,它是深度学习中最令人激动的内容之一.循环神经网络(RNN)之类的模型在语音识别.自然语言处理和其他领域中引起变革.在本节课中,你将学会如何自行创建这些模型.我们先看一些例子,这些例子都有效使用了序列模型. 在进行语音识别时,给定了一个输入音频片段 \(X\),并要求输出对应的文字记录 \(Y\).这个例子里输入和输出数据都是序列…
Lesson 5 Sequence Models 这篇文章其实是 Coursera 上吴恩达老师的深度学习专业课程的第五门课程的课程笔记. 参考了其他人的笔记继续归纳的. 符号定义 假如我们想要建立一个能够自动识别句中人名地名等位置的序列模型,也就是一个命名实体识别问题,这常用于搜索引擎.命名实体识别系统可以用来查找不同类型的文本中的人名.公司名.时间.地点.国家名和货币名等等. 我们输入语句 "Harry Potter and Herminoe Granger invented a new s…
参考 1. 基础模型(Basic Model) Sequence to sequence模型(Seq2Seq) 从机器翻译到语音识别方面都有着广泛的应用. 举例: 该机器翻译问题,可以使用"编码网络(encoder network)"+"解码网络(decoder network)"两个RNN模型组合的形式来解决. encoder network将输入语句编码为一个特征向量,传递给decoder network,完成翻译.具体模型结构如下图所示: 其中,encoder…
有哪些sequence model Notation: RNN - Recurrent Neural Network 传统NN 在解决sequence input 时有什么问题? RNN就没有上面的问题. 注意这里还提到了BRNN 双向RNN的概念. 激活函数 g1 经常用的是tanh, 也有用relu的但是不常用 Backpropagation through time Difference types of RNNs Language model and sequence generatio…
Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In this assignment, you will implement your first Recurrent Neural Network in numpy. Recurrent Neural Networks (RNN) are very effective for Natural Language…
代码结构 tf的代码看多了之后就知道其实官方代码的这个结构并不好: graph的构建和训练部分放在了一个文件中,至少也应该分开成model.py和train.py两个文件,model.py中只有一个PTBModel类 graph的构建部分全部放在了PTBModel类的constructor中 恰好看到了一篇专门讲如何构建tensorflow模型代码的blog,值得学习,来重构自己的代码吧. 值得学习的地方 虽说官方给出的代码结构上有点小缺陷,但是毕竟都是大神们写出来的,值得我们学习的地方很多,来…
1 Recurrent Neural Networks(循环神经网络) 1.1 序列数据 输入或输出其中一个或两个是序列构成.例如语音识别,自然语言处理,音乐生成,感觉分类,dna序列,机器翻译,视频状态识别,名称识别. 1.2 Notation(符号) \(x ^ { ( i ) < t > }\)表示第\(i\)个训练样本输入的第\(t\)个元素 \(T ^ { ( i ) < t > } _ x\)表示第\(i\)个训练样本输入的长度为\(t\) \(y ^ { ( i )…
LSTM’s in Pytorch Example: An LSTM for Part-of-Speech Tagging Exercise: Augmenting the LSTM part-of-speech tagger with character-level features Sequence models are central to NLP: they are models where there is some sort of dependence through time be…
Empirical Analysis of Beam Search Performance Degradation in Neural Sequence Models  2019-06-13 10:28:44 Paper: [abs] [Download PDF][Supplementary PDF] Eldan Cohen, Christopher Beck ; PMLR 97:1290-1299 1. Background and Motivation: Beam search 是一种常用在…
论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结 文章研究了一些在general corous上pretrain LM,然后把得到的model transfer到text classiffication上 整个过程的训练技巧. 这些技巧的切入点是learning rate. 主要是三个: (1)discriminative fine-tuning (其中的discriminative 指 fine-tune each layer with d…
Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In this assignment, you will implement your first Recurrent Neural Network in numpy. Recurrent Neural Networks (RNN) are very effective for Natural Language…
1. 基础模型 A. Sequence to sequence model:机器翻译.语音识别.(1. Sutskever et. al., 2014. Sequence to sequence learning with neural networks.   2. Cho et. al., 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation.) B…
Traditional Language Model通常用于回答下述问题: How likely is a string of English words good English ? \(p_{LM}(\)the house is small\()\ge p_{LM}(\) small the is house\()\) \(p_{LM}(\)I am going home\()\ge p_{LM}(\)I am going house\()\) 生成该句子 \(W=w_1, w_2, w_3…
Dictionary不一定是个list,它可以是多种形式. 放弃Hash的原因: 通常,tree是比较适合的结构. From: http://www.cnblogs.com/v-July-v/archive/2011/06/07/2075992.html B--tree B-树又叫平衡多路查找树.一棵m阶的B-树 (m叉树)的特性如下: 树中每个结点最多含有m个孩子(m>=2): 除根结点和叶子结点外,其它每个结点至少有[ceil(m / 2)]个孩子(其中ceil(x)是一个取上限的函数):…
A Neural Probabilistic Language Model,这篇论文是Begio等人在2003年发表的,可以说是词表示的鼻祖.在这里给出简要的译文 A Neural Probabilistic Language Model 一个神经概率语言模型 摘  要 统计语言模型的一个目标是学习一种语言的单词序列的联合概率函数.因为维数灾难,这是其本质难点:将被模型测试的单词序列很可能是与在训练中见过的所有单词的序列都不相同.传统的但非常成功的基于n-gram的方法通过将出现在训练集很短的重…
[解释] It is appropriate when every input should be matched to an output. [解释] in a language model we try to predict the next step based on the knowledge of all prior steps. [解释] Γu is a vector of dimension equal to the number of hidden units in the LS…