5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1基础模型 [1] Sutskever I, Vinyals O, Le Q V. Sequence to Sequence Learning with Neural Networks[J]. 2014, 4:3104-3112. [2] Cho K, Van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN…
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述 对于音频片段(audio clip)x ,y生成文本(transcript),人听见的或者麦克风捕捉的都是空气中细微的气压变化,语音识别系统能够根据这种微弱的气压变化将音频转化为文本字符. 将空气中微弱的气压变化显示成频率图的形式,并输出音频的文本内容如下图所示: 考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量不同的频率和强…
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of long sequences 对于给定的长序列的法语句子,在下图中的网络中,绿色的编码器读取整个句子,然后记忆整个句子,再在感知机中传递,紫色的解码神经网络将生成英文翻译. 人工的方法不会通过读取在记忆整个句子中的内容,然后从零开始翻译成一个英语句子,人工翻译做的是先翻译出句子的部分,再看下一部分…
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.6Bleu得分 在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题. 常见的解决方法是通过BLEU得分来进行判断 评价机器翻译Evaluating machine translation Papineni K. Bleu:A Method for Automatic Evaluation of Machine Translation[J]. Proc Acl, 2002. 示例…
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想要一个最好的英语翻译结果.对于语音识别也是一样,给定一个输入的语音片段,你不会想要一个随机的文本翻译结果,你想要一个最接近愿意的翻译结果. Jane visite l'Afrique en septembre 希望翻译成英文句子 Jane is visiting Africa in September…
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition language model 有条件的语言模型 对于 语言模型 ,能够估计出这些单词是一个句子的可能性,也可以用其生成一个新的句子. 对于 机器翻译模型 使用绿色表示 编码网络 ,使用 紫色表示 解码网络. 会发现 解码网络 和 语言模型 几乎一模一样,只是在普通的语言模型中输入的向量 \(a^{<0>…
5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780. 门控循环神经网络单元GRU 长短期记忆网络LSTM 记忆细胞更新: \[\breve{C}^{<t>}=tanh(W_c[a^{<t-1&g…
5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.7对新序列采样 基于词汇进行采样模型 在训练完一个模型之后你想要知道模型学到了什么,一种非正式的方法就是进行一次新序列采样. 一个序列模型模拟了任意特定单词序列的概率,对新序列采样即是对概率分布进行采样来生成一个新的单词序列. 假设你的RNN训练模型为: 对于新序列进行采样第一步即是对想要模型生成的第一个词进行采样 设置\(a^{<0>}=0,x^{<1>}=0\)从而得到所有可能的输出结果\(\hat…
5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.5不同类型的循环神经网络 上节中介绍的是 具有相同长度输入序列和输出序列的循环神经网络,但是对于很多应用\(T_{x}和T_{y}\)并不一定相等. 在此节会介绍不同的能够处理不同问题的循环神经网络. 多对多循环神经网络 对于命名实体识别的问题中,RNN的输出和输入序列长度一致--\(T_{x}=T_{y}\). 则在每读一个单词时都输出预测的值\(\hat{y}\) 这是一个典型的多对多的问题. 多对一循环神经网络…
5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.3循环神经网络模型 为什么不使用标准的神经网络 假如将九个单词组成的序列作为输入,通过普通的神经网网络输出输出序列, 在不同的例子中输入数据和输出数据具有不同的长度,即每个数据不会有一样的长度 也许每个语句都有最大长度,能够通过Padding 的方式填充数据,但总体来说不是一个好的表达方式. 不共享从文本的不同位置上学到的特征 例如普通神经网络可以学习到Harry这个单词出现在\(x^{<1>}\)的位置,但是如果…