收藏ShowMeAI查看更多精彩内容


本系列为吴恩达老师《深度学习专业课程》学习与总结整理所得,对应的课程视频可以在这里查看。

引言

ShowMeAI前一篇文章 自然语言处理与词嵌入 中我们对以下内容进行了介绍:

  • 词嵌入与迁移学习/类比推理
  • 词嵌入学习方法
  • 神经概率语言模型
  • word2vec(skip-gram与CBOW)
  • GloVe
  • 情感分析
  • 词嵌入消除偏见

本篇介绍自然语言处理中关于序列模型的高级知识,包括Sequence to sequence序列到序列模型和注意力机制。

1.Seq2Seq 模型

1.1 Seq2Seq结构

Seq2Seq(Sequence-to-Sequence)模型能够应用于机器翻译、语音识别等各种序列到序列的转换问题。一个 Seq2Seq 模型包含编码器(Encoder)和解码器(Decoder)两部分,它们通常是两个不同的 RNN。

如图,为Seq2Seq模型典型的机器翻译应用,这个Seq2Seq网络中,包含编码网络(encoder network)和解码网络(decoder network)两个RNN模型子结构,其中encoder编码网络将输入语句编码为一个特征向量,传递给decoder解码网络,完成翻译输出。

提出 Seq2Seq 模型的相关论文:

Sutskever et al., 2014. Sequence to sequence learning with neural networks

Cho et al., 2014. Learning phrase representaions using RNN encoder-decoder for statistical machine translation

1.2 Seq2Seq类似结构应用

这种编码器-解码器的结构也可以用于图像描述(Image captioning)任务。这个任务要根据给定的图像,「翻译」出对应的内容描述。

要完成上述任务,可以这么做:

第1步:将图片输入到CNN(例如预训练好的AlexNet/VGG/Inception),去掉最后的Bleu层,则倒数第2层这个全连接层的输出,就相当于图片的特征向量(编码向量),表征了图片特征信息。

② 第2步:将上述过程得到的图像信息表征向量输入至RNN,即decoder解码网络中,进行解码翻译输出。

图像描述的相关论文:

Mao et. al., 2014. Deep captioning with multimodal recurrent neural networks

Vinyals et. al., 2014. Show and tell: Neural image caption generator

Karpathy and Fei Fei, 2015. Deep visual-semantic alignments for generating image descriptions

2.贪心搜索解码

2.1 机器翻译解码过程

上面提到的简单机器翻译模型与ShowMeAI前面文章 序列模型与RNN网络 提到的语言模型类似,只是用编码器的输出作为解码器第一个时间步的输入(而非0向量)。因此机器翻译的过程其实相当于建立一个条件语言模型。

对应上图,是一个典型的机器翻译编码解码过程。解码器进行预测输出词的过程,结果可能有好有坏。我们希望找到能使条件概率最大化的翻译,即

\(arg \ max_{y^{\left \langle 1 \right \rangle}, \dots , y^{\left \langle T_y \right \rangle}}P(y^{\left \langle 1 \right \rangle}, \dots , y^{\left \langle T_y \right \rangle} \mid x)\)

2.2 贪心搜索

如下为吴恩达老师课程中的一个例子,翻译成英文有多个翻译候选:

Jane visite I'Afrique en septembre.

→ Jane is visiting Africa in September.

→ Jane is going to be visiting Africa in September.

→ In September, Jane will visit Africa.

→ Her African friend welcomed Jane in September.

最直接能想到的解决方法是贪婪搜索(greedy search)贪心搜索根据条件,解码器的每个时间步都选择概率最高的单词作为翻译输出

例如,首先根据输入语句,找到第一个翻译的单词「Jane」,然后再找第二个单词「is」,再继续找第三个单词「visiting」,以此类推。

2.3 贪心搜索缺点

但上述贪心搜索方法存在一些缺点

① 因为贪心搜索每次只选择概率最大的一个词,没有考虑该单词前后关系,概率选择上有可能会出错。

  • 例如,上面翻译语句中,第三个单词「going」比「visiting」更常见,模型很可能会错误地选择了「going」,而错失最佳翻译语句。

② 贪心搜索总体运算成本也比较高,运算效率不高。

优化贪心搜索最常使用的算法是集束搜索(Beam Search)

3.集束搜索解码

3.1 集束搜索方法

相比于贪心搜索每次都选择预测概率最大的词,集束搜索(Beam Search)会每次保留预测概率最大的\(B\)个单词(\(B\)表示取概率最大的词个数,为可调超参数)。

3.2 集束搜索示例

下面针对前一节的机器翻译例子,取\(B=3\)做一个展开讲解:

根据集束搜索,首先从词汇表中找出翻译的第1个单词概率最大的B个预测单词。对应到上例中是:in,jane,september。

概率表示为:\(P(\hat {y}^{\left \langle 1 \right \rangle} \mid x)\)

再分别以in,jane,september为条件,计算每个词汇表单词作为预测第二个单词的概率。从中选择概率最大的3个作为第二个单词的预测值,得到:in september,jane is,jane visits。

概率表示为:\(P(\hat {y}^{\left \langle 2 \right \rangle} \mid x,\hat {y}^{\left \langle 1 \right \rangle})\)。

到这时,得到的前两个单词的3种情况的概率为:

\[P(\hat {y}^{\left \langle 1 \right \rangle},\hat {y}^{\left \langle 2 \right \rangle} \mid x)=P(\hat {y}^{\left \langle 1 \right \rangle} \mid x)\cdot P(\hat {y}^{\left \langle 2 \right \rangle} \mid x,\hat {y}^{\left \langle 1 \right \rangle})
\]

用同样的方法预测第三个单词

分别以in september,jane is,jane visits为条件,计算每个词汇表单词作为预测第三个单词的概率。从中选择概率最大的3个作为第三个单词的预测值,得到:in september jane,jane is visiting,jane visits africa。

概率表示为:\(P(\hat {y}^{\left \langle 3 \right \rangle} \mid x,\hat {y}^{\left \langle 1 \right \rangle},\hat {y}^{\left \langle 2 \right \rangle})\)。

到这时,得到的前三个单词的3种情况的概率为:

\[P(\hat {y}^{\left \langle 1 \right \rangle},\hat {y}^{\left \langle 2 \right \rangle},\hat {y}^{\left \langle 3 \right \rangle} \mid x)=P(\hat {y}^{\left \langle 1 \right \rangle} \mid x)\cdot P(\hat {y}^{\left \langle 2 \right \rangle} \mid x,\hat {y}^{\left \langle 1 \right \rangle})\cdot P(\hat {y}^{\left \langle 3 \right \rangle} \mid x,\hat {y}^{\left \langle 1 \right \rangle},\hat {y}^{\left \langle 2 \right \rangle})
\]

按照同样的方法以此类推,每次都取概率最大的三种预测。最后,选择概率最大的那一组作为最终的翻译语句。

Jane is visiting Africa in September.

特别的,如果参数\(B=1\),就等同于贪心搜索。实际应用中,根据效率要求、计算资源和准确度要求来设置\(B\)的取值。一般\(B\)越大,机器翻译越准确,但计算复杂度也会越高。

3.3 优化:长度标准化

长度标准化(Length Normalization)是对集束搜索算法的优化方式。我们观察公式

\[arg max \prod^{T_y}_{t=1} P(\hat {y}^{\left \langle t \right \rangle} \mid x, \hat {y}^{\left \langle 1 \right \rangle}, \dots , \hat {y}^{\left \langle t-1 \right \rangle})
\]

当很多个小于1的概率值相乘后,会造成数值下溢(Numerical Underflow),即得到的结果将会是一个电脑不能精确表示的极小浮点数。一种处理方法是取\(log\)值,并进行标准化:

\[arg \ max \frac{1}{T_y^{\alpha}} \sum^{T_y}_{t=1} logP(\hat {y}^{\left \langle t \right \rangle} \mid x, \hat {y}^{\left \langle 1 \right \rangle}, \dots , \hat {y}^{\left \langle t-1 \right \rangle})
\]

公式中,\(T_y\)代表翻译结果的单词数量,\(\alpha\)是超参数归一化因子可调整(若\(\alpha=1\),则完全进行长度归一化;若\(\alpha=0\),则不进行长度归一化。一般令\(\alpha=0.7\))。标准化用于减少对输出长的结果的惩罚(因为翻译结果一般没有长度限制)。

前面也讨论到了:集束宽\(B\)的取值影响结果:

  • 较大的\(B\)值意味着可能更好的结果和巨大的计算成本。
  • 较小的\(B\)值代表较小的计算成本和可能表现较差的结果。

通常来说,\(B\)可以根据实际需求选取一个10以下的值

与广度优先搜索和深度优先搜索等精确的查找算法相比,集束搜索算法运行速度更快,但是不能保证一定找到最准确的翻译结果。

3.4 误差分析

集束搜索是一种启发式搜索算法,有可能找不到最优的翻译结果。当Seq2Seq模型+集束搜索构建机器翻译等应用没有输出最佳结果时,我们可以通过误差分析来判断问题出现在RNN模型还是集束搜索算法中

例如,对于下述两个由人工和算法得到的翻译结果:

\((y^\ast)\) Human:\ Jane\ visits\ Africa\ in\ September.\

\((\hat{y})\) Algorithm:\ Jane\ visited\ Africa\ last\ September.\

这个例子中,我们发现翻译结果的前三个单词差异不大,以其作为解码器前三个时间步的输入,得到第四个时间步的条件概率\(P(y^\ast \mid x)\)和\(P(\hat{y} \mid x)\),比较其大小,我们有如下的结论:

  • 如果\(P(y^\ast \mid x) > P(\hat {y} \mid x)\),说明是集束搜索算法出现错误,没有选择到概率最大的词;
  • 如果\(P(y^\ast \mid x) \le P(\hat {y} \mid x)\),说明是RNN模型的效果不佳,预测的第四个词为「in」的概率小于「last」。

我们可以构建表格对错误的case进行汇总分析,综合判断错误出现在RNN模型还是集束搜索算法中。

如果错误出现在集束搜索算法中,可以考虑增大集束宽\(B\);否则,需要进一步分析,看是需要正则化、更多数据或是尝试一个不同的网络结构。

4.Bleu 得分

4.1 Bleu计算方式

上述我们一直以机器翻译为例给大家做讲解,下面我们介绍一下机器翻译的评估方法,我们会用Bleu(Bilingual Evaluation Understudy)得分评估机器翻译的质量,核心思想是「机器翻译的结果越接近于人工翻译,则评分越高」。

原始的Bleu计算方法将机器翻译结果中每个单词在人工翻译中出现的次数作为分子,机器翻译结果总词数作为分母,计算得到,但这种简单粗暴的方式容易出现错误。例如,机器翻译结果全部选定高频出现,又恰好在人工翻译结果中的词(比如上图的the),则按照上述方法得到的Bleu为1,显然有误。

改进的计算方法是将每个单词在人工翻译结果中出现的次数作为分子,在机器翻译结果中出现的次数作为分母。

4.2 从unigram到n-gram

上述统计,以单个词为单位的集合称为unigram(一元组)。我们可以以两两连续的词为单位统计,叫做bigram(二元组):对每个二元组,可以统计其在机器翻译结果(\(count\))和人工翻译结果(\(count_{clip}\))出现的次数,计算Bleu得分。

同样的方式,还可以统计以\(n\)个单词为单位的集合,称为n-gram(多元组),基于n-gram的Blue得分计算公式为:

\[p_n = \frac{\sum_{\text{n-gram} \in \hat {y}}count_{clip}(\text{n-gram})}{\sum_{\text{n-gram} \in \hat {y}}count(\text{n-gram})}
\]

对$ N \(个\)p_n$进行几何加权平均得到:

\[p_{ave} = exp(\frac{1}{N}\sum^N_{i=1}log^{p_n})
\]

4.3 长度惩罚

Bleu存在的1个问题是:当机器翻译结果比较短时,比较容易能得到更大的精确度分值(容易理解,因为输出的大部分词可能都出现在人工翻译结果中)。

对长度问题的改进方法之一,是设置一个最佳匹配长度(Best Match Length),若机器翻译的结果短于该最佳匹配长度,则需要接受简短惩罚(Brevity Penalty,BP):

\[BP =
\begin{cases}
1, &MT\_length \ge BM\_length \\
exp(1 - \frac{MT\_length}{BM\_length}), &MT\_length \lt BM\_length
\end{cases}
\]

优化调整过后的Bleu得分为:

\[Blue = BP \times exp(\frac{1}{N}\sum^N_{i=1}log^{p_n})
\]

相关论文:Papineni et. al., 2002. A method for automatic evaluation of machine translation

5.注意力模型

5.1 注意力机制

回到机器翻译问题,有时候翻译的句子很长,如果对整个语句输入RNN的编码网络和解码网络进行翻译,效果会不佳。具体表现是Bleu score会随着单词数目增加而逐渐降低,如下图所示。

一种处理长句的方法是将长语句分段,每次只对其一部分进行翻译。人工翻译也是采用这样的方法,高效准确。

这种「局部聚焦」的思想,对应到深度学习中非常重要的注意力机制(attention mechanism)。对应的模型叫做注意力模型(attention model)。

5.2 注意力模型(Attention Model)

下图为注意力模型的一个示例。模型的底层是一个双向循环神经网络(BRNN),「双向」是指的每个时间步的激活都包含前向传播和反向传播产生的激活结果:

\(a^{\langle t\prime \rangle} = ({\overrightarrow a}^{\langle t\prime \rangle}, {\overleftarrow a}^{\langle t\prime \rangle})\)

模型的顶层是一个「多对多」结构的循环神经网络,我们以第\(t\)个时间步为例,它的输入包含:

① 同级网络前一个时间步的激活\(s^{\left \langle t-1 \right \rangle}\)、输出\(y^{\left \langle t-1 \right \rangle}\)

② 底层BRNN网络多个时间步的激活 \(c\),其中\(c\)计算方式如下(注意分辨\(\alpha\)和\(a\)):\(c^{\left \langle t \right \rangle} = \sum_{\left \langle t \prime \right \rangle}\alpha^{ \left \langle t,t\prime \right \rangle }a^{\left \langle t \prime \right \rangle}\)

我们对上面的公式展开讲解:

① 参数\(\alpha^{\left \langle t,t\prime \right \rangle}\)代表着\(y^{\left \langle t \right \rangle}\)对\(a^{\left \langle t \prime \right \rangle}\)的「注意力」,总和为\(1\)(体现分配到不同部分的注意力比重):

\[\sum_{\left \langle t \prime \right \rangle}\alpha^{\left \langle t,t\prime \right \rangle} = 1
\]
  • \(\alpha^{\left \langle t,t\prime \right \rangle}\)的计算是使用Bleu得到的,即:\(\alpha^{\left \langle t,t\prime \right \rangle} = \frac{exp(e^{\left \langle t,t\prime \right \rangle})}{\sum^{T_x}_{\left \langle t \prime =1 \right \rangle}exp(e^{\left \langle t,t\prime \right \rangle})}\),所以也一定能保证总和为1。

② 上式中的\(e^{\left \langle t,t\prime \right \rangle}\)是通过神经网络学习得到的。假设输入为\(s^{\left \langle t-1 \right \rangle}\)和\(a^{\left \langle t,t\prime \right \rangle}\),则可以通过下图这样一个简单的神经网络计算得到:

注意力模型在其他领域,例如图像捕捉方面也有应用。它的一个缺点是时间复杂度较高。

Attention model能有效处理很多机器翻译问题,例如下面的时间格式归一化:

July 20th 1969 → 1969-07-20

23 April, 1564 → 1564-04-23

下图将注意力权重可视化:

上图中,颜色越白表示注意力权重越大,颜色越深表示权重越小。可见,输出语句单词与其输入语句单词对应位置的注意力权重较大,即对角线附近。

相关论文:

Bahdanau et. al., 2014. Neural machine translation by jointly learning to align and translate

Xu et. al., 2015. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention:将注意力模型应用到图像标注中

6.语音识别

语音识别是另外一个非常典型的NLP序列问题,在语音识别任务中,输入是一段音频片段,输出是文本。我们有时会把信号转化为频域信号,也就是声谱图(spectrogram),再借助于RNN模型进行识别。

以前的语音识别系统通过语言学家人工设计的音素(Phonemes)来构建,音素指的是一种语言中能区别两个词的最小语音单位。现在的端到端系统中,用深度学习就可以实现输入音频,直接输出文本。

要使用深度学习训练可靠的语音识别系统,要依赖海量的数据。在语音识别的学术研究中,要用到长度超过3000小时的音频数据;如果是商用系统,那么超过一万小时是最基本的要求。

语音识别系统可以用注意力模型来构建,一个简单的图例如下

假如上例中,语音识别的输入为10s语音信号序列,采样率为100Hz,则语音长度为1000。而翻译的语句通常很短,例如「the quick brown fox」,包含19个字符。我们会发现\(T_x\)与\(T_y\)差别很大。为了让\(T_x=T_y\),可以对输出做一些处理,比如对相应字符重复,比如加入一些空白(blank),如下:

上式中,下划线 _ 表示空白,\(\sqcup\) 表示两个单词之间的空字符。这种写法的一个基本准则是没有被空白符 _ 分割的重复字符将被折叠到一起,即表示一个字符。

通过加入了重复字符和空白符、空字符,可以让输出长度也达到1000,即\(T_x=T_y\)。这种模型被称为CTC(Connectionist temporal classification)

相关论文:Graves et al., 2006. Connectionist Temporal Classification: Labeling unsegmented sequence data with recurrent neural networks

7.触发词检测

触发词检测(Trigger Word Detection)常用于各种智能设备,通过约定的触发词可以语音唤醒设备。例如Amazon Echo的触发词是「Alexa」,小米音箱的触发词是「小爱同学」,百度DuerOS的触发词是「小度你好」,Apple Siri的触发词是「Hey Siri」。

我们可以使用RNN模型来构建触发词检测系统。如下图的输入语音中包含一些触发词。RNN检测到触发字后输出1,非触发字输出0。这样训练的RNN模型就能实现触发字检测。

上述模型的缺点是,训练样本语音大部分片段都是非触发词,只有少数的触发词部分,即正负样本分布不均。

一种解决办法如下图所示,对触发词附近的数据处理,将附近的RNN输出都调整为1。这样简单粗暴处理后,相当于增加了正样本。

参考资料

ShowMeAI系列教程推荐

推荐文章

深度学习教程 | Seq2Seq序列模型和注意力机制的更多相关文章

  1. 深度学习中的序列模型演变及学习笔记(含RNN/LSTM/GRU/Seq2Seq/Attention机制)

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...

  2. 吴恩达《深度学习》-第五门课 序列模型(Sequence Models)-第三周 序列模型和注意力机制(Sequence models & Attention mechanism)-课程笔记

    第三周 序列模型和注意力机制(Sequence models & Attention mechanism) 3.1 序列结构的各种序列(Various sequence to sequence ...

  3. DeepLearning.ai学习笔记(五)序列模型 -- week2 序列模型和注意力机制

    一.基础模型 假设要翻译下面这句话: "简将要在9月访问中国" 正确的翻译结果应该是: "Jane is visiting China in September" ...

  4. ng-深度学习-课程笔记-17: 序列模型和注意力机制(Week3)

    1 基础模型(Basic models) 一个机器翻译的例子,比如把法语翻译成英语,如何构建一个神经网络来解决这个问题呢? 首先用RNN构建一个encoder,对法语进行编码,得到一系列特征 然后用R ...

  5. Coursera Deep Learning笔记 序列模型(三)Sequence models & Attention mechanism(序列模型和注意力机制)

    参考 1. 基础模型(Basic Model) Sequence to sequence模型(Seq2Seq) 从机器翻译到语音识别方面都有着广泛的应用. 举例: 该机器翻译问题,可以使用" ...

  6. DLNg第三周:序列模型和注意力机制

    1.基础模型 将法语翻译为英语,分为编码和解码阶段,将一个序列变为另一个序列.即序列对序列模型. 从图中识别出物体的状态,将图片转换为文字. 先使用CNN处理图片,再使用RNN将其转换为语言描述. 2 ...

  7. 时间序列深度学习:seq2seq 模型预测太阳黑子

    目录 时间序列深度学习:seq2seq 模型预测太阳黑子 学习路线 商业中的时间序列深度学习 商业中应用时间序列深度学习 深度学习时间序列预测:使用 keras 预测太阳黑子 递归神经网络 设置.预处 ...

  8. 深度学习的seq2seq模型——本质是LSTM,训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大

    from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...

  9. 时间序列深度学习:状态 LSTM 模型预测太阳黑子

    目录 时间序列深度学习:状态 LSTM 模型预测太阳黑子 教程概览 商业应用 长短期记忆(LSTM)模型 太阳黑子数据集 构建 LSTM 模型预测太阳黑子 1 若干相关包 2 数据 3 探索性数据分析 ...

随机推荐

  1. 一个故事看懂CPU的SIMD技术

    好久不见,我叫阿Q,是CPU一号车间的员工.我所在的CPU有8个车间,也就是8个核心,咱们每个核心都可以同时执行两个线程,就是8核16线程,那速度杠杠滴. 我所在的一号车间,除了负责执行指令的我,还有 ...

  2. 浅析MySQL恶意服务器读取文件原理

    前言 注:本文不涉及对MySQL协议报文研究,仅讲解原理,并且做部分演示. 搭建MySQL恶意服务器读取文件这件事,虽然直接利用门槛较高,但是由于在网上看到了一种比较新颖的利用方式(利用社会工程学引诱 ...

  3. 为什么不建议使用统配符初始化 css 样式

    为什么不建议使用统配符初始化 css 样式 * { padding:0; margin:0; } 采用这样的写法好处是写起来很简单,但是通配符,需要把所有的标签都遍历一遍,当网站较大时,样式比较多,这 ...

  4. XML约束DTD

    <元素1> <元素2> <元素3>描述1</元素3> <元素4>描述2</元素4> </元素2> </元素1& ...

  5. Java并发机制(6)--阻塞队列

    Java并发编程:阻塞队列整理自:博客园-海子-http://www.cnblogs.com/dolphin0520/p/3933404.html 1.什么是阻塞队列 除了同步容器(Hashtable ...

  6. 学习Redis(二)

    1.Redis应用场景 1.缓存(键过期时间) 1) 缓存session会话 2) 缓存用户信息,找不到再去mysql查,查到然后回写到redis 3) 商城优惠卷过期时间 2.排行榜(列表& ...

  7. 数据仓库(5)数仓Kimball与Inmon架构的对比

    数据仓库主要有四种架构,Kimball的DW/BI架构.独立数据集市架构.辐射状企业信息工厂Inmon架构.混合Inmon与Kimball架构.不过不管是那种架构,基本上都会使用到维度建模. < ...

  8. 4-Pandas数据预处理之数据转换(df.map()、df.replace())

    在数据分析中,根据需求,有时候需要将一些数据进行转换,而在Pandas中,实现数据转换的常用方法有: 利用函数或是映射 可以将自己定义的或者是其他包提供的函数用在Pandas对象上实现批量修改. ap ...

  9. expression:_CrtlsValidHeapPointer

    详见stackoverflow "_CrtIsValidHeapPointerUserData means, that you have a heap corruption, which i ...

  10. .NET面试题整理

    .NET..NET Framework..NET Core和C#的解释各是什么? ASP.NET MVC和ASP.NET Web API的区别是什么? C#中的委托是什么?事件是不是一种委托? 简述P ...