从Encoder到Decoder实现Seq2Seq模型

https://zhuanlan.zhihu.com/p/27608348

更新：感谢@Gang He指出的代码错误。get_batches函数中第15行与第19行，代码已经重新修改，GitHub已更新。

前言

好久没有更新专栏，今天我们来看一个简单的Seq2Seq实现，我们将使用TensorFlow来实现一个基础版本的Seq2Seq，主要帮助理解Seq2Seq中的基础架构。

最基础的Seq2Seq模型包含了三个部分，即Encoder、Decoder以及连接两者的中间状态向量，Encoder通过学习输入，将其编码成一个固定大小的状态向量S，继而将S传给Decoder，Decoder再通过对状态向量S的学习来进行输出。

图中每一个box代表了一个RNN单元，通常是LSTM或者GRU。其实基础的Seq2Seq是有很多弊端的，首先Encoder将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，同时，随着sequence length的增加，意味着时间维度上的序列很长，RNN模型也会出现梯度弥散。最后，基础的模型连接Encoder和Decoder模块的组件仅仅是一个固定大小的状态向量，这使得Decoder无法直接去关注到输入信息的更多细节。由于基础Seq2Seq的种种缺陷，随后引入了Attention的概念以及Bi-directional encoder layer等，由于本篇文章主要是构建一个基础的Seq2Seq模型，对其他改进tricks先不做介绍。

总结起来说，基础的Seq2Seq主要包括Encoder，Decoder，以及连接两者的固定大小的State Vector。

实战代码

下面我们就将利用TensorFlow来构建一个基础的Seq2Seq模型，通过向我们的模型输入一个单词（字母序列），例如hello，模型将按照字母顺序排序输出，即输出ehllo。

版本信息：Python 3 / TensorFlow 1.1

1. 数据集

数据集包括source与target：

- source_data: 每一行是一个单词

- target_data: 每一行是经过字母排序后的“单词”，它的每一行与source_data中每一行一一对应

例如，source_data的第一行是hello，第二行是what，那么target_data中对应的第一行是ehllo，第二行是ahtw。

2. 数据预览

我们先把source和target数据加载进来，可以看一下前10行，target的每一行是对source源数据中的单词进行了排序。下面我们就将基于这些数据来训练一个Seq2Seq模型，来帮助大家理解基础架构。

3. 数据预处理

在神经网络中，对于文本的数据预处理无非是将文本转化为模型可理解的数字，这里都比较熟悉，不作过多解释。但在这里我们需要加入以下四种字符，<PAD>主要用来进行字符补全，<EOS>和<GO>都是用在Decoder端的序列中，告诉解码器句子的起始与结束，<UNK>则用来替代一些未出现过的词或者低频词。

< PAD>: 补全字符。
< EOS>: 解码器端的句子结束标识符。
< UNK>: 低频词或者一些未遇到过的词等。
< GO>: 解码器端的句子起始标识符。

通过上面步骤，我们可以得到转换为数字后的源数据与目标数据。

4. 模型构建

Encoder

模型构建主要包括Encoder层与Decoder层。在Encoder层，我们首先需要对定义输入的tensor，同时要对字母进行Embedding，再输入到RNN层。

在这里，我们使用TensorFlow中的tf.contrib.layers.embed_sequence来对输入进行embedding。

我们来看一个栗子，假如我们有一个batch=2，sequence_length=5的样本，features = [[1,2,3,4,5],[6,7,8,9,10]]，使用

tf.contrib.layers.embed_sequence(features,vocab_size=n_words, embed_dim=10)

那么我们会得到一个2 x 5 x 10的输出，其中features中的每个数字都被embed成了一个10维向量。

官方关于tf.contrib.layers.embed_sequence()的解释如下：
Maps a sequence of symbols to a sequence of embeddings.
Typical use case would be reusing embeddings between an encoder and decoder.

Decoder

在Decoder端，我们主要要完成以下几件事情：

对target数据进行处理
构造Decoder

Embedding
构造Decoder层
构造输出层，输出层会告诉我们每个时间序列的RNN输出结果
Training Decoder
Predicting Decoder

下面我们会对这每个部分进行一一介绍。

1. target数据处理

我们的target数据有两个作用：

在训练过程中，我们需要将我们的target序列作为输入传给Decoder端RNN的每个阶段，而不是使用前一阶段预测输出，这样会使得模型更加准确。（这就是为什么我们会构建Training和Predicting两个Decoder的原因，下面还会有对这部分的解释）。
需要用target数据来计算模型的loss。

我们首先需要对target端的数据进行一步预处理。在我们将target中的序列作为输入给Decoder端的RNN时，序列中的最后一个字母（或单词）其实是没有用的。我们来用下图解释：

我们此时只看右边的Decoder端，可以看到我们的target序列是[<go>, W, X, Y, Z, <eos>]，其中<go>，W，X，Y，Z是每个时间序列上输入给RNN的内容，我们发现，<eos>并没有作为输入传递给RNN。因此我们需要将target中的最后一个字符去掉，同时还需要在前面添加<go>标识，告诉模型这代表一个句子的开始。

如上图，所示，红色和橙色为我们最终的保留区域，灰色是序列中的最后一个字符，我们把它删掉即可。

我们使用tf.strided_slice()来进行这一步处理。

其中tf.fill(dims, value)参数会生成一个dims形状并用value填充的tensor。举个栗子：tf.fill([2,2], 7) => [[7,7], [7,7]]。tf.concat()会按照某个维度将两个tensor拼接起来。

2. 构造Decoder

对target数据进行embedding。
构造Decoder端的RNN单元。
构造输出层，从而得到每个时间序列上的预测结果。
构造training decoder。
构造predicting decoder。

注意，我们这里将decoder分为了training和predicting，这两个encoder实际上是共享参数的，也就是通过training decoder学得的参数，predicting会拿来进行预测。那么为什么我们要分两个呢，这里主要考虑模型的robust。

在training阶段，为了能够让模型更加准确，我们并不会把t-1的预测输出作为t阶段的输入，而是直接使用target data中序列的元素输入到Encoder中。而在predict阶段，我们没有target data，有的只是t-1阶段的输出和隐层状态。

上面的图中代表的是training过程。在training过程中，我们并不会把每个阶段的预测输出作为下一阶段的输入，下一阶段的输入我们会直接使用target data，这样能够保证模型更加准确。

这个图代表我们的predict阶段，在这个阶段，我们没有target data，这个时候前一阶段的预测结果就会作为下一阶段的输入。

当然，predicting虽然与training是分开的，但他们是会共享参数的，training训练好的参数会供predicting使用。

decoder层的代码如下：

构建好了Encoder层与Decoder以后，我们需要将它们连接起来build我们的Seq2Seq模型。

定义超参数

# 超参数

# Number of Epochs

epochs = 60

# Batch Size

batch_size = 128

# RNN Size

rnn_size = 50

# Number of Layers

num_layers = 2

# Embedding Size

encoding_embedding_size = 15

decoding_embedding_size = 15

# Learning Rate

learning_rate = 0.001

定义loss function、optimizer以及gradient clipping

目前为止我们已经完成了整个模型的构建，但还没有构造batch函数，batch函数用来每次获取一个batch的训练样本对模型进行训练。

在这里，我们还需要定义另一个函数对batch中的序列进行补全操作。这是啥意思呢？我们来看个例子，假如我们定义了batch=2，里面的序列分别是

[['h', 'e', 'l', 'l', 'o'],

 ['w', 'h', 'a', 't']]

那么这两个序列的长度一个是5，一个是4，变长的序列对于RNN来说是没办法训练的，所以我们这个时候要对短序列进行补全，补全以后，两个序列会变成下面的样子：

[['h', 'e', 'l', 'l', 'o'],

 ['w', 'h', 'a', 't', '<PAD>']]

这样就保证了我们每个batch中的序列长度是固定的。

感谢@Gang He提出的错误。此处代码已修正。修改部分为get_batches中的两个for循环，for target in targets_batch和for source in sources_batch（之前的代码是for target in pad_targets_batch和for source in pad_sources_batch），因为我们用sequence_mask计算了每个句子的权重，该权重作为参数传入loss函数，主要用来忽略句子中pad部分的loss。如果是对pad以后的句子进行loop，那么输出权重都是1，不符合我们的要求。在这里做出修正。GitHub上代码也已修改。

至此，我们完成了整个模型的构建与数据的处理。接下来我们对模型进行训练，我定义了batch_size=128，epochs=60。训练loss如下：

模型预测

我们通过实际的例子来进行验证。

输入“hello”：

输入“machine”：

输入“common”：

总结

至此，我们实现了一个基本的序列到序列模型，Encoder通过对输入序列的学习，将学习到的信息转化为一个状态向量传递给Decoder，Decoder再基于这个输入得到输出。除此之外，我们还知道要对batch中的单词进行补全保证一个batch内的样本具有相同的序列长度。

我们可以看到最终模型的训练loss相对已经比较低了，并且从例子看，其对短序列的输出还是比较准确的，但一旦我们的输入序列过长，比如15甚至20个字母的单词，其Decoder端的输出就非常的差。

完整代码已上传至GitHub。

转载请联系作者获得授权。

编辑于 2018-03-19

从Encoder到Decoder实现Seq2Seq模型的更多相关文章

[转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型到 Attention
from : https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/ 一.Seq2Seq 模型 1. 简介 Sequence-to ...
学习笔记CB014:TensorFlow seq2seq模型步步进阶
神经网络.<Make Your Own Neural Network>,用非常通俗易懂描述讲解人工神经网络原理用代码实现,试验效果非常好. 循环神经网络和LSTM.Christopher ...
deeplearning.ai学习seq2seq模型
一.seq2seq架构图 seq2seq模型左边绿色的部分我们称之为encoder,左边的循环输入最终生成一个固定向量作为右侧的输入,右边紫色的部分我们称之为decoder.单看右侧这个结构跟我们之前 ...
seq2seq模型以及其tensorflow的简化代码实现
本文内容: 什么是seq2seq模型 Encoder-Decoder结构常用的四种结构带attention的seq2seq 模型的输出 seq2seq简单序列生成实现代码一.什么是seq2seq ...
深度学习的seq2seq模型——本质是LSTM，训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大
from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...
seq2seq模型详解及对比（CNN，RNN，Transformer）
一,概述在自然语言生成的任务中,大部分是基于seq2seq模型实现的(除此之外,还有语言模型,GAN等也能做文本生成),例如生成式对话,机器翻译,文本摘要等等,seq2seq模型是由encoder, ...
pytorch seq2seq模型示例
以下代码可以让你更加熟悉seq2seq模型机制 """ test """ import numpy as np import torch i ...
Seq2Seq模型与 Attention 策略
Seq2Seq模型传统的机器翻译的方法往往是基于单词与短语的统计,以及复杂的语法结构来完成的.基于序列的方式,可以看成两步,分别是 Encoder 与 Decoder,Encoder 阶段就是将输入 ...
Seq2Seq模型与注意力机制
Seq2Seq模型基本原理核心思想:将一个作为输入的序列映射为一个作为输出的序列编码输入解码输出解码第一步,解码器进入编码器的最终状态,生成第一个输出以后解码器读入上一步的输出,生成当前步 ...

随机推荐

使用exundelete在Linux下恢复删除的文件
原文:https://my.oschina.net/looly/blog/261912 Linux下执行 rm 并不会真正删除,而是将inode节点中的扇区删除,同时释放数据块.在数据块被系统重新分配 ...
Laravel Cache 的缓存文件在到期后是否会自动删除
验证缓存文件是否会自动删除的目的是,防止产生大量的缓存文件,占满磁盘.因为,我最近越来越多的使用 cache 来缓存各类 token. 使用的是 file 作为 CACHE_DRIVER CACHE_ ...
MySQL5.6 GTID Replication
MySQL 5.6 的新特性之一,是加入了全局事务 ID (Global Transaction ID) 来强化数据库的主备一致性,故障恢复,以及容错能力.官方文档:http://dev.mysql. ...
python 全栈开发，Day2(in,while else,格式化输出,逻辑运算符,int与bool转换,编码)
一.in的使用 in 操作符用于判断关键字是否存在于变量中 a = '男孩wusir' print('男孩' in a) 执行输出: True in是整体匹配,不会拆分匹配. a = '男孩wusir ...
《转》 java.lang.OutOfMemoryError - 关于java的内存溢出
java.lang.OutOfMemoryError: PermGen space PermGen space的全称是Permanent Generation space 是指内存的永久保存区域, 该 ...
Spring之配置文件bean作用域的详细介绍
Spring的配置文件applicationContext.xml中bean作用域的详细介绍: 1:对象的创建:单例和多例 scope="singleton",默认值 ...
[解决]IP地址非法，请接入联通热点后重新获取
在使用联通chinaunicom WLAN上网时,在弹出的登陆界面后输入账号.密码,点登陆,显示IP地址非法,请接入联通热点后重新获取.现在在其他地方看到解决办法连接chinaunicom,弹出登陆界 ...
Ubuntu14.04 安装MySQL 及Can‘t connect to local MYSQL server through socket ’/var/run/mysqld/mysqld.sock‘ (2)
今天安装Mysql 按着这个①http://www.cnblogs.com/zhuyp1015/p/3561470.html来安装,却出现了这个问题卸载又从安装还是有问题, 搜了好久在stackov ...
hdu 1576 A/B 【扩展欧几里得】【逆元】
<题目链接> <转载于 >>> > A/B Problem Description 要求(A/B)%9973,但由于A很大,我们只给出n(n=A%9973)( ...
【知了堂学习笔记】java 自定义异常
java 常见异常种类(Java Exception): 算术异常类:ArithmeticExecption 空指针异常类:NullPointerException 类型强制转换异常:ClassCas ...

从Encoder到Decoder实现Seq2Seq模型

前言

实战代码

总结

从Encoder到Decoder实现Seq2Seq模型的更多相关文章

随机推荐

热门专题