循环神经网络

本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH，用HtH_{t}Ht表示HHH在时间步ttt的值。HtH_{t}Ht的计算基于XtX_{t}Xt和Ht−1H_{t-1}Ht−1，可以认为HtH_{t}Ht记录了到当前字符为止的序列信息，利用HtH_{t}Ht对序列的下一个字符进行预测。

循环神经网络的构造

我们先看循环神经网络的具体构造。假设Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}Xt∈Rn×d是时间步ttt的小批量输入，Ht∈Rn×h\boldsymbol{H}_t \in \mathbb{R}^{n \times h}Ht∈Rn×h是该时间步的隐藏变量，则：

Ht=ϕ(XtWxh+Ht−1Whh+bh).
\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).
Ht=ϕ(XtWxh+Ht−1Whh+bh).

其中，Wxh∈Rd×h\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}Wxh∈Rd×h，Whh∈Rh×h\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}Whh∈Rh×h，bh∈R1×h\boldsymbol{b}_{h} \in \mathbb{R}^{1 \times h}bh∈R1×h，ϕ\phiϕ函数是非线性激活函数。由于引入了Ht−1Whh\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}Ht−1Whh，HtH_{t}Ht能够捕捉截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样。由于HtH_{t}Ht的计算基于Ht−1H_{t-1}Ht−1，上式的计算是循环的，使用循环计算的网络即循环神经网络（recurrent neural network）。

在时间步ttt，输出层的输出为：

Ot=HtWhq+bq.
\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol{b}_q.
Ot=HtWhq+bq.

其中Whq∈Rh×q\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}Whq∈Rh×q，bq∈R1×q\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}bq∈R1×q。

从零开始实现循环神经网络

我们先尝试从零开始实现一个基于字符级循环神经网络的语言模型，这里我们使用周杰伦的歌词作为语料，首先我们读入数据：

import torch

import torch.nn as nn

import time

import math

import sys

sys.path.append("/home/kesci/input")

import d2l_jay9460 as d2l

(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

one-hot向量

我们需要将字符表示成向量，这里采用one-hot向量。假设词典大小是NNN，每次字符对应一个从000到N−1N-1N−1的唯一的索引，则该字符的向量是一个长度为NNN的向量，若字符的索引是iii，则该向量的第iii个位置为111，其他位置为000。下面分别展示了索引为0和2的one-hot向量，向量长度等于词典大小。

def one_hot(x, n_class, dtype=torch.float32):

    result = torch.zeros(x.shape[0], n_class, dtype=dtype, device=x.device)  # shape: (n, n_class)

    result.scatter_(1, x.long().view(-1, 1), 1)  # result[i, x[i, 0]] = 1

    return result

x = torch.tensor([0, 2])

x_one_hot = one_hot(x, vocab_size)

print(x_one_hot)

print(x_one_hot.shape)

print(x_one_hot.sum(axis=1))

tensor([[1., 0., 0.,  ..., 0., 0., 0.],

        [0., 0., 1.,  ..., 0., 0., 0.]])

torch.Size([2, 1027])

tensor([1., 1.])

我们每次采样的小批量的形状是（批量大小, 时间步数）。下面的函数将这样的小批量变换成数个形状为（批量大小, 词典大小）的矩阵，矩阵个数等于时间步数。也就是说，时间步ttt的输入为Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}Xt∈Rn×d，其中nnn为批量大小，ddd为词向量大小，即one-hot向量长度（词典大小）。

def to_onehot(X, n_class):

    return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]

X = torch.arange(10).view(2, 5)

inputs = to_onehot(X, vocab_size)

print(len(inputs), inputs[0].shape)

5 torch.Size([2, 1027])

初始化模型参数

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size

# num_inputs: d

# num_hiddens: h, 隐藏单元的个数是超参数

# num_outputs: q

def get_params():

    def _one(shape):

        param = torch.zeros(shape, device=device, dtype=torch.float32)

        nn.init.normal_(param, 0, 0.01)

        return torch.nn.Parameter(param)

    # 隐藏层参数

    W_xh = _one((num_inputs, num_hiddens))

    W_hh = _one((num_hiddens, num_hiddens))

    b_h = torch.nn.Parameter(torch.zeros(num_hiddens, device=device))

    # 输出层参数

    W_hq = _one((num_hiddens, num_outputs))

    b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device))

    return (W_xh, W_hh, b_h, W_hq, b_q)

定义模型

函数rnn用循环的方式依次完成循环神经网络每个时间步的计算。

def rnn(inputs, state, params):

    # inputs和outputs皆为num_steps个形状为(batch_size, vocab_size)的矩阵

    W_xh, W_hh, b_h, W_hq, b_q = params

    H, = state

    outputs = []

    for X in inputs:

        H = torch.tanh(torch.matmul(X, W_xh) + torch.matmul(H, W_hh) + b_h)

        Y = torch.matmul(H, W_hq) + b_q

        outputs.append(Y)

    return outputs, (H,)

函数init_rnn_state初始化隐藏变量，这里的返回值是一个元组。

def init_rnn_state(batch_size, num_hiddens, device):

    return (torch.zeros((batch_size, num_hiddens), device=device), )

做个简单的测试来观察输出结果的个数（时间步数），以及第一个时间步的输出层输出的形状和隐藏状态的形状。

print(X.shape)

print(num_hiddens)

print(vocab_size)

state = init_rnn_state(X.shape[0], num_hiddens, device)

inputs = to_onehot(X.to(device), vocab_size)

params = get_params()

outputs, state_new = rnn(inputs, state, params)

print(len(inputs), inputs[0].shape)

print(len(outputs), outputs[0].shape)

print(len(state), state[0].shape)

print(len(state_new), state_new[0].shape)

torch.Size([2, 5])

256

1027

5 torch.Size([2, 1027])

5 torch.Size([2, 1027])

1 torch.Size([2, 256])

1 torch.Size([2, 256])

裁剪梯度

循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 g\boldsymbol{g}g，并设裁剪的阈值是θ\thetaθ。裁剪后的梯度

min⁡(θ∥g∥,1)g
\min\left(\frac{\theta}{\|\boldsymbol{g}\|}, 1\right)\boldsymbol{g}
min(∥g∥θ,1)g

的L2L_2L2范数不超过θ\thetaθ。

def grad_clipping(params, theta, device):

    norm = torch.tensor([0.0], device=device)

    for param in params:

        norm += (param.grad.data ** 2).sum()

    norm = norm.sqrt().item()

    if norm > theta:

        for param in params:

            param.grad.data *= (theta / norm)

定义预测函数

以下函数基于前缀prefix（含有数个字符的字符串）来预测接下来的num_chars个字符。这个函数稍显复杂，其中我们将循环神经单元rnn设置成了函数参数，这样在后面小节介绍其他循环神经网络时能重复使用这个函数。

def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state,

                num_hiddens, vocab_size, device, idx_to_char, char_to_idx):

    state = init_rnn_state(1, num_hiddens, device)

    output = [char_to_idx[prefix[0]]]   # output记录prefix加上预测的num_chars个字符

    for t in range(num_chars + len(prefix) - 1):

        # 将上一时间步的输出作为当前时间步的输入

        X = to_onehot(torch.tensor([[output[-1]]], device=device), vocab_size)

        # 计算输出和更新隐藏状态

        (Y, state) = rnn(X, state, params)

        # 下一个时间步的输入是prefix里的字符或者当前的最佳预测字符

        if t < len(prefix) - 1:

            output.append(char_to_idx[prefix[t + 1]])

        else:

            output.append(Y[0].argmax(dim=1).item())

    return ''.join([idx_to_char[i] for i in output])

我们先测试一下predict_rnn函数。我们将根据前缀“分开”创作长度为10个字符（不考虑前缀长度）的一段歌词。因为模型参数为随机值，所以预测结果也是随机的。

predict_rnn('分开', 10, rnn, params, init_rnn_state, num_hiddens, vocab_size,

            device, idx_to_char, char_to_idx)

'分开斗视宁河及游伯搞干墙'

困惑度

我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；
基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。

显然，任何一个有效模型的困惑度必须小于类别个数。在本例中，困惑度必须小于词典大小vocab_size。

定义模型训练函数

跟之前章节的模型训练函数相比，这里的模型训练函数有以下几点不同：

使用困惑度评价模型。
在迭代模型参数前裁剪梯度。
对时序数据采用不同采样方法将导致隐藏状态初始化的不同。

def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,

                          vocab_size, device, corpus_indices, idx_to_char,

                          char_to_idx, is_random_iter, num_epochs, num_steps,

                          lr, clipping_theta, batch_size, pred_period,

                          pred_len, prefixes):

    if is_random_iter:

        data_iter_fn = d2l.data_iter_random

    else:

        data_iter_fn = d2l.data_iter_consecutive

    params = get_params()

    loss = nn.CrossEntropyLoss()

    for epoch in range(num_epochs):

        if not is_random_iter:  # 如使用相邻采样，在epoch开始时初始化隐藏状态

            state = init_rnn_state(batch_size, num_hiddens, device)

        l_sum, n, start = 0.0, 0, time.time()

        data_iter = data_iter_fn(corpus_indices, batch_size, num_steps, device)

        for X, Y in data_iter:

            if is_random_iter:  # 如使用随机采样，在每个小批量更新前初始化隐藏状态

                state = init_rnn_state(batch_size, num_hiddens, device)

            else:  # 否则需要使用detach函数从计算图分离隐藏状态

                for s in state:

                    s.detach_()

            # inputs是num_steps个形状为(batch_size, vocab_size)的矩阵

            inputs = to_onehot(X, vocab_size)

            # outputs有num_steps个形状为(batch_size, vocab_size)的矩阵

            (outputs, state) = rnn(inputs, state, params)

            # 拼接之后形状为(num_steps * batch_size, vocab_size)

            outputs = torch.cat(outputs, dim=0)

            # Y的形状是(batch_size, num_steps)，转置后再变成形状为

            # (num_steps * batch_size,)的向量，这样跟输出的行一一对应

            y = torch.flatten(Y.T)

            # 使用交叉熵损失计算平均分类误差

            l = loss(outputs, y.long())

            # 梯度清0

            if params[0].grad is not None:

                for param in params:

                    param.grad.data.zero_()

            l.backward()

            grad_clipping(params, clipping_theta, device)  # 裁剪梯度

            d2l.sgd(params, lr, 1)  # 因为误差已经取过均值，梯度不用再做平均

            l_sum += l.item() * y.shape[0]

            n += y.shape[0]

        if (epoch + 1) % pred_period == 0:

            print('epoch %d, perplexity %f, time %.2f sec' % (

                epoch + 1, math.exp(l_sum / n), time.time() - start))

            for prefix in prefixes:

                print(' -', predict_rnn(prefix, pred_len, rnn, params, init_rnn_state,

                    num_hiddens, vocab_size, device, idx_to_char, char_to_idx))

训练模型并创作歌词

现在我们可以训练模型了。首先，设置模型超参数。我们将根据前缀“分开”和“不分开”分别创作长度为50个字符（不考虑前缀长度）的一段歌词。我们每过50个迭代周期便根据当前训练的模型创作一段歌词。

num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, 1e2, 1e-2

pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']

下面采用随机采样训练模型并创作歌词。

train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,

                      vocab_size, device, corpus_indices, idx_to_char,

                      char_to_idx, True, num_epochs, num_steps, lr,

                      clipping_theta, batch_size, pred_period, pred_len,

                      prefixes)

epoch 50, perplexity 68.292361, time 0.64 sec

 - 分开 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我

 - 不分开 快颗在 一颗两 三颗四 三颗四 三颗四 三颗四 三颗四 三颗四 三颗四 三颗四 三颗四 三颗四 三

epoch 100, perplexity 9.507379, time 0.62 sec

 - 分开 我想想这你 我不能再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我

 - 不分开永 我不能再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想

epoch 150, perplexity 2.919475, time 0.69 sec

 - 分开 有什么娘过 有样它在留  没有神口不有 所不想你以汉我 我都要你的微笑每天都能看到  我知道这里很

 - 不分开期 单后人过小剩来找 几物开最心仪的母斑鸠 印地安老斑鸠 腿短毛不多 除非是人鸦抢 心伤妙传护着 漂

epoch 200, perplexity 1.622072, time 0.66 sec

 - 分开 一直在停留 谁让它停留的 为什么我女朋友场外加油 你却还让我出糗 从小就耳濡目染 什么刀枪跟棍棒

 - 不分开扫把的胖女巫 用拉丁文念咒语啦啦呜 她养的我爱你 让它喘不过气 快攻抢篮板球 得分都靠我 还限是我去

epoch 250, perplexity 1.305350, time 0.62 sec

 - 分开 一只在停留 谁让它停留的 为什么我女朋友场外加油 你却还让我出糗 从才就耳 带堡马有别我 一场到气

 - 不分开期 我叫你爸 你打我妈 这样对吗干嘛这样 何必让酒牵鼻子走 瞎 说底星没斯 我想就这不离 如果水遇见

接下来采用相邻采样训练模型并创作歌词。

train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,

                      vocab_size, device, corpus_indices, idx_to_char,

                      char_to_idx, False, num_epochs, num_steps, lr,

                      clipping_theta, batch_size, pred_period, pred_len,

                      prefixes)

epoch 50, perplexity 61.961961, time 0.67 sec

 - 分开 我想要这 我有了空 如果了人 如果我人 你谁我有 你谁我有 你谁我有 你谁我有 你谁我有 你谁我有

 - 不分开 我有你的可写女人 想想我有我不要你的爱 在一我 别子我的 快谁我的 快谁我的 快谁我有 你谁我有

epoch 100, perplexity 6.928485, time 0.69 sec

 - 分开 我有那这 其颗心悬 在一己空 在一定空 不一己空 在一定空 不一己空 在一定空 不一己空 在一定空

 - 不分开觉 会谁 一念的酒后 古底盘够  我马能这 在我去外睡  话有的假坦 你的寄美主 你不么美口 你分掌

epoch 150, perplexity 2.072935, time 0.70 sec

 - 分开 我想能 爱你走的太快 像话去对医药箱说 别怪我 别怪我 说你怎么面对我 甩开球 快给我抬起头 有话

 - 不分开觉 你想经离开我 不知不觉 我跟了这节活 我该好好生活 不知不觉 你已经离开我 不知不觉 我跟了这节

epoch 200, perplexity 1.315136, time 0.67 sec

 - 分开 一候的 你怎于打 连漠等听的溪会 带领你我 经你了外的溪边 默默等待 娘子 有什么不妥 有话就直说

 - 不分开觉 你已经离开我 不知不觉 我跟了这节奏 后知后觉 又过了一个秋 后知后觉 我该好好生活 我该好好生

epoch 250, perplexity 1.183893, time 0.68 sec

 - 分开 一候的 是属于那年代 所有人看着我 抛物线进球 单手过人运球 篮下妙传出手 漂亮的假动作 帅呆了我

 - 不分开觉 你已经离开我 不知不觉 我跟了这节奏 后知后觉 又过了一个秋 后知后觉 我该好好生活 我该好好生