pytorch seq2seq模型中加入teacher

在循环内加的teacher forcing机制，这种为目标确定的时候，可以这样加。

目标不确定，需要在循环外加。

decoder.py 中的修改

"""

实现解码器

"""

import torch.nn as nn

import config

import torch

import torch.nn.functional as F

import numpy as np

import random

class Decoder(nn.Module):

    def __init__(self):

        super(Decoder, self).__init__()

        self.embedding = nn.Embedding(num_embeddings=len(config.ns),

                                      embedding_dim=50,

                                      padding_idx=config.ns.PAD)

        # 需要的hidden_state形状：[1,batch_size,64]

        self.gru = nn.GRU(input_size=50,

                          hidden_size=64,

                          num_layers=1,

                          bidirectional=False,

                          batch_first=True,

                          dropout=0)

        # 假如encoder的hidden_size=64，num_layer=1 encoder_hidden :[2,batch_sizee,64]

        self.fc = nn.Linear(64, len(config.ns))

    def forward(self, encoder_hidden,target):

        # 第一个时间步的输入的hidden_state

        decoder_hidden = encoder_hidden  # [1,batch_size,encoder_hidden_size]

        # 第一个时间步的输入的input

        batch_size = encoder_hidden.size(1)

        decoder_input = torch.LongTensor([[config.ns.SOS]] * batch_size).to(config.device)  # [batch_size,1]

        # print("decoder_input:",decoder_input.size())

        # 使用全为0的数组保存数据，[batch_size,max_len,vocab_size]

        decoder_outputs = torch.zeros([batch_size, config.max_len, len(config.ns)]).to(config.device)

        for t in range(config.max_len):

            decoder_output_t, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)

            decoder_outputs[:, t, :] = decoder_output_t

            # 获取当前时间步的预测值

            value, index = decoder_output_t.max(dim=-1)

            if random.randint(0,100) >70:    #teacher forcing机制

                decoder_input = target[:,t].unsqueeze(-1)

            else:

                decoder_input = index.unsqueeze(-1)  # [batch_size,1]

            # print("decoder_input:",decoder_input.size())

        return decoder_outputs, decoder_hidden

    def forward_step(self, decoder_input, decoder_hidden):

        '''

        计算一个时间步的结果

        :param decoder_input: [batch_size,1]

        :param decoder_hidden: [batch_size,encoder_hidden_size]

        :return:

        '''

        decoder_input_embeded = self.embedding(decoder_input)

        # print("decoder_input_embeded:",decoder_input_embeded.size())

        out, decoder_hidden = self.gru(decoder_input_embeded, decoder_hidden)

        # out ：【batch_size,1,hidden_size】

        out_squeezed = out.squeeze(dim=1)  # 去掉为1的维度

        out_fc = F.log_softmax(self.fc(out_squeezed), dim=-1)  # [bathc_size,vocab_size]

        # out_fc.unsqueeze_(dim=1) #[bathc_size,1,vocab_size]

        # print("out_fc:",out_fc.size())

        return out_fc, decoder_hidden

    def evaluate(self, encoder_hidden):

        # 第一个时间步的输入的hidden_state

        decoder_hidden = encoder_hidden  # [1,batch_size,encoder_hidden_size]

        # 第一个时间步的输入的input

        batch_size = encoder_hidden.size(1)

        decoder_input = torch.LongTensor([[config.ns.SOS]] * batch_size).to(config.device)  # [batch_size,1]

        # print("decoder_input:",decoder_input.size())

        # 使用全为0的数组保存数据，[batch_size,max_len,vocab_size]

        decoder_outputs = torch.zeros([batch_size, config.max_len, len(config.ns)]).to(config.device)

        decoder_predict = []  # [[],[],[]]  #123456  ,targe:123456EOS,predict:123456EOS123

        for t in range(config.max_len):

            decoder_output_t, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)

            decoder_outputs[:, t, :] = decoder_output_t

            # 获取当前时间步的预测值

            value, index = decoder_output_t.max(dim=-1)

            decoder_input = index.unsqueeze(-1)  # [batch_size,1]

            # print("decoder_input:",decoder_input.size())

            decoder_predict.append(index.cpu().detach().numpy())

        # 返回预测值

        decoder_predict = np.array(decoder_predict).transpose()  # [batch_size,max_len]

        return decoder_outputs, decoder_predict

　　seq2seq.py

"""

完成seq2seq模型

"""

import torch.nn as nn

from encoder import Encoder

from decoder import Decoder

class Seq2Seq(nn.Module):

    def __init__(self):

        super(Seq2Seq, self).__init__()

        self.encoder = Encoder()

        self.decoder = Decoder()

    def forward(self, input, input_len,target):

        encoder_outputs, encoder_hidden = self.encoder(input, input_len)

        decoder_outputs, decoder_hidden = self.decoder(encoder_hidden,target)

        return decoder_outputs

    def evaluate(self, input, input_len):

        encoder_outputs, encoder_hidden = self.encoder(input, input_len)

        decoder_outputs, decoder_predict = self.decoder.evaluate(encoder_hidden)

        return decoder_outputs, decoder_predict

　　train.py

"""

进行模型的训练

"""

import torch

import torch.nn.functional as F

from seq2seq import Seq2Seq

from torch.optim import Adam

from dataset import get_dataloader

from tqdm import tqdm

import config

import numpy as np

import pickle

from matplotlib import pyplot as plt

from eval import eval

import os

model = Seq2Seq().to(config.device)

optimizer = Adam(model.parameters())

if os.path.exists("./models/model.pkl"):

    model.load_state_dict(torch.load("./models/model.pkl"))

    optimizer.load_state_dict(torch.load("./models/optimizer.pkl"))

loss_list = []

def train(epoch):

    data_loader = get_dataloader(train=True)

    bar = tqdm(data_loader, total=len(data_loader))

    for idx, (input, target, input_len, target_len) in enumerate(bar):

        input = input.to(config.device)

        target = target.to(config.device)

        input_len = input_len.to(config.device)

        optimizer.zero_grad()

        decoder_outputs = model(input, input_len,target)  # [batch_Size,max_len,vocab_size]

        predict = decoder_outputs.view(-1, len(config.ns))

        target = target.view(-1)

        loss = F.nll_loss(predict, target, ignore_index=config.ns.PAD)

        loss.backward()

        optimizer.step()

        loss_list.append(loss.item())

        bar.set_description("epoch:{} idx:{} loss:{:.6f}".format(epoch, idx, np.mean(loss_list)))

        if idx % 100 == 0:

            torch.save(model.state_dict(), "./models/model.pkl")

            torch.save(optimizer.state_dict(), "./models/optimizer.pkl")

            pickle.dump(loss_list, open("./models/loss_list.pkl", "wb"))

if __name__ == '__main__':

    for i in range(5):

        train(i)

        eval()

    plt.figure(figsize=(50, 8))

    plt.plot(range(len(loss_list)), loss_list)

    plt.show()

pytorch seq2seq模型中加入teacher_forcing机制的更多相关文章

pytorch seq2seq闲聊机器人加入attention机制
attention.py """ 实现attention """ import torch import torch.nn as nn im ...
pytorch seq2seq模型示例
以下代码可以让你更加熟悉seq2seq模型机制 """ test """ import numpy as np import torch i ...
分布式系统读写模型中的Quorum机制
分布式系统的设计中会涉及到许多的协议.机制用来解决可靠性问题.数据一致性问题等,Quorum 机制就是其中的一种.我们通过分布式系统中的读写模型来简单介绍它. 分布式系统中的读写模型分布式系统是由多 ...
pytorch seq2seq模型训练测试
num_sequence.py """ 数字序列化方法 """ class NumSequence: """ ...
Seq2Seq模型与注意力机制
Seq2Seq模型基本原理核心思想:将一个作为输入的序列映射为一个作为输出的序列编码输入解码输出解码第一步,解码器进入编码器的最终状态,生成第一个输出以后解码器读入上一步的输出,生成当前步 ...
深度学习之seq2seq模型以及Attention机制
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...
注意力机制和Seq2seq模型
注意力机制在"编码器-解码器(seq2seq)"⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息.当编码器为循环神经⽹络时,背景变量 ...
L11注意力机制和Seq2seq模型
注意力机制在"编码器-解码器(seq2seq)"⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息.当编码器为循环神经⽹络时,背景变量 ...
Deep Learning基础--理解LSTM/RNN中的Attention机制
导读目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门,是因为它在许多领域较其他的传统模型方法都取得了更好的结果.这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对 ...

随机推荐

使用室内三维地图引擎ESMap来管理摄像头设备、消防设备和人员轨迹展示
目前室内三维地图如何轻量化,能够在手机微信.电脑浏览器等平台快速显示地图,显示的地图性能好,转动地图不卡是大家都要面对的问题, 使用室内三维地图引擎ESMap后目前可以不用操心这方面的问题,开发只需要 ...
编译原理：DFA最小化，语法分析初步
1.将DFA最小化:教材P65 第9题解析: 2.构造以下文法相应的最小的DFA S→ 0A|1B A→ 1S|1 B→0S|0 解析: S→ 0A|1B →S → 0(1S|1)|1(0S|0 ...
Python IDE ——Anaconda+PyCharm的安装与配置
一前言最近莫名其妙地想学习一下Python,想着利用业余时间学习一下机器学习(或许仅仅是脑子一热吧).借着研究生期间对于PyCharm安装的印象,在自己的电脑上重新又安装了一遍.利用周末的一点时间 ...
File.Create(path)未关闭遇到的一点点问题
本人老菜鸟一枚,不是因为偶是菜鸟中的老手,而是偶是老了但是还是很菜的鸟╮(╯▽╰)╭,不过打今儿起偶想要腾飞…… 今天写文本文件编辑类时遇到一个小问题,下面先将问题描述一下: 1.写文本文件时都会习惯 ...
elasticesearch搜索返回高亮关键字
pre_tags 前缀标签 post_tags 后缀标签 tags_schema 设置为styled可以使用内置高亮样式 require_field_match 多字段高亮需要设置为false 使用h ...
Java中使用RSA算法加密
Java中使用RSA算法加密概述 RSA加密算法是一种非对称加密算法 RSA加密的方式使用公钥加密的数据,利用私钥进行解密使用私钥加密的数据,利用公钥进行解密 RSA是一对密钥.分别是公钥和私钥 ...
Blazor入门笔记（6）-组件间通信
1.环境 VS2019 16.5.1.NET Core SDK 3.1.200Blazor WebAssembly Templates 3.2.0-preview2.20160.5 2.简介在使用B ...
Nginx知多少系列之(一)前言
目录 1.前言 2.安装 3.配置文件详解 4.工作原理 5.Linux下托管.NET Core项目 6.Linux下.NET Core项目负载均衡 7.Linux下.NET Core项目Nginx+ ...
Shell脚本的编写及测试
Shell脚本的编写及测试 1.1问题本例要求两个简单的Shell脚本程序,任务目标如下: 编写一 ...
tomcat查看线程数
获取tomcat进程pid ps -ef|grep tomcat 统计该tomcat进程内的线程个数 ps -Lf 29295 |wc -l

pytorch seq2seq模型中加入teacher_forcing机制

pytorch seq2seq模型中加入teacher_forcing机制的更多相关文章

随机推荐

热门专题