实现nlp文本生成中的beam search解码器

自然语言处理任务，比如caption generation（图片描述文本生成）、机器翻译中，都需要进行词或者字符序列的生成。常见于seq2seq模型或者RNNLM模型中。

这篇博文主要介绍文本生成解码过程中用的greedy search 和beam search算法实现。其中，greedy search 比较简单，着重介绍beam search算法的实现。

我们在文本生成解码时，实际上是想找对最有的文本序列，或者说是概率，可能性最大的文本序列。而要在全局搜索这个最有解空间，往往是不可能的（因为词典太大），建设生成序列长度为N，词典大小为V，则复杂度为 V^N次方。这实际上是一个NP难题。退而求其次，我们使用启发式算法，来找到可能的最优解，或者说足够好的解。

假设序列数据（假设每个位置词的概率都已经给出）：

data = [[0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1]]

data = array(data)

1、greedy search decoder

非常简单，我们用argmax就可以实现

# greedy decoder

def greedy_decoder(data):

    # 每一行最大概率词的索引

    return [argmax(s) for s in data]

完整代码

from numpy import array

from numpy import argmax

# greedy decoder

def greedy_decoder(data):

    # 每一行最大概率词的索引

    return [argmax(s) for s in data]

# 定义一个句子，长度为10，词典大小为5

data = [[0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1]]

data = array(data)

# 使用greedy search解码

result = greedy_decoder(data)

print(result)

2. beam search

与greedy search不同，beam search返回多个最有可能的解码结果（具体多少个，由参数k执行）。

greedy search每一步都都采用最大概率的词，而beam search每一步都保留k个最有可能的结果，在每一步，基于之前的k个可能最优结果，继续搜索下一步。（参考下面示意图理解）

示例图（设置返回解码结果为2个）：

from math import log

from numpy import array

from numpy import argmax

# beam search

def beam_search_decoder(data, k):

    sequences = [[list(), 1.0]]

    for row in data:

        all_candidates = list()

        for i in range(len(sequences)):

            seq, score = sequences[i]

            for j in range(len(row)):

                candidate = [seq + [j], score * -log(row[j])]

                all_candidates.append(candidate)

        # 所有候选根据分值排序

        ordered = sorted(all_candidates, key=lambda tup:tup[1])

        # 选择前k个

        sequences = ordered[:k]

    return sequences

# 定义一个句子，长度为10，词典大小为5

data = [[0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1],

        [0.1, 0.2, 0.3, 0.4, 0.5],

        [0.5, 0.4, 0.3, 0.2, 0.1]]

data = array(data)

# 解码

result = beam_search_decoder(data, 3)

# print result

for seq in result:

    print(seq)

实现nlp文本生成中的beam search解码器的更多相关文章

斯坦福NLP课程 | 第15讲 - NLP文本生成任务
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
Beam Search
Q: 什么是Beam Search? 它在NLP中的什么场景里会⽤到? 传统的广度优先策略能够找到最优的路径,但是在搜索空间非常大的情况下,内存占用是指数级增长,很容易造成内存溢出,因此提出了beam ...
【NLP】选择目标序列：贪心搜索和Beam search
构建seq2seq模型,并训练完成后,我们只要将源句子输入进训练好的模型,执行一次前向传播就能得到目标句子,但是值得注意的是: seq2seq模型的decoder部分实际上相当于一个语言模型,相比于R ...
NLP相关问题中文本数据特征表达初探
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
关于 Image Caption 中测试时用到的 beam search算法
关于beam search 之前组会中没讲清楚的 beam search,这里给一个案例来说明这种搜索算法. 在 Image Caption的测试阶段,为了得到输出的语句,一般会选用两种搜索方式,一种 ...
浅谈NLP 文本分类/情感分析任务中的文本预处理工作
目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言 NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客,是因为最近在关注N ...
Beam Search快速理解及代码解析（上）
Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...
Beam Search快速理解及代码解析
目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析准备初始输入序列扩展准备输出总结 Beam Sea ...
使用 paddle来进行文本生成
paddle 简单介绍 paddle 是百度在2016年9月份开源的深度学习框架. 就我最近体验的感受来说的它具有几大优点: 1. 本身内嵌了许多和实际业务非常贴近的模型比如个性化推荐,情感分析,词向 ...

随机推荐

Hadoop基础-Idea打包详解之手动添加依赖（SequenceFile的压缩编解码器案例）
Hadoop基础-Idea打包详解之手动添加依赖(SequenceFile的压缩编解码器案例) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.编辑配置文件(pml.xml)(我 ...
数据分析与展示---Matplotlib入门
简介: 一:Matplotlib库的介绍 (一)简单使用二:区域划分subplot 三:plot函数四:pyplot的中文显示 (一)方法一:修改rcParams参数 (二)方法二(推荐),在有中 ...
Mongodb 笔记04 特殊索引和集合、聚合、应用程序设计
特殊索引和集合 1. 固定集合:固定集合需要事先创建好看,而且它的大小是固定的.当固定集合被占满时,如果再插入新文档,固定集合会自动将最老的文档从集合中删除. 2. 创建固定集合:db.createC ...
容斥或者单调栈 hihocoder #1476 : 矩形计数和 G. Snake Rana 2017 ACM Arabella Collegiate Programming Contest
先说一个简单的题目(题目大意自己看去,反正中文):hihocoder上的:http://hihocoder.com/problemset/problem/1476 然后因为这个n和m的矩阵范围是100 ...
有用的Javascript，长期更新...
1,点击目标区域以外隐藏,运用场景:点击遮罩层,弹层关闭. // 点击目标区域以外隐藏 $(document).on("click", function (event) { var ...
Asp.net 中，在服务端向客户端写脚本的常用方法
在Asp.net 服务端处理脚本,一般都用 ClientScriptManager ,即web窗体服务端的this.ClientScript.该对象比较常用的方法: 1.RegisterArrayDe ...
Linux ftp命令的使用方法 -- 转
http://jingyan.baidu.com/article/066074d68b6a7ac3c21cb038.html FTP(File Transfer Protocol, FTP)是TCP/ ...
训练赛第二场G题 ZOJ 2343
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=2343 解题报告:首先我假设最后的正确的结果是a[1] , a[2 ...
C++传递二维数字给一个自定义函数
如果参数是多维数组,那么参数必须指明第一维意外得所有未得长度:比如你的 void tt(char a[][20])或者 void tt(char (*a)[20]) 另外这样也是可以的char *a[ ...
php的几个实用正则表达式
更多内容推荐微信公众号,欢迎关注: 此文章是网上搜索而来: 对于开发人员来说,正则表达式是一个非常有用的功能,它提供了查找,匹配,替换句子,单词,或者其他格式的字符串.这篇文章主要介绍了15个超实 ...

实现nlp文本生成中的beam search解码器

实现nlp文本生成中的beam search解码器的更多相关文章

随机推荐

热门专题