如何用textgenrnn处理中文

1. 什么是textgenrnn?

textgenrnn是建立在Keras和TensorFlow之上的,可用于生成字级别词级别文本。网络体系结构使用注意力加权来加速训练过程并提高质量,并允许调整大量超参数,如RNN模型大小、RNN层和双向RNN。对细节感兴趣的读者,可以在Github上或类似的介绍博客文章中阅读有关textgenrnn及其功能和体系结构的更多信息。

Github项目地址: https://github.com/minimaxir/textgenrnn

介绍博客(英文原版): Generating Text with RNNs in 4 Lines of Code

介绍博客(中文简译): 仅用四行代码实现RNN文本生成模型

该Github项目的README以及各介绍博客中,都是基于英文文本进行处理的,少有文章介绍如何将textgenrnn应用到中文文本,所以我fork了原项目并添加了中文数据的训练与测试Demo,详见: https://github.com/cheesezh/textgenrnn

2. 如何用textgenrnn处理中文?

2.1. 准备中文数据

本文采用2600首与相关的五言诗作为训练数据。部分数据示例:

春眠不觉晓,处处闻啼鸟。夜来风雨声,花落知多少。
慈母手中线,游子身上衣。谁言寸草心,报得三春晖。
好雨知时节,当春乃发生。晓看红湿处,花重锦官城。
红豆生南国,春来发几枝。愿君多采撷,此物最相思。
国破山河在,城春草木深。白头搔更短,浑欲不胜簪。

可以在我的Github上边下载本文实验数据:与“春”相关的五言诗与“春”相关的七言诗

2.2. 训练模型

from textgenrnn import textgenrnn
textgen = textgenrnn(name="my.poem") # 给模型起个名字,比如`my.poem`, 之后生成的模型文件都会以这个名字为前缀
textgen.reset() # 重置模型
textgen.train_from_file( # 从数据文件训练模型
file_path = '../datasets/cn/5_chars_poem_2600.txt', # 文件路径
new_model = True, # 训练新模型
num_epochs = 30, # 训练轮数
word_level = False, # True:词级别,False:字级别
rnn_bidirectional = True, # 是否使用Bi-LSTM
max_length = 25, # 一条数据的最大长度
)

还有其他的模型参数可以配置,主要包括以下几项:

config = {
'rnn_layers': 2,
'rnn_size': 128,
'rnn_bidirectional': False,
'max_length': 15,
'max_words': 10000,
'dim_embeddings': 100,
'word_level': False,
'single_text': False
}

2.3. 生成数据

from textgenrnn import textgenrnn

textgen = textgenrnn(
name="poem",
weights_path='./poem_weights.hdf5',
config_path='./poem_config.json',
vocab_path='./poem_vocab.json'
)
textgen.generate(20, temperature=1.0)

生成数据样例:

傍海皆荒服,分符重汉臣。连年不见雪,到处即行春。

上喜老闲身,春来不得迷。章闲闲异意,亦随到情诗。

湖上花开尽,初度莫愁春。俗书百胜境,无哲老离秋。

三月小春来,闲人惊物华。且问听下意,多事翦彩光。

居春心在别,多是梅庭空。水梅人一梦,愁。场言诚微。成手。

南国无多雪,江春别离肠。非离菘楼畔,不殊问来花。

田家春事起,丁壮就东坡。予意在耕稼,因君问土宜。

春偏当春日,当桥如草心。如如如青我,当人有思生。

早春遥闻好,风晚景和。放诗此东方来,惟是日有情。

閒花淡心事,不作柳春枝。幸见散花里,何声满尔闻。

傍海皆荒服,分符重汉臣。连年不见雪,到处即行春。

子知千里,何年草旧居。遥知春还后日,何处二三难。

从生成的五言诗数据来看,大部分诗看上去还是比较正常的,但是也有一些不合理的数据,比如:

居春心在别,多是梅庭空。水梅人一梦,愁。场言诚微。成手。

子知千里,何年草旧居。遥知春还后日,何处二三难。

春偏当春日,当桥如草心。如如如青我,当人有思生。

【ZH奶酪】如何用textgenrnn处理中文的更多相关文章

  1. ZH奶酪:Ubuntu 14.04配置LAMP(Linux、Apache、MySQL、PHP)

    ZH奶酪:Ubuntu 14.04安装LAMP(Linux,Apache,MySQL,PHP) 之前已经介绍过LAMP的安装,这边文章主要讲解一下LAMP的配置. 1.配置Apache (1)调整Ke ...

  2. 【ZH奶酪】如何用sklearn计算中文文本TF-IDF?

    1. 什么是TF-IDF tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术.tf-idf是一种统计方法 ...

  3. ZH奶酪:中文依存句法分析概述及应用

    句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽 ...

  4. 【ZH奶酪】如何用Python计算最长公共子序列和最长公共子串

    1. 什么是最长公共子序列?什么是最长公共子串? 1.1. 最长公共子序列(Longest-Common-Subsequences,LCS) 最长公共子序列(Longest-Common-Subseq ...

  5. 【ZH奶酪】如何用Python实现编辑距离?

    1. 什么是编辑距离? 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符, ...

  6. ZH奶酪:Ionic中(弹出式窗口)的$ionicModal使用方法

    Ionic中[弹出式窗口]有两种(如下图所示),$ionicModal和$ionicPopup; $ionicModal是完整的页面: $ionicPopup是(Dialog)对话框样式的,直接用Ja ...

  7. ZH奶酪:LAMP环境中如何重新部署一个Yii2.0 web项目

    使用Yii2.0 framework开发的项目,使用Github进行版本控制,现在要把这个项目部署到一个新的电脑/系统中: (1)安装LAMP (2)在/var/www/html目录下执行 git c ...

  8. ZH奶酪:哈工大LTP云平台标记含义及性能

    从官网搬过来的 囧rz 哈工大讯飞语言云 由哈工大 和科大讯飞 联合研发的中文自然语言处理云服务平台.结合了哈工大“语言技术平台——LTP” 高效.精准的自然语言处理核心技术和讯飞公司在全国性大规模云 ...

  9. ZH奶酪:PHP图片压缩(TinyPNG在线API)和(使用Imagick扩展)

    1.调用TinyPng网站提供的API 1.1.须知 (1)tinypng的官网:https://tinypng.com/ 不知道国内访问会不会很慢,在Singapore打开这个网站很流畅: (2)A ...

随机推荐

  1. pytest十二:cmd命令行参数

    命令行参数是根据命令行选项将不同的值传递给测试函数,比如平常在 cmd 执行”pytest —html=report.html”,这里面的”—html=report.html“就是从命令行传入的参数对 ...

  2. python 全栈开发,Day29(昨日作业讲解,模块搜索路径,编译python文件,包以及包的import和from,软件开发规范)

    一.昨日作业讲解 先来回顾一下昨日的内容 1.os模块 和操作系统交互 工作目录 文件夹 文件 操作系统命令 路径相关的 2.模块 最本质的区别 import会创建一个专属于模块的名字, 所有导入模块 ...

  3. java使用md5加密

    代码: public String EncoderByMd5(String str) throws NoSuchAlgorithmException, UnsupportedEncodingExcep ...

  4. POJ 1017 Packets【贪心】

    POJ 1017 题意: 一个工厂制造的产品形状都是长方体,它们的高度都是h,长和宽都相等,一共有六个型号,他们的长宽分别为 1*1, 2*2, 3*3, 4*4, 5*5, 6*6.  这些产品通常 ...

  5. Docker+Jenkins持续集成环境(1)使用Docker搭建Jenkins+Docker持续集成环境

    本文介绍如何通过Jenkins的docker镜像从零开始构建一个基于docker镜像的持续集成环境,包含自动化构建.发布到仓库\并部署上线. 0. 前置条件 服务器安装docker,并启动docker ...

  6. POJ2065 SETI 高斯消元

    欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解 题目传送门 - POJ2065 题意概括 多组数据,首先输入一个T表示数据组数,然后,每次输入一个质数,表示模数,然后,给出一 ...

  7. 【Java】 剑指offer(5) 从尾到头打印链表

    本文参考自<剑指offer>一书,代码采用Java语言. 更多:<剑指Offer>Java实现合集 题目 输入一个链表的头结点,从尾到头反过来打印出每个结点的值.结点定义如下: ...

  8. 009 搭建Spark的maven本地windows开发环境以及测试

    在看完下面的细节之后,就会发现,spark的开发,只需要hdfs加上带有scala的IDEA环境即可.  当run运行程序时,很快就可以运行结束. 为了可以看4040界面,需要将程序加上暂定程序,然后 ...

  9. 005 Spark快速入门的简单程序案例

    参考:官网的quick start http://spark.apache.org/docs/1.6.0/quick-start.html 这里只是在shell命令行中简单的书写一些命令,做一个简单的 ...

  10. codeforces-1114F-线段树练习

    https://www.cnblogs.com/31415926535x/p/10391639.html 概述 这是一道用线段树维区间值的一道题,,题意很简单,,就是对于给定的一个序列,,初始时每个数 ...