nltk 获取 gutenberg 语料，gensim 生成词库和 onehot 编码

nltk 获取 gutenberg 语料

gensim 生成词库和 onehot 编码

正在尝试基于 Tensorflow LSTM 模型开发另外一个项目，需要自然语言处理的工具和语料。

import nltk

import numpy as np

from nltk.corpus import gutenberg

from gensim import corpora, models, similarities

class Book2Array(object):

    sentences=None

    token2id_dic=None

    def __init__(self,sentences):

        self.sentences=sentences

        self.token2id_dic=self.get_token2id_dic()

    def get_sentences(self):

        #macbeth_sentences = gutenberg.sents('shakespeare-macbeth.txt')

        #print(macbeth_sentences)

        #print(type(macbeth_sentences))

        print(len(macbeth_sentences))

        sentences_list=[sentence for sentence in self.sentences]

        #print(type(macbeth_list))

        return sentences_list

    def get_token2id_dic(self):

        # collect statistics about all tokens

        dictionary = corpora.Dictionary(self.sentences)

        # remove stop words and words that appear only once

        dictionary.compactify() # remove gaps in id sequence after words that were removed

        print(len(dictionary))

        token2id_dic=dictionary.token2id

        return token2id_dic

    def word2onehot(self,word):

        onehot_list=np.zeros(8192)

        onehot_list[self.token2id_dic[word]]=1

        return onehot_list

    def sent2vec(self,sentence):

        vec=[]

        if(len(sentence)>20):

            sentence=sentence[0:20]

        for word in sentence:

            onehot_list=self.word2onehot(word)

            vec.append(onehot_list)

        len_vec=len(vec)

        for i in range(0,20-len_vec):

            vec.append(np.zeros(8192))

        #print(len(vec))

        vec_np=np.asarray(vec)

        return vec_np

    def sentences2array(self):

        array=[]

        for sentence in self.sentences:

            array.append(self.sent2vec(sentence))

        return array

    def gen_batch(self):

        pass

if __name__ == '__main__':

    macbeth_sentences = gutenberg.sents('shakespeare-macbeth.txt')

    book_array=Book2Array(macbeth_sentences)

    book_array.get_sentences()

    array=book_array.sentences2array()

    np_array=np.array(array[0])

    print(np_array.shape)

更多教程：http://www.tensorflownews.com/

nltk 获取 gutenberg 语料，gensim 生成词库和 onehot 编码的更多相关文章

【NLP】Python NLTK获取文本语料和词汇资源
Python NLTK 获取文本语料和词汇资源作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集 ...
【python】itchat登录微信获取好友签名并生成词云
在知乎上看到一篇关于如何使用itchat统计微信好友男女比例并使用plt生成柱状图以及获取微信好友签名并生成词云的文章https://zhuanlan.zhihu.com/p/36361397,感觉挺 ...
Mac 鼠须管合并词库简单使用
之前一直没用过合成词库这功能,有个同步用户数据的选项,点它后,生成一个文件夹,里面就有当前的一些配置,词库之类的 /Users/dfpo/Library/Rime/sync 这样我们就得到了一个装着用 ...
WEB-DICT词库计划
欢迎大家支持晓阳童鞋的词库计划,建立一个庞大的中文词库地址如下:http://webdict.info/ 什么是WEB-DICT词库计划? WEB-DICT词表计划目标是通过机器学习算法以及人工标注 ...
极点五笔词库DIY
2004年没啥好的拼音输入法,试了清华紫光输入法一段时间,也相当不满意, 于是在2005年开始学五笔,很快就选定极点五笔了, 使用过程中没啥不满意的,反而还有惊喜: 重装系统后,双击就安装好输入法了, ...
python+NLTK 自然语言学习处理四：获取文本语料和词汇资源
在前面我们通过from nltk.book import *的方式获取了一些预定义的文本.本章将讨论各种文本语料库 1 古腾堡语料库古腾堡是一个大型的电子图书在线网站,网址是http://www.g ...
python词云生成-wordcloud库
python词云生成-wordcloud库全文转载于'https://www.cnblogs.com/nickchen121/p/11208274.html#autoid-0-0-0' 一.word ...
借助ltp 逐步程序化实现规则库文本生成引擎基于规则库和业务词库去生成文本
[哪个地方做什么的哪家靠谱?地名词库行业.业务词库]苏州做网络推广的公司哪家靠谱?苏州镭射机维修哪家最专业?昆山做账的公司哪家比较好广州称重灌装机生产厂家哪家口碑比较好 [含有专家知识]郑州律师哪个好 ...
【中文同义词近义词】词向量 vs 同义词近义词库
方案一:利用预训练好的词向量模型优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到 ...

随机推荐

Java版飞机订票系统
关注微信公众号:Worldhello 回复飞机订票系统可获得系统源代码并可加群讨论交流数据结构课程设计题目: [飞机订票系统] 通过此系统可以实现如下功能 ...
cocoapods iOS类库管理工具的安装与使用
CocoaPods是一个管理Swift和Objective-C的Cocoa项目的依赖工具.他可以优雅地帮助你扩展你的项目.简单的说,就是替你管理Swift和Objective-C的Cocoa项目的第三 ...
JavaScript(5)--- 面向对象 + 原型
面向对象 + 原型面向对象这个概念并不陌生,如 C++.Java 都是面向对象语言.面向对象而言都会现有一个类的概念 ,先有类再有对象.类是实例的类型模板. 比如人类是一个类张三李四就是一个 ...
Description Resource Path Location Type cvc-complex-type.2.4.c: The matching 解决问题
2017-03-02 10:08:03,112 [localhost-startStop-1] ERROR org.springframework.web.servlet.DispatcherServ ...
十分钟复习CSS盒模型与BFC
css盒模型与BFC 本文为收集整理总结网上资源旨在系统复习css盒模型与bfc 节省复习时间阅读10分钟什么是盒模型每一个文档中,每个元素都被表示为一个矩形的盒子,它都会具有内容区.padd ...
把.net Core 项目迁移到VS2019 for MAC
VS2019 for MAC已经发布很长时间了,本以为项目移过去很麻烦,一直没有动作,最近呆家里快发霉了,决定研究研究,没想到一句代码都不需要动,直接完功,这下可以生产了.同学们可以放心整了. 本次平 ...
Linux学习资料地址汇总-不定时更（一）
https://linux.linuxidc.com/ 用户名和密码都是www.linuxidc.com
String字符串位置移动
有规律的String字符串位置移动 1.自定义一个有规律的String字符串 String numstr = "1,2,3,x,y,4,5"; 2.按逗号拆分numstr字符串 S ...
【colab pytorch】使用tensorboard可视化
import datetime import torch import torch.nn as nn import torch.nn.functional as F import torch.opti ...

nltk 获取 gutenberg 语料，gensim 生成词库和 onehot 编码

nltk 获取 gutenberg 语料，gensim 生成词库和 onehot 编码的更多相关文章

随机推荐

热门专题