菜鸟学IT之python词云初体验

作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

 txt = open(r'G:\aa\三体.txt', 'r', encoding='utf8').read()  # 打开三体小说文件

 jieba.load_userdict(r'G:\aa\three.txt')  # 读取三体小说词库

 Filess= open(r'G:\aa\stops_chinese.txt', 'r', encoding='utf8')  # 打开中文停用词表

 stops = Filess.read().split('\n')  # 以回车键作为标识符把停用词表放到stops列表中

3. 安装并使用jieba进行中文分词。

4. 更新词库，加入所分析对象的专业词汇。

首先下载你要搜索的txt文本
进入词库下载专业词库，参考词库下载地址：https://pinyin.sogou.com/dict/

 # -*- coding: utf-8 -*-

 import struct

 import os

 # 拼音表偏移，

 startPy = 0x1540;

 # 汉语词组表偏移

 startChinese = 0x2628;

 # 全局拼音表

 GPy_Table = {}

 # 解析结果

 # 元组(词频,拼音,中文词组)的列表

 # 原始字节码转为字符串

 def byte2str(data):

     pos = 0

     str = ''

     while pos < len(data):

         c = chr(struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0])

         if c != chr(0):

             str += c

         pos += 2

     return str

 # 获取拼音表

 def getPyTable(data):

     data = data[4:]

     pos = 0

     while pos < len(data):

         index = struct.unpack('H', bytes([data[pos],data[pos + 1]]))[0]

         pos += 2

         lenPy = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         pos += 2

         py = byte2str(data[pos:pos + lenPy])

         GPy_Table[index] = py

         pos += lenPy

 # 获取一个词组的拼音

 def getWordPy(data):

     pos = 0

     ret = ''

     while pos < len(data):

         index = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         ret += GPy_Table[index]

         pos += 2

     return ret

 # 读取中文表

 def getChinese(data):

     GTable = []

     pos = 0

     while pos < len(data):

         # 同音词数量

         same = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         # 拼音索引表长度

         pos += 2

         py_table_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         # 拼音索引表

         pos += 2

         py = getWordPy(data[pos: pos + py_table_len])

         # 中文词组

         pos += py_table_len

         for i in range(same):

             # 中文词组长度

             c_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

             # 中文词组

             pos += 2

             word = byte2str(data[pos: pos + c_len])

             # 扩展数据长度

             pos += c_len

             ext_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

             # 词频

             pos += 2

             count = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

             # 保存

             GTable.append((count, py, word))

             # 到下个词的偏移位置

             pos += ext_len

     return GTable

 def scel2txt(file_name):

     print('-' * 60)

     with open(file_name, 'rb') as f:

         data = f.read()

     print("词库名：", byte2str(data[0x130:0x338])) # .encode('GB18030')

     print("词库类型：", byte2str(data[0x338:0x540]))

     print("描述信息：", byte2str(data[0x540:0xd40]))

     print("词库示例：", byte2str(data[0xd40:startPy]))

     getPyTable(data[startPy:startChinese])

     getChinese(data[startChinese:])

     return getChinese(data[startChinese:])

 if __name__ == '__main__':

     # scel所在文件夹路径

     in_path = r"C:\Users\Administrator\Downloads"   #修改为你的词库文件存放文件夹

     # 输出词典所在文件夹路径

     out_path = r"C:\Users\Administrator\Downloads\text"  # 转换之后文件存放文件夹

     fin = [fname for fname in os.listdir(in_path) if fname[-5:] == ".scel"]

     for f in fin:

         try:

             for word in scel2txt(os.path.join(in_path, f)):

                 file_path=(os.path.join(out_path, str(f).split('.')[0] + '.txt'))

                 # 保存结果

                 with open(file_path,'a+',encoding='utf-8')as file:

                     file.write(word[2] + '\n')

             os.remove(os.path.join(in_path, f))

         except Exception as e:

             print(e)

             pass

5. 生成词频统计

 # 统计词频次数

 for word in tokens:

     if len(word) == 1:

         continue

     else:

         wcdict[word] = wcdict.get(word, 0) + 1

6. 排序

 # 词频排序

 wcls = list(wcdict.items())

 wcls.sort(key=lambda x: x[1], reverse=True)

7. 排除语法型词汇，代词、冠词、连词等停用词。

 Filess= open(r'G:\aa\stops_chinese.txt', 'r', encoding='utf8')  # 打开中文停用词表

 stops = Filess.read().split('\n')  # 以回车键作为标识符把停用词表放到stops列表中

 tokens=[token for token in wordsls if token not in stops]

 print("过滤后中文内容对比:",len(tokens), len(wordsls))

8. 输出词频最大TOP20，把结果存放到文件里

 # 打印前25词频最高的中文

 for i in range(25):

     print(wcls[i])

 # 存储过滤后的文本

 pd.DataFrame(wcls).to_csv('three.csv', encoding='utf-8')

 # 读取csv词云

 txt = open('three.csv', 'r', encoding='utf-8').read()

9. 生成词云。

 # 读取csv词云

 txt = open('three.csv', 'r', encoding='utf-8').read()

 # 用空格键隔开文本并把它弄进列表中

 cut_text = "".join(jieba.lcut(txt))

 mywc = WordCloud().generate(cut_text)

 plt.imshow(mywc)

 plt.axis("off")

 plt.show()

默认形状：

修改背景：

源码：https://github.com/JGaoLin/python_chinese_word

菜鸟学IT之python词云初体验的更多相关文章

菜鸟学IT之豆瓣爬取初体验
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据: newsdf = pd.re ...
python词云生成-wordcloud库
python词云生成-wordcloud库全文转载于'https://www.cnblogs.com/nickchen121/p/11208274.html#autoid-0-0-0' 一.word ...
Python 词云可视化
最近看到不少公众号都有一些词云图,于是想学习一下使用Python生成可视化的词云,上B站搜索教程的时候,发现了一位UP讲的很不错,UP也给出了GitHub上的源码,是一个很不错的教程,这篇博客主要就是 ...
Python 词云分析周杰伦《晴天》
一.前言满天星辰的夜晚,他们相遇了...夏天的时候,她慢慢的接近他,关心他,为他付出一切:秋天的时候,两个人终於如愿的在一起,分享一切快乐的时光但终究是快乐时光短暂,因为杰伦必须出国深造,两人面临了要 ...
python词云的制作方法
第一次接触到词云主要是觉得很好看,就研究了一下,官方给出了代码的,但是新手看的话还是有点不容易,我们来尝试下吧. 环境:python2.7 python库:PIL(pillow),numpy,matp ...
python 词云小demo
词云小demo jiebawordcloud 一什么是词云? 由词汇组成类似云的彩色图形.“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过 ...
Python词云生成
一.目的 1. 熟悉jieba库和wordcloud库的使用方法: 2. 熟悉文本词频统计和词云生成的基本方法. 二.内容 1. 从网上自行下载一个长篇英文小说,统计并输出该小说中词频最大的TOP 2 ...
python 词云学习
词云入门三步曲数据获取:使用爬虫在相关网站上获取文本内容数据清洗:按一定格式对文本数据进行清洗和提取(文本分类,贴标签) 数据呈现:多维度呈现和解读数据(计算,做表,画图) 一模块的安装 pi ...
python词云
词云图 from os import path from PIL import Image import numpy as np import matplotlib.pyplot as plt fro ...

随机推荐

Caused by: org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type 'com.thinkplatform.dao.UserLogDao' available: expected at least 1 bean which qualifies as autowi
我出错的问题是: 检查:
『Shell编程』学习记录（1）
例1. $ cat ex1 date pwd cd .. $ bash ex1 # 运行,显示当前日期和当前目录,但没有执行返回上级目录,因为执行的时候终端会产生一个子shell(类似于C语言调用函数 ...
Elasticsearch Java高级客户端
1. 概述 Java REST Client 有两种风格: Java Low Level REST Client :用于Elasticsearch的官方低级客户端.它允许通过http与Elastic ...
【朝花夕拾】Android安全之（一）权限篇
前言从Android6.0开始,Android系统对权限的处理产生了很大的变化.如果APP运行的设备系统版本为Android6.0或更高,并且target在23或更高,那么danger ...
cocos creator主程入门教程（五）—— 日志系统
五邑隐侠,本名关健昌,10年游戏生涯,现隐居五邑.本系列文章以TypeScript为介绍语言. 这一篇介绍日志系统的设计.一般我们开发一个demo,只会简单的用cocos提供的cc.log打印下日志, ...
事件Event一
事件(Event)例如:最近的视觉中国'黑洞事件'.我们大多数人(订阅者)是通过XX平台(发布者)得知的这一消息,然后订阅者A出售视觉中国的股票(触发的方法),订阅者B买入视觉中国的股票. using ...
【网摘】C#中TransactionScope的使用方法和原理
时间 2013-08-12 19:59:34 51CTO推荐博文原文 http://cnn237111.blog.51cto.com/2359144/1271600 在.net 1.1的时代,还 ...
部署ionic开发环境
(1)安装Node.js 首先您需要安装 Node.js,后续会使用到其中的 NPM 工具. (2)安装JDK 需要安装JDK,官网下载安装.命令窗口中输入 java -Xmx2048m -versi ...
Flask实战第5天：页面跳转和重定向
GET和POST请求在网络请求中有许多请求方式,比如GET, POST, DELETE, PUT等,最常用的就是GET和POST GET 只会在服务器上获取资源,不会更改服务器的状态,这种请求方式推 ...
浅谈C#中的for循环与foreach循环
for循环和foreach循环其实可以算得上是从属关系的,即foreach循环是可以转化成for循环,但是for循环不一定能转换成foreach循环. 下面简单介绍一下两种循环: 1.for循环代码 ...

菜鸟学IT之python词云初体验

菜鸟学IT之python词云初体验的更多相关文章

随机推荐

热门专题