理论与实战:一篇看懂Python词云
理论与实战:一篇看懂Python词云


后宫王镇贴
前言:本文初编辑于2024年2月2日
该项目代码的仓库地址:https://github.com/A-Piece-Of-Maple/WordCloud
CSDN:https://blog.csdn.net/rvdgdsva
博客园:https://www.cnblogs.com/hassle
总结
截至2024.2.2,想要学习词云,能够找到的文章大部分都是【基于文本生成的词云(使用ganerate)】,而不是【基于频率生成的词云(使用generate_from_frequencies)】,而且功能各有残缺,有些API还没有解释清楚,到头来还是要自己总结一下各个零散帖子的精华做一篇新人指导
本程序中文可用,按照词语频率分布,Python实现,调用jieba中文分词库和wordcloud库,支持停用词,支持自定义词组,支持自定义图片背景,支持自定义文字对应图片颜色
实现原理
导入一篇txt文档,使用jieba库对文档中的文字进行分词,计算各个词汇出现的频率,使用wordcloud库按照词汇频率的大小生成词云。
注意,不是使用wordcloud.generate()
,这个方法没有按照词汇频率的方式实现词云
停用词
在讲区别之前,来看看停用词是什么。下面是不调用停用词的词云,观感很差对吧。

实现方式区别
【基于文本生成词云】:txt文章->调用wordcloud.generate()
,内部调用停用词->保存图片
这种方法观感很差

【基于频率生成词云】:txt文章->分词->去空格空行->自己手动去除停用词->计算频率生成字典->调用wordcloud.generate_from_frequencies()
->保存图
这种方法是理想方法

注意!wordcloud.generate()
的参数是字符串,wordcloud.generate_from_frequencies()
的参数是字典
你们会注意到,【基于频率生成词云】操作会麻烦一些,需要手动去除停用词。笨方法,但是有用。
看源码,对于stopword
的操作,如果调用WordCloud()
进行对象的创建,这个创建过程是没有办法处理字典元素的,很蠢
stopwords = set([i.lower() for i in self.stopwords])
if self.collocations:
word_counts = unigrams_and_bigrams(words, stopwords, self.normalize_plurals, self.collocation_threshold)
else:
words = [word for word in words if word.lower() not in stopwords]
word_counts, _ = process_tokens(words, self.normalize_plurals)
介绍库
Jieba库
jieba库是一个方便实用的中文文本分词工具,被广泛应用于中文文本处理和自然语言处理的各个领域。支持三种分词模式:精确模式、全模式和搜索引擎模式。本文使用全模式。
如果想对jieba库的分词模式有更深入的了解,可以看这篇:jieba分词有哪些模式?
Wordcloud库
wordcloud是一个用于生成词云图的Python库。词云图是一种可视化方式,通过将文本中的单词按照频率和重要性进行布局,形成一个类似云朵的图形,其中频率高的单词通常显示得更大、更突出。
代码+解释
导入相关库
from os import path
import jieba
from collections import Counter
from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
from PIL import Image
from os import path
: 导入os
模块中的path
子模块。path
模块提供了与文件路径相关的功能,例如文件路径的拼接、判断路径是否存在等。
import jieba
: 导入jieba
模块。jieba
是一个中文分词库,用于将中文文本分割成单词或词语。
from collections import Counter
: 从collections
模块中导入Counter
类。Counter
是一个用于计数的工具类,可以用于统计元素出现的次数。
from wordcloud import WordCloud, ImageColorGenerator
: 从wordcloud
模块中导入WordCloud
和ImageColorGenerator
类。WordCloud
是一个用于生成词云的工具,ImageColorGenerator
用于生成基于图像颜色的词云。
import numpy as np
: 导入numpy
模块,并将其命名为np
。numpy
是一个用于进行科学计算的库,提供了高效的数组操作和数值计算功能。
from PIL import Image
: 从PIL
模块中导入Image
类。PIL
是Python Imaging Library的缩写,提供了图像处理的功能,Image
类用于表示和操作图像。
路径设置
# 获取路径
d = path.dirname(__file__)
这行代码用于获取当前脚本文件的目录路径,并将其赋值给变量d
。
# 下面四个自行变换
TXT_path = path.join(d, 'doc//浪潮之巅.txt') # 文本
MASK_path = path.join(d, 'pic//雾雨魔理沙.png') # 图片
STOPWORDS_path = path.join(d, r'doc//stopwords_cn.txt') # 停用词
FONT_path = path.join(d, 'font//msyh.ttf') # 字体
USERDICT_path = path.join(d, 'doc//自定义词组.txt')
这些行代码定义了几个文件的路径,包括文本文件路径TXT_path
、图片文件路径MASK_path
、停用词文件路径STOPWORDS_path
、字体文件路径FONT_path
和自定义词典文件路径USERDICT_path
。这些文件路径可以根据实际情况进行修改。
# 找到txt文件
text = open(TXT_path, encoding='UTF-8').read()
这行代码打开指定路径的文本文件,并将文件内容读取到变量text
中。
# 找到mask文件
mask = np.array(Image.open(MASK_path))
这行代码打开指定路径的图片文件,并将其转换为numpy
数组,存储在变量mask
中。这个图片将用作词云的形状。
# 导入自定义词典
jieba.load_userdict(USERDICT_path)
这行代码导入自定义词典,以便中文分词时使用。自定义词典包含一些用户指定的词语,可以影响分词结果。
准备工作
# 提取背景颜色
bg_color = ImageColorGenerator(mask, default_color=None)
这行代码根据图片的颜色生成背景颜色生成器,用于词云的颜色设置。
# 若是中文文本,则先进行分词操作
# cut_all是分词模式,True是全模式,False是精准模式,默认False
wordTemp = jieba.lcut(text, cut_all=True)
这行代码使用jieba
对文本进行分词操作,将分词结果存储在变量wordTemp
中。cut_all=True
表示使用全模式,即将文本中的所有可能成词的部分都进行切分。
words = []
# 设定停用词表
stopword = [line.strip() for line in open(STOPWORDS_path, 'r', encoding='UTF-8').readlines()]
# 载入词
for w in wordTemp:
if w not in stopword:
words.append(w)
这部分代码对分词结果进行处理,首先定义一个空列表words
。然后从停用词表中加载停用词,停用词表文件的路径由STOPWORDS_path
指定。接下来,对每个分词结果进行检查,如果它不在停用词表中,就将其添加到words
列表中。
# 去除空格
words = [item.strip() for item in words if item.strip() != '']
这行代码对words
列表中的每个词去除首尾的空格。
# 去停用词之后的词频统计结果
frequency = dict(Counter(words))
这行代码使用Counter
类对去除停用词之后的词列表进行词频统计,结果存储在字典frequency
中。
生成词云
wc = WordCloud(background_color="white", # 设置背景颜色
max_words=500, # 词云显示的最大词数
mask=mask, # 设置背景图片
font_path=FONT_path, 这行代码创建了一个`WordCloud`对象`wc`,用于生成词云图。其中的
# 词频生成词云
wc.generate_from_frequencies(frequency)
# 文本生成词云
# wc.generate(text)
background_color
:词云的背景颜色,这里设置为白色。
max_words
:词云显示的最大词数,这里设置为500。
mask
:词云的背景图片,使用之前读取的图片数组mask
。
font_path
:词云中使用的字体文件路径,由变量FONT_path
指定。
这部分代码用于生成词云。根据词频统计结果frequency
生成词云图,方法是调用generate_from_frequencies
函数。另外,也可以根据文本生成词云,将注释的一行取消注释即可。
WordCloud参数详解看这里:词云-WordCloud参数详解
wc.to_file('output.png')
这行代码将生成的词云图保存为名为output.png
的文件。
综上所述,这段代码的功能是读取指定的文本文件并进行中文分词,然后根据分词结果生成词云图,并将生成的词云图保存为文件。
理论与实战:一篇看懂Python词云的更多相关文章
- python词云生成-wordcloud库
python词云生成-wordcloud库 全文转载于'https://www.cnblogs.com/nickchen121/p/11208274.html#autoid-0-0-0' 一.word ...
- 闯缸鱼:看懂python如何实现整数加和,再决定是否自学编程
玩鱼缸的新手都知道有一种鱼叫"闯缸鱼",皮实好养,帮助新手判断鱼缸环境是否准备好.这篇笔记,最初用来解答一个编程新手的疑问,后来我发现,整理一下也可当做有兴趣自学python 编程 ...
- Python 词云可视化
最近看到不少公众号都有一些词云图,于是想学习一下使用Python生成可视化的词云,上B站搜索教程的时候,发现了一位UP讲的很不错,UP也给出了GitHub上的源码,是一个很不错的教程,这篇博客主要就是 ...
- Python 词云分析周杰伦《晴天》
一.前言满天星辰的夜晚,他们相遇了...夏天的时候,她慢慢的接近他,关心他,为他付出一切:秋天的时候,两个人终於如愿的在一起,分享一切快乐的时光但终究是快乐时光短暂,因为杰伦必须出国深造,两人面临了要 ...
- python词云的制作方法
第一次接触到词云主要是觉得很好看,就研究了一下,官方给出了代码的,但是新手看的话还是有点不容易,我们来尝试下吧. 环境:python2.7 python库:PIL(pillow),numpy,matp ...
- Python词云(词频统计,掩膜显示)
Python2.7 anaconda.安装Wordcloud,网上有许多下载路径,说一下掩模,就是在这个膜的区域才会有东西,当然这个与实际的掩模还有一定区别,这个词频显示是把所有统计的词,显示在这个掩 ...
- python 词云小demo
词云小demo jiebawordcloud 一 什么是词云? 由词汇组成类似云的彩色图形.“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过 ...
- Python词云生成
一.目的 1. 熟悉jieba库和wordcloud库的使用方法: 2. 熟悉文本词频统计和词云生成的基本方法. 二.内容 1. 从网上自行下载一个长篇英文小说,统计并输出该小说中词频最大的TOP 2 ...
- 一篇搞懂python文件读写操作(r/r+/rb/w/w+/wb/a/a+/ab)
关于文件操作的几种常用方式,网上已有很多解说,内容很丰富,但也因此有些杂乱复杂.今天,我就以我个人的学习经验写一篇详细又易懂的总结文章,希望大家看完之后会有所收获. 一.核心功能 ‘r’ ...
- 一文看懂Python的面向对象编程
之前在网络上看了很多关于面向对象的编程详解,还是不够过瘾,所以决定自己动手写一篇. 面向对象:Object Oriented Programming,简称OOP,即面向对象程序设计. 类(Class) ...
随机推荐
- Educational Codeforces Round 102 Personal Editorial(A~C,max Rating 1500)
1473A. Replacing Elements Rating 800 对数组排序,一旦数组中最大的数即a[n-1]是一个小于或等于d的数,直接输出YES即可,否则运用数组中最小的两个数加和替换最大 ...
- 大数据(3)---HDFS客户端命令及java连接
一.参数设置 之前有说到HDFS的备份数量和切块大小都是可以配置的,默认是备份3,切块大小默认128M 文件的切块大小和存储的副本数量,都是由客户端决定! 所谓的由客户端决定,是通过客户端机器上面的配 ...
- spring cloud gateway在使用 zookeeper 注册中心时,配置https 进行服务转发
本文为博主原创,转载请注明出处: 在spring cloud gateway 为 2.x 的版本的时候,可以通过引入 ribbon ,在进行过滤器 LoadBalancerClientFilter 进 ...
- 笔记本也能飞:运行chat大模型
背景 在过去的一年,ChatGPT的崛起彻底改变了我们与AI的交互方式.它不再是被动的信息提供者,而是成为了一个可以与我们自由交流.分享知识的伙伴.无论是生活中的琐事,还是工作中的难题,ChatGPT ...
- Java中内存四区
这里简要说明这四个区域通常用于存储的变量类型: 栈区(Stack): 存放局部变量.方法参数.返回地址等. 变量的生命周期与其所在的方法(函数)的调用周期一致. 堆区(Heap): 主要用于动态分配内 ...
- 非标准库--conio.h库
1.getch函数 主要内容 int getch(void): 所在头文件:conio.h 函数用途:从控制台读取一个字符,但不显示在屏幕上,即一个不需要通过ENTER确定的getchar. 函数原型 ...
- [转帖]记一次sst文件损坏修复过程
https://tidb.net/blog/54e388c8 [2023-07-14 14:26:28]应用系统报警删除数据失败,查看日志报Region is unavailable,同时企业微信群也 ...
- [转帖]部署Alertmanager
https://flashcat.cloud/docs/content/flashcat-monitor/prometheus/alert/manager-install/ Alertmanager和 ...
- [转帖]学会使用Kafka(八)Kafka基本客户端命令操作
https://www.cnblogs.com/rexcheny/articles/9463811.html 主题管理 创建主题 1 kafka-topics.sh --bootstrap-serve ...
- [转帖]linux内存挂载
1.主要功能 在linux中,为了提高读写速度,可以将内存挂载到目录,常见的文件格式有tmpfs和ramfs. 2.挂载步骤 $ sudo mkdir /mnt/tmp $ sudo mkdir /m ...