Matplotlib学习---用wordcloud画词云（Word Cloud）

画词云首先需要安装wordcloud（生成词云）和jieba（中文分词）。

先来说说wordcloud的安装吧，真是一波三折。首先用pip install wordcloud出现错误，说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后，还是不行，按网上指点，下载第三方包安装（https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud）。安装是成功了，可是在anaconda里导入的时候又出现了问题，说是"no module named wordcloud"。随后又折腾了各种方案，比如网上有人说重新安装pillow包，等等，均不可行。突发奇想，打开Pycharm试了试，导入成功了。这说明wordcloud包其实已经安装好了，只是anaconda不识别。最后，终于找到解决方案：在anaconda prompt里输入命令：conda install -c conda-forge wordcloud，即可安装成功（https://anaconda.org/conda-forge/wordcloud）。

再来看一下wordcloud的基本原理（摘自：http://www.bubuko.com/infodetail-2695943.html）：

总的来说，wordcloud做的是三件事：

(1) 文本预处理

(2) 词频统计

(3) 将高频词以图片形式进行彩色渲染

下面用vanity fair这本小说来试一下画词云图。（wordcloud的一些参数介绍可参见：https://www.cnblogs.com/delav/articles/7837975.html）

from wordcloud import WordCloud, STOPWORDS

from matplotlib import pyplot as plt

fig,ax=plt.subplots()

with open(r'...\vanity fair.txt') as f:

    text=f.read()

mycloudword=WordCloud(width=800,

                      height=600,

                      scale=1,

                      margin=2,

                      background_color='white',

                      max_words=200,

                      min_font_size=40,

                      max_font_size=140,

                      stopwords=STOPWORDS,

                      random_state=50).generate(text)

ax.imshow(mycloudword)

ax.axis("off")

plt.show()

mycloudword.to_file(r"...\vanityfair.png")

输出：

注：设置不同的random_state值会让字的分布不一样。

上面演示的是用英文做的词云，那么如果我们要用中文生成词云呢？这时候就要用到jieba了。

英文语料可以直接输入到wordcloud中，但是对于中文语料，仅仅用wordcloud不能直接生成中文词云图。这是因为英文单词以空格分隔，而中文的词与词之间一般没有字符分隔。因此，应用到中文语料上的时候，注意要先分好词，再用空格分隔连接成字符串，最后输入到wordcloud。

另外需要注意的是：需要下载中文字体到相应的文件夹，设置该字体路径为font_path。否则，如果设置的是英文字体，那么中文将显示为方框。

让我们用翻译版的名利场小说来做演示：

from wordcloud import WordCloud, STOPWORDS

import jieba

from matplotlib import pyplot as plt

fig,ax=plt.subplots()

with open(r'...\名利场.txt','rb') as f:

    text=f.read()

wsplit=jieba.cut(text)

words="".join(wsplit)

mycloudword=WordCloud(font_path=r'C:\Windows\Fonts\msyh.ttf',

                      width=800,

                      height=600,

                      scale=1,

                      margin=2,

                      background_color='white',

                      max_words=200,

                      min_font_size=40,

                      max_font_size=140,

                      stopwords=STOPWORDS,

                      random_state=50).generate(words)

ax.imshow(mycloudword)

ax.axis("off")

plt.show()

mycloudword.to_file(r"...\vanityfair1.png")

输出：

接下来，我们把词云做成我们想要的形状。用pillow读取某张图片，转换成numpy array格式，并将其设置为mask（遮罩）。除图片全白的部分将不会被绘制，其余部分会用于绘制词云。

from wordcloud import WordCloud, STOPWORDS

import jieba

from PIL import Image

import numpy as np

from matplotlib import pyplot as plt

fig,ax=plt.subplots()

with open(r'...\名利场.txt','rb') as f:

    text=f.read()

wsplit=jieba.cut(text)

words="".join(wsplit)

shape=np.array(Image.open(r'C:\Users\ccav\timg.jpg'))

mycloudword=WordCloud(font_path=r'C:\Windows\Fonts\msyh.ttf',

                      scale=1,

                      margin=2,

                      background_color='white',

                      mask=shape,

                      max_words=200,

                      min_font_size=14,

                      max_font_size=50,

                      stopwords=STOPWORDS,

                      random_state=50).generate(words)

ax.imshow(mycloudword)

ax.axis("off")

plt.show()

mycloudword.to_file(r"...\vanityfair2.png")

原图：

输出的词云：

此外，还可以让词按某个图片的颜色进行显示。用recolor([random_state, color_func, colormap])对现有输出重新着色。（重新上色比重新生成整个词云要快很多）

添加以下这几句即可：

from wordcloud import ImageColorGenerator

color=ImageColorGenerator(np.array(Image.open(r'...\timg2.jpg')))

mycloudword.recolor(color_func=color)

原图：

输出：

Matplotlib学习---用wordcloud画词云（Word Cloud）的更多相关文章

推荐一个免费的生成词云(word cloud)的在线工具
"词云"这个概念由美国西北大学新闻学副教授.新媒体专业主任里奇·戈登(Rich Gordon)提出. "词云"就是对网络文本中出现频率较高的"关键词& ...
用Python和WordCloud绘制词云（内附让字体清晰的秘笈）
环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点. ...
jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
更新几篇之前写在公众号上的文章：线性可分时SVM理论推导；关联分析做捆绑销售和推荐；分词、去停用词和画词云
适合阅读人群:有一定的数学基础. 这几篇文章是16年写的,之前发布在个人公众号上,公众号现已弃用.回过头来再看这几篇文章,发现写的过于稚嫩,思考也不全面,这说明我又进步了,但还是作为学习笔记记在这里了 ...
R系列：分词、去停用词、画词云（词云形状可自定义）
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
Python第三方库wordcloud（词云）快速入门与进阶
前言: 笔主开发环境:Python3+Windows 推荐初学者使用Anaconda来搭建Python环境,这样很方便而且能提高学习速度与效率. 简介: wordcloud是Python中的一个小巧的 ...
python使用matplotlib画图,jieba分词、词云、selenuium、图片、音频、视频、文字识别、人脸识别
一.使用matplotlib画图关注公众号"轻松学编程"了解更多. 使用matplotlib画柱形图 import matplotlib from matplotlib impo ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
python WordCloud 实现词云
简单示例 from matplotlib import pyplot as plt from wordcloud import WordCloud filename = "text.txt& ...

随机推荐

[蛙蛙推荐]SICP第一章学习笔记-编程入门
本书简介 <计算机程序的构造与解释>这本书是MIT计算机科学学科的入门课程, 大部分学生在学这门课程前都没有接触过程序设计,也就是说这本书是针对编程新手写的. 虽然是入门课程,但起点比较高 ...
Python做windows服务
Python做windows服务(多进程服务),并结束多进程 Python中_,__,__xx__的区别在注册MyWinService服务时,再使用 "sc delete 服务器名称&qu ...
如何在Github中删除已有仓库或文件
一.删除已有仓库如果我们想要删除Github中没有用的仓库,应该如何去做呢? 进入到我们需要删除的仓库里面,找到“settings”即仓库设置: 然后,在仓库设置里拉到最底部,找到“Danger Zo ...
Python-生成器_36
#生成器函数 def generator(): print(1) return 'a' ret = generator() print(ret) #只要含有yield关键字的函数都是生成器函数 # y ...
Python练习-2
#1.使用while循环输入 1 2 3 4 5 6 8 9 10 count = 0 while count < 10: count += 1 # count = count + 1 if c ...
python 实现快速排序
一.快排思想快速排序可以理解为是对冒泡排序的一种改进,把一组数,按照初始选定的标杆(参照数), 分别从两端开始排序,左端'i'只要小于标杆(参照数)的数,右端'j'只要大于标杆(参照数)的数, i- ...
Python之操作Excel
使用之前先导入三个模块: import xlwt #只能写Excel import xlrd #只能读Excel import xlutils #修改Excel,在原来的基础上修改一.写EXCEL ...
linux重装后配一些库
#先要设置软件源 sudo apt-get update sudo apt-get upgrade #播放器 sudo apt-get install smplayer qt sudo apt-get ...
【学亮IT手记】Servlet的生命周期
1.1 Servlet的生命周期 1.1.1 Servlet的生命周期概述 1.1.1.1 什么是生命周期生命周期:一个对象从创建到销毁过程. 1.1.1.2 Servlet的生命周期(*****) ...
ORA-28000: the account is locked解决办法
ORA-28000: the account is locked第一步:使用PL/SQL,登录名为system,数据库名称不变,选择类型的时候把Normal修改为Sysdba;第二步:选择myjob, ...

Matplotlib学习---用wordcloud画词云（Word Cloud）

Matplotlib学习---用wordcloud画词云（Word Cloud）的更多相关文章

随机推荐

热门专题