Python词云分析

 import jieba

 from matplotlib import pyplot as plt

 from wordcloud import WordCloud

 from PIL import Image

 import numpy as np

 txt = (open("红楼梦.txt", "r", encoding='utf-8')).read()

 file1 = open("stopwords_cn.txt")

 file2 = open("stopwords_cn(more).txt")

 ls1 = []

 while 1:

     line = file1.readline()

     new_word = line.strip()

     if not line:

         break

     ls1.append(new_word)

 ls2 = []

 while 1:

     line = file2.readline()

     new_word = line.strip()

     if not line:

         break

     ls2.append(new_word)

 ls = ls1+ls2

 words = jieba.lcut(txt)

 counts = {}

 for word in words:

     for i in ls:

         if word == i:

             continue

     if (len(word)) == 1:

         continue

     else:

         counts[word] = counts.get(word, 0) + 1

 items = list(counts.items())

 items.sort(key=lambda x: x[1], reverse=True)

 for i in range(15):

     word, count = items[i]

     print("{0:<10}{1:>5}".format(word, count))

 string = ' '.join(words)

 print(len(string))

 img = Image.open('22.png') #打开图片

 img_array = np.array(img) #将图片装换为数组

 stopword=['什么', '一个', '我们', '那里', '你们', '如今', '起来', '知道', '这里', '众人', '他们', '出来', '自己', '说道', '听见', '两个', '姑娘', '不好',

           '不知', '只见', '东西', '告诉']  #设置停止词，也就是你不想显示的词，这里这个词是我前期处理没处理好，你可以删掉他看看他的作用

 stopword=stopword+ls

 print(stopword)

 wc = WordCloud(

     background_color='white',

     width=1000,

     height=800,

     mask=img_array,

     font_path='./fonts/simhei.ttf',

     stopwords=stopword

 )

 wc.generate_from_text(string)#绘制图片

 plt.imshow(wc)

 plt.axis('off')

 plt.figure()

 plt.show()  #显示图片

 wc.to_file('new.png')  #保存图片

Python词云分析的更多相关文章

Python 词云分析周杰伦《晴天》
一.前言满天星辰的夜晚,他们相遇了...夏天的时候,她慢慢的接近他,关心他,为他付出一切:秋天的时候,两个人终於如愿的在一起,分享一切快乐的时光但终究是快乐时光短暂,因为杰伦必须出国深造,两人面临了要 ...
如何用Python 制作词云-对1000首古诗做词云分析
公号:码农充电站pro 主页:https://codeshellme.github.io 今天来介绍一下如何使用 Python 制作词云. 词云又叫文字云,它可以统计文本中频率较高的词,并将这些词可视 ...
python词云生成-wordcloud库
python词云生成-wordcloud库全文转载于'https://www.cnblogs.com/nickchen121/p/11208274.html#autoid-0-0-0' 一.word ...
python爬虫——词云分析最热门电影《后来的我们》
1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更 ...
python爬取花木兰豆瓣影评，并进行词云分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
【python数据挖掘】使用词云分析来分析豆瓣影评数据
概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果数据:使用爬取的豆瓣影评数据 ...
Python 词云可视化
最近看到不少公众号都有一些词云图,于是想学习一下使用Python生成可视化的词云,上B站搜索教程的时候,发现了一位UP讲的很不错,UP也给出了GitHub上的源码,是一个很不错的教程,这篇博客主要就是 ...
python3做词云分析
python3做词云其实词云一般分为两种,一个是权重比,一个是频次分析主要还是体现在自然语言方向,难度较大,但这里我们用jieba词库主要思路, 后端算数据+前端生成图(D3-cloud-好像是 ...
python词云的制作方法
第一次接触到词云主要是觉得很好看,就研究了一下,官方给出了代码的,但是新手看的话还是有点不容易,我们来尝试下吧. 环境:python2.7 python库:PIL(pillow),numpy,matp ...

随机推荐

[sh]getopt参数解析
https://www.cnblogs.com/FrankTan/archive/2010/03/01/1634516.html sh参数处理方法 * 手工处理方式 * getopts #好像不支持长 ...
[vue]基础篇stepbystep案例实践(废弃)
去看这个就好了总结: 1.子组件可以触发父组件的方法,this.$emit() //(通知父组件干活) 2.父组件可以调用子组件的方法() // ref 如果放在组件上获取的是组件的实例并不是组 ...
openvpn-客户端配置文件
############################################## # 针对多个客户端的OpenVPN 2.0 的客户端配置文件示例 # # 该配置文件可以被多个客户端使用, ...
ICSharpCode.TextEditor使用及扩展
SharpDevelop (#develop)有很多“副产品”,其中最出名的应算SharpZipLib (#ziplib),纯C#的ZIP类库,而在SharpDevelop (#develop)中,“ ...
centos5 升级到centos6
From http://www.linuxquestions.org/questions/linux-newbie-8/yum-update-error-4175476250/ 对开发组的一个服务器执 ...
IdentityServer4：IdentityServer4+API+Client+User实践OAuth2.0密码模式（2）
一.密码模式实操仍然使用第一节的代码:做如下改动: 1.授权服务端前面我们使用项目:Practice.IdentityServer作为授权服务器修改项目的Config.cs类: 添加测试用户,并 ...
RF基础(一) RF内建函数库BuiltIn
Robot framework做为一个测试框架,并不是只能做selenium测试,是支持扩展的, 比如说,你引用requests库就可以做接口测试, 那么无论你用什么库首先要了解, RF本身提供的内 ...
sql注入学习笔记，什么是sql注入，如何预防sql注入，如何寻找sql注入漏洞，如何注入sql攻击（原）
(整篇文章废话很多,但其实是为了新手能更好的了解这个sql注入是什么,需要学习的是文章最后关于如何预防sql注入) (整篇文章废话很多,但其实是为了新手能更好的了解这个sql注入是什么,需要学习的是文 ...
webpack的使用二
1.安装 Webpack可以使用npm安装,新建一个空的练习文件夹(此处命名为webpack sample project),在终端中转到该文件夹后执行下述指令就可以完成安装 //全局安装 npm i ...
redhat7.5在H3C机器上黑屏无显
现象:H3C机器上,PXE安装/ISO安装系统,多用户模式启动,过内核启动界面后,屏幕黑屏无显,但是可以通过SSH登陆系统,服务正常环境:redhat7.5/H3C R4900G3/Purely平台 ...

Python词云分析

Python词云分析的更多相关文章

随机推荐

热门专题