Python给小说做词云

　　闲暇时间喜欢看小说，就想着给小说做词云，展示小说的主要内容。开发语言是Python，主要用到的库有wordcloud、jieba、scipy。代码很简单，首先用jieba.cut()函数做分词，生成以空格分割的字符串，然后新建WordCloud类，保存为图片。

 #coding:utf-8

 import sys

 import jieba

 import matplotlib.pyplot as plt

 from wordcloud import WordCloud,ImageColorGenerator

 from scipy.misc import imread

 from datetime import datetime

 novel=sys.argv[1] #'assz.txt'

 imgmask=sys.argv[2] #'assz.jpg'

 t=datetime.now()

 resimg="word_"+novel.split('.')[0]+"_"+str(t.month)+str(t.day)+str(t.hour)+str(t.minute)+str(t.second)+".jpg"

 novletext=open(novel).read()

 hmseg=jieba.cut(novletext)

 seg_space=' '.join(hmseg)

 alice_color=imread(imgmask)

#wordcloud默认不支持中文，这里的font_path需要指向中文字体，不然得到的词云全是乱码

 fwc=WordCloud(font_path='msyh.ttc',max_words=700,background_color='white',mask=alice_color,max_font_size=100,font_step=1).generate(seg_space)

 imagecolor=ImageColorGenerator(alice_color)

 plt.imshow(fwc.recolor(color_func=imagecolor))

 plt.axis("off")

 plt.show()

 fwc.to_file(resimg)

结果如下

　　得到的结果很不理想，一是角色的名字被分割开，比如“路西恩”被分割成了“路西”、“恩”或者“路”、“西恩”；二是“这样”、“那样”、“他们”这样的常用词太多，盖住了其他词语，让人无法确定小说的内容。

　　因此在生成词云之前，还得先生成一个过滤表，把“这样”、“那样”、“他们”这样的常用词去掉，不参与词云展示。这里我选了《斗破苍穹》《回到过去变成猫》《奥术神座》《灭运图录》《一世之尊》5本书，求出词频并排序，取每本书出现频率最高的1500个词，如果一个词在这7500个词中出现两次（不含）以上，则认为是高频常用词，写入过滤表中。

 #coding:utf-8

 import os

 import jieba

 def ff(dd):

     return dd[1]

 def array2dic(arr):

     segdict={}

     for seg in arr:

         if len(seg)<2:

             continue

         if seg in segdict:

             segdict[seg]+=1

         else:

             segdict[seg]=1

     return segdict

 novels=['斗破苍穹.txt','回到过去变成猫.txt','assz.txt','mytl.txt','yszz.txt']

 freq=[]

 for novel in novels:

     maotext=open(novel).read()

     seglist=jieba.cut(maotext)

     segdict=array2dic(seglist)

     c=1

     segsort=sorted(segdict.items(),key=ff,reverse=True)

     for item in segsort:

         #print(item[0]+'  '+str(item[1]))

         freq.append(item[0])

         if c==1500:

             break

         c+=1

 freqdict=array2dic(freq)

 freqsort=sorted(freqdict.items(),key=ff,reverse=True)

 k=1

 f=open('filter3.txt','w+')

 for item in freqsort:

     if item[1]>3:

         f.write(item[0]+"  ")

     if k%5==0:

         f.write("\n")

     k+=1

 f.close()

 print('ok')

同时，在分词之前，添加新词，保证分词准确。修改后的代码如下

 #coding:utf-8

 import sys

 import jieba

 import matplotlib.pyplot as plt

 from wordcloud import WordCloud,ImageColorGenerator

 from scipy.misc import imread

 from datetime import datetime

 jieba.add_word('路西恩')

 jieba.add_word('恐怖如斯')

 def customfilter(segs):

     filter=open('filter.txt').read()

     resseg=""

     for seg in segs:

         if seg not in filter:

             resseg+=' '+seg

     return resseg

 novel=sys.argv[1] #'assz.txt'

 imgmask=sys.argv[2] #'assz.jpg'

 t=datetime.now()

 resimg="word_"+novel.split('.')[0]+"_"+str(t.month)+str(t.day)+str(t.hour)+str(t.minute)+str(t.second)+".jpg"

 novletext=open(novel).read()

 hmseg=jieba.cut(novletext)

 seg_space=customfilter(hmseg)

 alice_color=imread(imgmask)

 fwc=WordCloud(font_path='msyh.ttc',max_words=700,background_color='white',mask=alice_color,max_font_size=100,font_step=1).generate(seg_space)

 imagecolor=ImageColorGenerator(alice_color)

 plt.imshow(fwc.recolor(color_func=imagecolor))

 plt.axis("off")

 plt.show()

 fwc.to_file(resimg)

成果代码

这样的结果比之前进步不小。

　　从词云上能看出不少有意思的规律，比如：有女主的小说，女主的名字出现频率往往仅次于主角。比如路西恩与娜塔莎，郝仁与薇薇安。但是全职里陈果在词频上享受了女主的待遇，钦点的女主苏沐橙反倒要仔细找才能看到。

Python给小说做词云的更多相关文章

如何用Python做词云（收藏）
看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始 ...
一步一步教你如何用Python做词云
前言在大数据时代,你竟然会在网上看到的词云,例如这样的. 看到之后你是什么感觉?想不想自己做一个? 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流 ...
如何用Python 制作词云-对1000首古诗做词云分析
公号:码农充电站pro 主页:https://codeshellme.github.io 今天来介绍一下如何使用 Python 制作词云. 词云又叫文字云,它可以统计文本中频率较高的词,并将这些词可视 ...
python3做词云分析
python3做词云其实词云一般分为两种,一个是权重比,一个是频次分析主要还是体现在自然语言方向,难度较大,但这里我们用jieba词库主要思路, 后端算数据+前端生成图(D3-cloud-好像是 ...
做词云时报错cannot import name ‘WordCloud‘ from partially initialized module ‘wordcloud‘的解决办法
问题: 在做词云时,运行时出现该问题,wordcloud安装成功,但运行出错,错误提示是:cannot import name 'WordCloud' from partially initializ ...
用Python做词云可视化带你分析海贼王、火影和死神三大经典动漫
对于动漫爱好者来说,海贼王.火影.死神三大动漫神作你肯定肯定不陌生了.小编身边很多的同事仍然深爱着这些经典神作,可见"中毒"至深.今天小编利用Python大法带大家分析一下这些神作 ...
用Python和WordCloud绘制词云（内附让字体清晰的秘笈）
环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点. ...
【python数据挖掘】使用词云分析来分析豆瓣影评数据
概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果数据:使用爬取的豆瓣影评数据 ...
使用python制作大数据词云
1 from wordcloud import WordCloud 2 import PIL.Image as image 3 import numpy as np 4 import jieba 5 ...

随机推荐

CF798 C. Mike and gcd problem
/* CF798 C. Mike and gcd problem http://codeforces.com/contest/798/problem/C 数论贪心题意:如果一个数列的gcd值大于1 ...
C语言精要总结-指针系列（一）
考虑到指针内容繁多,这里将指针作为一个系列,从简入繁,一点一点深挖并掌握这C语言的精华.初步计划如下此文为指针系列第一篇: C语言精要总结-指针系列(一) 内存与地址我们可以把内存看做一排连续的房 ...
安卓手机免root实现对其他软件最高管理（sandbox思想）
root之后的安卓系统并不稳定,root后有时候会出现一些系统的错误,如果实在忍受不了的话,这时候只能恢复出厂设置了.因此不root是最优的选择,但是不root情况下,并没有哪个软件可以实现对其它 ...
前端开发需要了解的JS插件
excanvas.js/Chart.js/cubism.js/d3.js/dc.js/dx.chartjs.js/echarts.js/flot.js 用途:构建数据统计图表,兼容多浏览器 jquer ...
hadoop集群的节点启动问题
start-all.sh 启动集群时,NameNode或DataNode节点启动不了,但之前可以启动. 查看hadoop中hdfs-site.xml配置文件 <property> < ...
网际报文控制协议ICMP
为了更有效地转发IP数据报和提高交付成功的机会,在网际层使用了网际控制报文协议ICMP.ICMP允许主机或路由器报告差错情况和提供有关异常情况的报告.ICMP是因特网的标准协议.但ICMP不是高层协议 ...
服务器数据库挂掉 Can 't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock '(2) ";
刚刚遇到这个报错,我无语了,我这么个菜逼,咋解决,还好师兄(付付)解决了,付付真棒,在此记录一下,以供学习 Can 't connect to local MySQL server through s ...
React入门---属性(props)-8
Props 和 State对于组件Component是非常重要的两个属性. 区别:State对于模块来说是自身属性: Props对于模块来说是外来属性: 同样的,props也是只作用于当前的组 ...
区块链入门(1):搭建(Ubuntu系统)Truffle v3.2.1 开发和测试环境
本文主要讲解ubuntu 16.04下, truffle开发测试环境的搭建. 第一步:安装nodejs 和 npm,有两种比较常见的方法. 方法1:直接在nodejs官网下载nodejs-v6.10 ...
zepto全选按钮之全选会根据按钮是否被全部选中更改状态
在做手机端二次开发购物车的时候,发现zepto全选,没找到,或者功能不是自己想要的后来做好,分享给需要的人 //全选或多选处理 var CheckAll = $('#items_check ...

Python给小说做词云

Python给小说做词云的更多相关文章

随机推荐

热门专题