python 绘制词云图

1. 先下载并安装nltk包，准备一张简单的图片存入代码所在文件目录，搜集英文停用词表

import nltk

nltk.download()

2. 绘制词云图

import re

import numpy as np

import pandas as pd

#import matplotlib

import matplotlib.pyplot as plt

from nltk.tokenize import word_tokenize, sent_tokenize

from nltk.corpus import stopwords

from PIL import Image

from wordcloud import WordCloud

from sklearn.datasets import fetch_20newsgroups

#from sklearn.feature_extraction.text import CountVectorizer

from collections import Counter, defaultdict

def word_cut(contents, cut=','):

    res = []

    for content in contents:

        content = content.lower()

        words = [word for word in re.split(cut, content) if word]

        res.append(words)

    return res

def word_count(contents):

    #words_count = Counter(sum(contents,[]))  #慢

    word_count_dict = defaultdict(lambda: 0)

    for content in contents:

        temp_dict = Counter(content)

        for key in temp_dict:

            word_count_dict[key] += temp_dict[key]

    return word_count_dict

def stopwords_filter(contents, stopwords):

    contents_clean = []

    word_count_dict = defaultdict(lambda: 0)

    for line in contents:

        line_clean = []

        for word in line:

            if word in stopwords:

                continue

            line_clean.append(word)

            word_count_dict[word] += 1

        contents_clean.append(line_clean)

    words_count = list(word_count_dict.items())

    words_count.sort(key=lambda x:-x[1])

    words_count = pd.DataFrame(words_count, columns=['word', 'count'])

    return contents_clean, words_count

# 从外部导入数据

'''

df_news = pd.read_table('val.txt', names=['category','theme','URL','content'], encoding='utf-8')

stopwords = pd.read_csv("stopwords.txt", index_col = False, sep="\t",

                        quoting=3, names=['stopword'], encoding='utf-8')

contents = df_news.content.values.tolist()

stopwords = stopwords.stopword.values.tolist()'''

# 自定义切词

'''

#[ ,.\n\t--\':;?!/+<>@]

#[ ,.\n\t=--\'`_\[\]:;?!^/|+<>{}@~\\]

#contents = word_cut(contents=news.data, cut='[ ,.\n\t-\`_\[\]:;?!\^/|+<>{}@~]')

'''

# 将数据整理为模型入参形式

'''

#vec = CountVectorizer()

#X_train = vec.fit_transform(X_train)  #不可直接将vec用在测试集上

#vectorizer_test = CountVectorizer(vocabulary=vec.vocabulary_)

#X_test = vectorizer_test.transform(X_test)

'''

# 可从中筛选停用词

'''

word_count_dict = word_count(contents)

temp = list(word_count_dict.items())

temp.sort(key=lambda x:-x[1])

df = pd.DataFrame(temp, columns=['word','count'])

df.to_csv(r'D:\PycharmProjects\zsyb\stop_words.csv')

'''

# 调包实现上述功能

news = fetch_20newsgroups(subset='all')

# 自定义的快好几倍，可以加if not in ‘’去标点

contents = [word_tokenize(content.lower()) for content in news.data]  #sent_tokenize(content)

punctuations = set(list(',.\n\t-\`_()\[\]:;?!$#%&.*=\^/|+<>{}@~'))  #标点

digits = {str(i) for i in range(50)}

others = {'--', "''", '``', "'", '...'}

# 下载网上的停用词表加入 nltk_data\corpora\stopwords，低频词过滤（不要加入停用词）

stopWords = set(stopwords.words('english')) | punctuations | digits | others

contents_clean, words_count = stopwords_filter(contents, stopWords)

#df.groupby(by=['word']).agg({"count": np.size})

# 绘制词云图

fontpath = 'simhei.ttf'

aimask = np.array(Image.open(r"D:\PycharmProjects\zsyb\pig.png"))

wc = WordCloud(font_path = fontpath,          #设置字体

               background_color = "white",    #背景颜色

               max_words = 1000,              #词云显示的最大词数

               max_font_size = 100,           #字体最大值

               min_font_size = 10,            #字体最小值

               random_state = 42,             #随机数

               collocations = False,          #避免重复单词

               mask = aimask,                 #造型遮盖

               width = 1200, height = 800,    #图像宽高，需配合plt.figure(dpi=xx)放缩才有效

               margin = 2                     #字间距

               )

word_frequence = {x[0]:x[1] for x in words_count.head(100).values}

word_cloud=wc.fit_words(word_frequence)

plt.figure(dpi=100) #通过这里可以放大或缩小

plt.subplot(121)

plt.imshow(aimask)

#plt.axis("off")  #隐藏坐标

plt.subplot(122)

plt.imshow(word_cloud)

#plt.axis("off")  #隐藏坐标

python 绘制词云图的更多相关文章

Python pyecharts绘制词云图
一.pyecharts绘制词云图WordCloud.add()方法简介 WordCloud.add()方法简介 add(name,attr,value, shape="circle" ...
python爬虫+词云图，爬取网易云音乐评论
又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题爬取网易云音乐的评论一开始是按照常规思路,分析网页ajax的传参情况.看到 ...
使用python绘制词云
最近在忙考试的事情,没什么时间敲代码,一个月也没几天看代码,最近看到可视化的词云,看到网上也很多这样的工具, 但是都不怎么完美,有些不支持中文,有的中文词频统计得莫名其妙.有的不支持自定义形状.所有的 ...
使用pyecharts绘制词云图-淘宝商品评论展示
一.什么是词云图? 词云图是一种用来展现高频关键词的可视化表达,通过文字.色彩.图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息. 制作词云图的网站有很多,简单方便,适合小批量操作. BI ...
python 数据分析--词云图，图形可视化美国竞选辩论
这篇博客从用python实现分析数据的一个完整过程.以下着重几个python的moudle的运用"pandas",""wordcloud"," ...
python 可视化词云图
文本挖掘及可视化知识链接我的代码: # -*- coding: utf-8 -*- from pandas import read_csv import numpy as np from sklea ...
python 做词云图
#导入需要模块 import jieba import numpy as np import matplotlib.pyplot as plt from PIL import Image from w ...
Python 绘制词云
文本内容:data(包含很多条文本) 1.分词: import jieba data_cut = data.apply(jieba.lcut) 2.去除停用词: stoplist.txt:链接:htt ...
吃瓜的正确姿势，Python绘制罗志祥词云图
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 这篇文章中向大家介绍了Python绘制词云的方法,不难看出绘制词云可以说是一 ...

随机推荐

cmd切换路径和查看路径下的文件的命令
查看当前路径下的文件: 1.1首先敲入命令 D: 则进入D盘目录,如下图所示: 1.2进入D盘目录后,敲入命令 dir 则显示D盘下的所有文件,如下图所示: 入上所述,在Windows系统的c ...
C/C++ 变量的本质分析
1. 程序通过变量来申请和命名内存空间. int a=0; //申请一个大小为int型的内存空间,这个内存空间取名叫a,申请的内存空间里存储0 2. 可以通过变量名访问变量的内存空间. 3. 修改变量 ...
科研画图：散点连接并平滑（基于Matlab和Python）
导师要求参照别人论文中的图(下图),将其论文中的图画美观些,网上关于科研画图相关的代码比较少,就自己鼓捣了下. 附上自己整合验证过的代码: 功能:将散点连接并平滑 1)Matlab 效果图: x1=[ ...
mybatis foreach方法遍历对象
<delete id="deleteAppUserByIds"> delete from app_userinfo where <foreach i ...
【2019.10.7 CCF-CSP-2019模拟赛 T1】树上查询（tree）（思维）
思维这道题应该算是一道思维题吧. 首先你要想到,既然这是一棵无根树,就要明智地选择根--以第一个黑点为根(不要像我一样习惯性以\(1\)号点为根,结果直到心态爆炸都没做出来). 想到这一点,这题就很 ...
Python连载45-XML解析（使用minidom和etree分别示例）
一.我们对XML的读取进行一波演示 import xml.dom.minidom #负责解析xml文件的包 from xml.dom.minidom import parse #使用minidom ...
Spring的增强模式
一.前置增强 1.IdoSomeService 2.IdoSomeServiceImpl类实现IdoSomeService接口 3.MyBeforeAdvice 实现前置增强方法 4.applicat ...
搭建Tomcat服务器访问本地资源
目标,搭建Tomcat服务器,使同网络段下其他电脑可以访问分享的文件下载安装Tomcat 如下图,在官网http://Tomcat.apache.org/下载对应版本的Tomcat,解压安装即可启 ...
使用logging模块进行封装，让bug无处遁寻
import logging from scripts.handle_config import conf from scripts.constants import LOGS_DIR class H ...
【CF528E】Triangles 3000（计算几何）
[CF528E]Triangles 3000(计算几何) 题面 CF 平面上有若干条直线,保证不平行,不会三线共点. 求任选三条直线出来围出的三角形的面积的期望. 题解如果一定考虑直接计算这个三角形 ...

python 绘制词云图

python 绘制词云图的更多相关文章

随机推荐

热门专题