python 做词云图

#导入需要模块

import jieba

import numpy as np

import matplotlib.pyplot as plt

from PIL import Image

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

 

text_road=str(input('请输入文章的路径：'))

picture_road=str(input('请输入图片的路径：'))

 

#加载需要分析的文章

text = open(text_road,'r',encoding='utf-8').read()

 

#对文章进行分词

wordlist_after_jieba = jieba.cut(text, cut_all=False)

wl_space_split = " ".join(wordlist_after_jieba)

 

#读取照片通过numpy.array函数将照片等结构数据转化为np-array

mask=np.array(Image.open(picture_road))

 

#选择屏蔽词，不显示在词云里面

stopwords = set(STOPWORDS)

#可以加多个屏蔽词

stopwords.add("<br/>")

 

#创建词云对象

wc = WordCloud(

    background_color="white",

    font_path='/Library/Fonts/Arial Unicode.ttf',

    max_words=1000, # 最多显示词数

    mask=mask,

    stopwords=stopwords,

    max_font_size=100 # 字体最大值

    )

 

#生成词云

wc.generate(text)

 

#从背景图建立颜色方案

image_colors =ImageColorGenerator(mask)

 

#将词云颜色设置为背景图方案

wc.recolor(color_func=image_colors)

 

#显示词云

plt.imshow(wc,interpolation='bilinear')

 

#关闭坐标轴

plt.axis("off")

 

#显示图像

plt.show()

 

#保存词云

wc.to_file('词云图.png')

from wordcloud import WordCloud, STOPWORDS

from imageio import imread

from sklearn.feature_extraction.text import CountVectorizer

import jieba

import csv

# 获取文章内容

with open("caifu.txt") as f:

    contents = f.read()

print("contents变量的类型：", type(contents))

# 使用jieba分词，获取词的列表

contents_cut = jieba.cut(contents)

print("contents_cut变量的类型：", type(contents_cut))

contents_list = " ".join(contents_cut)

print("contents_list变量的类型：", type(contents_list))

# 制作词云图，collocations避免词云图中词的重复，mask定义词云图的形状，图片要有背景色

wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,

               background_color="white",

               font_path=r"C:\Windows\Fonts\simhei.ttf",

               width=400, height=300, random_state=42,

               mask=imread('axis.png',pilmode="RGB"))

wc.generate(contents_list)

wc.to_file("ciyun.png")

# 使用CountVectorizer统计词频

cv = CountVectorizer()

contents_count = cv.fit_transform([contents_list])

# 词有哪些

list1 = cv.get_feature_names()

# 词的频率

list2 = contents_count.toarray().tolist()[0]

# 将词与频率一一对应

contents_dict = dict(zip(list1, list2))

# 输出csv文件,newline=""，解决输出的csv隔行问题

with open("caifu_output.csv", 'w', newline="") as f:

    writer = csv.writer(f)

    for key, value in contents_dict.items():

        writer.writerow([key, value])

python 做词云图的更多相关文章

一步一步教你如何用Python做词云
前言在大数据时代,你竟然会在网上看到的词云,例如这样的. 看到之后你是什么感觉?想不想自己做一个? 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流 ...
python 数据分析--词云图，图形可视化美国竞选辩论
这篇博客从用python实现分析数据的一个完整过程.以下着重几个python的moudle的运用"pandas",""wordcloud"," ...
如何用Python做词云（收藏）
看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始 ...
python爬虫+词云图，爬取网易云音乐评论
又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题爬取网易云音乐的评论一开始是按照常规思路,分析网页ajax的传参情况.看到 ...
python 可视化词云图
文本挖掘及可视化知识链接我的代码: # -*- coding: utf-8 -*- from pandas import read_csv import numpy as np from sklea ...
python 绘制词云图
1. 先下载并安装nltk包,准备一张简单的图片存入代码所在文件目录,搜集英文停用词表 import nltk nltk.download() 2. 绘制词云图 import re import nu ...
python-2：爬取某个网页（虎扑）帖子的标题做词云图
关键词:requests,BeautifulSoup,jieba,wordcloud 整体思路:通过requests请求获得html,然后BeautifulSoup解析html获得一些关键数据,之后通 ...
用Python做词云可视化带你分析海贼王、火影和死神三大经典动漫
对于动漫爱好者来说,海贼王.火影.死神三大动漫神作你肯定肯定不陌生了.小编身边很多的同事仍然深爱着这些经典神作,可见"中毒"至深.今天小编利用Python大法带大家分析一下这些神作 ...
python词云图与中文分词
2019-12-12中文文本分词和词云图具体功能介绍与学习代码: import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是 ...

随机推荐

js 实现JSONP
编写一个 jsonp.html 内容如下: <!DOCTYPE html> <html lang="en"> <head> <meta c ...
使用python来反查数据表中的字段名
1. 链接数据库 import psycopg2 conn = psycopg2.connect(user,host,port,database,password) cur = conn.cursor ...
[数据结构与算法] 字符串匹配 - BF算法
BF(Brute Force)算法又称暴力匹配算法,是一种朴素的模式匹配算法给定主串 S : Bilibili 和子串 T :Bilididi 步骤: 1. 主串 S 第一位开始与子串 T 第一位 ...
c语言的布尔量
#include <stdio.h> #include <stdbool.h> int main() { bool b = true; bool t = false; ; }
MongoDB 之pymongodb
import pymongo import json from bson import ObjectId mongoclient = pymongo.MongoClient(host="12 ...
201871010106-丁宣元《面向对象程序设计（java)》第八周学习总结
201871010106-丁宣元 <面向对象程序设计(java)>第八周学习总结正文开头: 项目内容这个作业属于哪个课程 https://home.cnblogs.com/u/nwn ...
如何做到MySQL高扩展性？
高并发及其关注要点近年来,随着互联网.移动互联网的飞速发展,业务系统的互动性日益增强,用户规模不断攀升,电商.游戏.直播.在线教育.短视频等一系列新兴移动端应用如雨后春笋般涌现出来,这些应用 “高并 ...
Apex API 请求
Salesforce与网络服务的通信在Salesforce中可以利用Apex类与远程站点的网络服务进行通信.当远程网络服务支持REST方法时,开发者可以利用Apex代码进行数据的操作. 设置远程站点 ...
使用jattach 在host 节点查看容器jvm信息
jattach是基于hostspot attach api 指南编写的轻量all in one(jmap,jstack,jcmd,jinfo) 的工具包含了以下命令 load 家在agent lib ...
zeebe prometheus 监控配置
zeebe 默认已经集成了prometheus,以下是一个简单的配置,关于grafana 的集成需要调整下 dashboard,目前网上的已经太老了 docker-compose 文件 versi ...

python 做词云图

python 做词云图的更多相关文章

随机推荐

热门专题