微信聊天记录生成特定图片图云 首先贴上github地址 https://github.com/ghdefe/WechatRecordToWordCloud 来个效果图 提取聊天记录到csv参考教程 https://github.com/Heyxk/notes/issues/1 项目说明 该项目根据微信聊天记录,使用jieba分词后,利用wordcloud生成对应的词云. 词云形状颜色可以根据自定义图片生成,因此,该词云缩小了看是一个低分辨率图片. 若要生成图片词云,应赋值使得图云最大字号不能过大…
微信,对它又爱又恨!爱的是微信能替代很多手机通话短信,恨的是有些较早前的手机不能友好支持,比如ytkah之前用的i8000,挺上手的,就是没办法装微信,当时工作需要必须用微信,只好忍痛割爱买了个android手机.安卓手机还算可以吧,就是流量大户.占用内存太大了,经常会生成一个很大相册预览图的文件夹,有时拍照就提示空间不足,得先清理一下.等你清理完,妹子的媚眼不懂飞向哪个大叔身上了,哎! 腾讯出招了:通过腾讯电脑管家将微信聊天记录备份到电脑上 如果不想安装电脑管家,可以试试下面的方法androi…
python根据文本生成词云图 效果 代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analyse as analyse from scipy.misc import imread import os from os import path import matplotlib.pyplot as plt from PIL import Image, ImageDraw, ImageFont…
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图 第一步,准备数据 需要登录豆瓣网站才能够获得短评文本数据https://movie.douban.com/subject/1291561/comments 首先获取cookies,使用爬虫强大的firefox浏览器 将cookies数据复制到cookies.txt文件当中备用, 2.第二步,编写爬虫代码 #codin…
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前,首先要做一些准备工作 1.安装结巴分词库 pip install jieba Python中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词 是当前使用的最多的类型. 下面我来简单介绍一下结巴分词的用法 结巴分词的分词模式分为三种: (1)全模式:把句子中所有的可以成词的词语都扫描出…
词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小. 写在前面: 用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述. 但是对于根据generate_from_frequencies()给定词频如何画词云图的资料找了很久,下面只讲这种方法. generate_from_frequencies适用于我已知词及其对应的词频是多少(已有数据库),不需要分词的情况下. 官方文档说generate_from_frequencies函数的参数是array of tupl…
在数据分析领域,词云图已经成为在文本分析中装逼的首选图表,大家热烈地讨论如何在Python上做数据分析.做词云图. 数据分析从来都是Excel的主战场,能够让普通用户使用上的技术才是最有价值的技术,一个人闷骚地写Py代码自嗨个词云图,不是笔者想要的最终效果. 所以把词云图的制作能力下放到Excel普通用户手里,就是Excel催化剂想做的事情,幸好辛苦找寻,仍然能找到一个不错的轮子,在此向大家分享一下. 具体代码 一样地可从Nuget中获取到这个轮子CloudConvert   词云图轮子Clou…
今日目标:爬取CVPR2018论文,进行分析总结出提到最多的关键字,生成wordCloud词云图展示,并且设置点击后出现对应的论文以及链接 对任务进行分解: ①爬取CVPR2018的标题,简介,关键字,论文链接 ②将爬取的信息生成wordCloud词云图展示 ③设置点击事件,展示对应关键字的论文以及链接 一.爬虫实现 由于文章中并没有找到关键字,于是将标题进行拆分成关键字,用逗号隔开 import re import requests from bs4 import BeautifulSoup…
WordCloud(词云图) from pyecharts import options as opts from pyecharts.charts import Page, WordCloud from pyecharts.globals import SymbolType words = [ ("Sam S Club", 10000), ("Macys", 6181), ("Amy Schumer", 4386), ("Jurass…
爬虫:requests,beautifulsoup 词云:wordcloud,jieba 代码加注释: # -*- coding: utf-8 -*- import xlrd#读取excel import xlwt#写入excel import requests import linecache import wordcloud import jieba import matplotlib.pyplot as plt from bs4 import BeautifulSoup if __name…