【python3】爬取简书评论生成词云

一、起因：

昨天在简书上看到这么一篇文章《中国的父母，大都有毛病》，看完之后个人是比较认同作者的观点。

不过，翻了下评论，发现评论区争议颇大，基本两极化。好奇，想看看整体的评论是个什么样，就写个爬虫，做了词云。

二、怎么做：

① 观察页面，找到获取评论的请求，查看评论数据样式，写爬虫

② 用 jieba 模块，将爬取的评论做分词处理

③ 用 wordcloud 模块，生成词云

三、代码如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import requests,json,time

import jieba

import matplotlib.pyplot as plt

from bs4 import BeautifulSoup

from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

# 存储爬取结果

def write(path,text):

    with open(path,'a', encoding='utf-8') as f:

        f.writelines(text)

        f.write('\n')

# 爬取评论

def getcomments(num,path):

    url = 'https://www.jianshu.com/notes/23437010/comments?comment_id=&author_only=false&since_id=0&max_id=1586510606000&order_by=likes_count&page='+str(num)

    response = requests.get(url).text

    response = json.loads(response)

    num = response['total_pages']

    for i in response['comments']:

        comment = BeautifulSoup(i['compiled_content'],'lxml').text

        write(path,comment)

    return num

# jieba 分词

def read(path):

    text=''

    with open(path, encoding='utf-8') as s:

        for line in s.readlines():

            line.strip()

            text += ' '.join(jieba.cut(line))

    return text

# WordCloud 生成词云

def wordcloud(imagepath):

    backgroud_Image = plt.imread(imagepath)

    wc = WordCloud(background_color='white',  # 设置背景颜色

                   mask=backgroud_Image,  # 设置背景图片

                   max_words=2000,  # 设置最大现实的字数

                   stopwords=STOPWORDS,  # 设置停用词

                   font_path='C:/Users/Windows/fonts/msyh.ttf',  # 设置字体格式，如不设置显示不了中文

                   max_font_size=120,  # 设置字体最大值

                   random_state=30,  # 设置有多少种随机生成状态，即有多少种配色方案

                   )

    wc.generate(text)

    image_colors = ImageColorGenerator(backgroud_Image)

    wc.recolor(color_func=image_colors)

    plt.imshow(wc)

    plt.axis('off')

    plt.show()

if __name__ == '__main__':

    path = '评论.txt' # 评论path

    imagepath = 'heart.jpg' #词云背景图path

    print('正在爬取评论')

    i,num=1,2

    while i <= num:

        num=getcomments(i,path) # 爬取评论

        time.sleep(2)

        i += 1

    print('正在分词处理')

    text = read(path)  # jieba 分词处理

    print('正在生成词云')

    wordcloud(imagepath) # WordCloud 生成词云

    print('词云生成成功')

效果：

【python3】爬取简书评论生成词云的更多相关文章

python3 爬取简书30日热门，同时存储到txt与mongodb中
初学python,记录学习过程. 新上榜,七日热门等同理. 此次主要为了学习python中对mongodb的操作,顺便巩固requests与BeautifulSoup. 点击,得到URL https: ...
用python爬取微博数据并生成词云
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景. 一年一度的虐汪节,是继续蹲在角落默 ...
python 爬取简书评论
import json import requests from lxml import etree from time import sleep url = "https://www.ji ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
python2.7 爬取简书30日热门专题文章之简单分析_20170207
昨天在简书上写了用Scrapy抓取简书30日热门文章,对scrapy是刚接触,跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数 ...
scrapy爬取简书整站文章
在这里我们使用CrawlSpider爬虫模板, 通过其过滤规则进行抓取, 并将抓取后的结果存入mysql中,下面直接上代码: jianshu_spider.py # -*- coding: utf-8 ...
爬取简书图片(使用BeautifulSoup)
import requests from bs4 import BeautifulSoup url_list = [] kv = {'User-Agent':'Mozilla/5.0'} r = re ...

随机推荐

MySQL存储引擎之Spider内核深度解析
作者介绍朱阅岸,中国人民大学博士,现供职于腾讯云数据库团队.研究方向主要为数据库系统理论与实现.新硬件平台下的数据库系统以及TP+AP型混合系统. Spider是为MySQL/MariaDB开发 ...
windows 查看端口号，杀进程
查看端口号: 开始--运行--cmd netstat –and 杀进程: windows任务管理器查看--显示列-PID 相关知识: 一台机器的80端口被httpd (apache) ...
python邮件处理
SMTP SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式.Python对SMTP支持有 ...
【cs231n】图像分类-Nearest Neighbor Classifier(最近邻分类器)【python3实现】
[学习自CS231n课程] 转载请注明出处:http://www.cnblogs.com/GraceSkyer/p/8735908.html 图像分类: 一张图像的表示:长度.宽度.通道(3个颜色通道 ...
BZOJ 1877 晨跑拆点费用流
题目链接: https://www.lydsy.com/JudgeOnline/problem.php?id=1877 题目大意: Elaxia最近迷恋上了空手道,他为自己设定了一套健身计划,比如俯卧 ...
uva 12508 - Triangles in the Grid(几何+计数)
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/u011328934/article/details/35244875 题目链接:uva 12508 ...
CentOS 7.4 yum安装LAMP环境
配置防火墙,开启80.3306端口.CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙. #停止firewall服务 systemctl stop firewa ...
《网络安全编程基础》之Socket编程
<网络安全编程基础>之Socket编程我的代码 server.c // server.cpp : Defines the entry point for the console appl ...
JAVA开发微信支付-公众号支付/微信浏览器支付（JSAPI）
写这篇文章的目的有2个,一是自己的项目刚开发完微信支付功能,趁热回个炉温习一下,二也是帮助像我这样对微信支付不熟悉,反复看了多天文档还是一知半解,原理都没摸清,更不要说实现了.本以为网上的微信开发教程 ...
倒计数锁存器（CountDown Latch）和 CyclicBarrier（同步屏障）
倒计数锁存器(CountDown Latch)是异常性障碍,允许一个或多个线程等待一个或者多个其他线程来做某些事情. public static long time(Executor executor ...

【python3】爬取简书评论生成词云

【python3】爬取简书评论生成词云的更多相关文章

随机推荐

热门专题