9 月 16 日晚间，周董在朋友圈发布了最新单曲《说好不哭》

发布后，真的让一波人哭了

一群想抢鲜听的小伙伴直接泪奔

因为 QQ 音乐直接被搞崩了

没想到干翻 QQ 音乐的不是网易云音乐

也不是虾米音乐

而是周董！

周董成成功地凭一己之力干翻了 QQ 音乐

那么听过周董新歌后的小伙伴都是怎么评价的呢？

这里，我们获取了 QQ 音乐的近 20W 条评论数据进行分析

看看其中有哪些有趣的东西

一、数据获取

1、请求分析

在 QQ 网页版直接搜索『说好不哭』

很容易就能找到单曲页面

拉到页面最下方

可以看到评论的分页查看按钮

按下 F12 点击第二页

在请求流中就可以看到对应的请求

其中可以看到两个重要参数：pagenum 和 pagesize

将请求 copy 到 Postman 中进行测试

发现可以直接获取到数据

连 Header 都不需要添加

这里尝试对请求参数进行了精简

最终只需要如下几个参数即可

从 Postman 中可以直接获取到对应的代码

import requests

url = "https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg"

querystring = {"biztype":"1","topid":"237773700","cmd":"8","pagenum":"1","pagesize":"25"}

response = requests.request("GET", url, params=querystring)

print(response.text)

这里是单页评论的获取

所有评论的获取只需递增 pagenum 即可

2、数据解析

返回数据中有很多暂时不需要的字段

这里我们只取其中的用户名、评论时间、评论内容、点赞数

对应如下字段

{

    "nick": "丨那壹刻永遠消失\"\"",

    "praisenum": 1,

    "rootcommentcontent": "越听越好听怎么回事！",

    "time": 1568729836,

}

由于数据量较大

这里我们暂时将数据存放在 Excel 中

一来无须依赖外部数据库

二来可以使用 Excel 对数据进行二次处理

数据存储代码如下：

def file_do(list_info, file_name):

    # 获取文件大小

    if not os.path.exists(file_name):

        wb = openpyxl.Workbook()

        page = wb.active

        page.title = 'jay'

        page.append(['昵称','时间','点赞数','评论'])

    else:

        wb = openpyxl.load_workbook(file_name)

        page = wb.active

    for info in list_info:

        try:

            page.append(info)

        except Exception:

            print(info)

    wb.save(filename=file_name)

二、数据可视化

1、各时段的评论数

首先我们对评论按小时区间进行汇总

由于时间粒度比较小，这里对时间粒度进行了一些处理

周董的新曲是在 9.16 号 23 点准时发布的

可以看出在发布后的一个小时内（23:00-24:00）

评论数量达到了高峰

占了总评论数的一半以上

另外看了一眼 9.16 23 点之前的评论也很有意思

一种搬好小板凳嗑着瓜子坐等的既视感

2、大家都在说什么

词云生成的方法有很多

可以用代码生成

也可以用一些在线工具

这里我就使用了在线词云工具：wordart

后续可以给大家单独再普及一下

生成效果如下

周杰伦、杰伦字眼很明显

还有大量跑来『打卡』的

『好听』、『来了』、『哭了』、『爱了』

其中少不了的还有『青春』

另外『阿信』的出现估计给了很多人惊喜

3、大家都点赞了哪些评论

我们以点赞数对评论进行了排序

排名靠前的评论是如下一些

另外，QQ 音乐官方也会放出精彩评论

对比下可以看出和我们获取到的数据是比较一致的

只不过官方并不是按点赞个数进行排名的

看得出来这些排名靠前的大都是在回忆青春

这些评论之所以能够得到大家的共鸣

也许他们的青春里都有一个周杰伦吧

周董新歌搞崩QQ，抓取20W评论看看歌迷在说啥的更多相关文章

Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...
测试开发Python培训：抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
Python抓取微博评论(二)
对于新浪微博评论的抓取,首篇做的时候有些考虑不周,然后现在改正了一些地方,因为有人问,抓取评论的时候“爬前50页的热评,或者最新评论里的前100页“,这样的数据看了看,好像每条微博的评论都只能抓取到前 ...
Python抓取微博评论
本人是张杰的小迷妹,所以用杰哥的微博为例,之前一直看的是网页版,然后在知乎上看了一个抓取沈梦辰的微博评论的帖子,然后得到了这样的网址然后就用m.weibo.cn进行网站的爬取,里面的微博和每一条微博 ...
python抓取新浪微博评论并分析
1,实现效果 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbnphbw==/font/5a6L5L2T/fontsize/400/fill ...
一篇文章教会你使用Python定时抓取微博评论
[Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评 ...
新浪新闻按keyword抓取实例
import urllib2 import requests #import MySQLdb import webbrowser import string import re from Beauti ...
Python爬虫抓取微博评论
第一步:引入库 import time import base64 import rsa import binascii import requests import re from PIL impo ...
NetCloud——一个网易云音乐评论抓取和分析的Python库
在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理 ...

随机推荐

golang数据结构之递归解决迷宫问题
简单来说:递归就是函数/方法自己调用自己,只是每次传入不同的变量. 递归可以解决各种数学问题:n皇后问题.阶乘问题.汉诺塔.迷宫问题.球和篮子问题等等: maze.go package maze im ...
SVN基本使用
1.把服务器的所有内容下载到本地 svn checkout 服务器地址 --username=使用者 --password=密码 2.添加文件 touch main.m(文件名) : 创建main.m ...
ASP.NET 表单验证
静态脚本 oncilentClick() 静态使用方法也可以$获取ID动态添加脚本 1.Response.Write(); 2.通过Register方式 3.Attribus方式根据控件ID进行添加 ...
oracle学习笔记（十五） PL/SQL语法结构以及使用
PL/SQL 简介 PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言. PL/SQL 是对 SQL 的扩展. 支持多种数据类型,如大对象和 ...
go-变量
变量使用注意事项变量三种声明方式 var i int //使用默认值 var num = 10.2 //类型推导 num := "tom" //左侧不能同名 //多变量声明 nu ...
Web前端基础(1):HTML(一)
1. HTML概述 1.1 什么是HTML HTML称为超文本标记语言,是一种标识性的语言.它包括一系列标签．通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体.H ...
Java生鲜电商平台-深刻理解电商的库存架构与解决方案
Java生鲜电商平台-深刻理解电商的库存架构与解决方案说明:一般电商的库存都是跟SKU相关联的,那么怎么样才能进行SKU的库存管理呢?有以下几种方式与方法: 一.七大库存分类首先得学习什么是库存, ...
opencv::证件照背景替换
证件照背景替换 K-Means 背景融合 – 高斯模糊遮罩层生成 #include <opencv2/opencv.hpp> #include <iostream> usin ...
CentOS7 安装Jenkins
准备工作首选需要安装JAVA环境 https://www.cnblogs.com/stulzq/p/9286878.html 如果你的系统没有自带git,那么也需要安装一个 yum install ...
Python股票历史数据的获取
获取股票数据的接口很多,免费的接口有新浪.网易.雅虎的API接口,收费的就是证券公司及相应的公司提供的接口.收费试用的接口一般提供的数据只是最近一年或三年的,限制比较多,除非money足够多.所以本文 ...

周董新歌搞崩QQ，抓取20W评论看看歌迷在说啥