9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭> 发布后,真的让一波人哭了 一群想抢鲜听的小伙伴直接泪奔 因为 QQ 音乐直接被搞崩了 没想到干翻 QQ 音乐的不是网易云音乐 也不是虾米音乐 而是周董! 周董成成功地凭一己之力干翻了 QQ 音乐 那么听过周董新歌后的小伙伴都是怎么评价的呢? 这里,我们获取了 QQ 音乐的近 20W 条评论数据进行分析 看看其中有哪些有趣的东西 一.数据获取 1.请求分析 在 QQ 网页版直接搜索『说好不哭』 很容易就能找到单曲页面 拉到页面最下方…
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中文社区公众号推送了一篇文章<用Python爬取陈奕迅新歌<我们>10万条评论的新发现>.最近一直在学习Python,想着找一个有趣的项目做一个练习,于是就模仿作者的代码开始练习,原文中作者在题目中说是“10万条评论的新发现”,通过程序运行,发现作者并没有对所有评论进行爬取,只是爬取了网…
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇   在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表达式过滤出用户名,评论时间和评论内容4,内容存入数据库5,统计评论次数 # -*- coding: utf-8 -*- import requests import base64 import re import urllib import rsa import json import binasc…
对于新浪微博评论的抓取,首篇做的时候有些考虑不周,然后现在改正了一些地方,因为有人问,抓取评论的时候“爬前50页的热评,或者最新评论里的前100页“,这样的数据看了看,好像每条微博的评论都只能抓取到前100页,当page=101时,xhr数据就成空,然后没有内容,所以现在是抓取每条微博最近的100页的评论,即1000条评论, 代码有些改动,但是思路都是一样 # -*- coding: utf-8 -*- import re import urllib import urllib2 import…
本人是张杰的小迷妹,所以用杰哥的微博为例,之前一直看的是网页版,然后在知乎上看了一个抓取沈梦辰的微博评论的帖子,然后得到了这样的网址 然后就用m.weibo.cn进行网站的爬取,里面的微博和每一条微博里面的评论都是ajax加载的,通过分析加载的数据分析可以得到,每次动态加载都是通过一个xhr进行加载的 表单提交的数据除了这是第页加载的微博之外,其他都是一样的.并且response信息里面有本条xhr信息返回当前xhr包括的所有信息的标识,一个xhr包含9条微博,然后会返回这9条微博的标识,标识是…
1,实现效果 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbnphbw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" width="320" height="300" alt=""> watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi…
[Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评论的接口,如下图所示. 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了. 接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示. 之后点击"参数"选项卡,可以看到参数为下图…
import urllib2 import requests #import MySQLdb import webbrowser import string import re from BeautifulSoup import BeautifulSoup def getHtml(page):#获取网址内容     page=str(page)     html=requests.get("http://search.sina.com.cn/?q=%BD%F0%D0%E3%CF%CD&r…
第一步:引入库 import time import base64 import rsa import binascii import requests import re from PIL import Image import random from urllib.parse import quote_plus import http.cookiejar as cookielib import csv import os 第二步:一些全局变量的设置 comment_path = 'comme…
在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理了一下,做成了一个Python模块NetCloud放在Pypi上了.目前只是对原来的代码做了一些整理与重构,功能还很不完善,后续打算抽空继续完善,如果有人用的话可能会长期维护下去. 目前只需要使用命令pip install NetCloud 即可以完成模块的安装,支持Windows与Linux系统,…