python3爬取微博评论并存为xlsx

python3爬取微博评论并存为xlsx
**
由于微博电脑端的网页版页面比较复杂，我们可以访问手机端的微博网站，网址为：https://m.weibo.cn/
一、访问微博网站，找到热门推荐链接
我们打开微博网站后看见热门页，按F12查看网页结构后只能看见如下图短短的几个文章。

然后我们将滚动条向下滚动，发现新的文章会在底部加载，原来微博的热门文章加载方式是Ajax加载的，那我们就不能在网页源码中找标签了，我们点击如下图所示的network标签，找找请求地址。

我们查看请求返回值后发现下图的请求返回的是一个json格式的数据。

其实这就是热门文章存放的地址。在headers中找到gRequest请求的链接，是：https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0
二、requests请求获取json数据
我们利用requests获取目标地址返回的json数据，并对其进行打印：

response = requests.get(self.con_url, headers=self.headers)
data = json.loads(response.text)
pprint.pprint(data)
1
2
3
使用pprint来输出，可以按json格式输出获得的结果，这样方便查看，如下图：

三、提取文章信息
文章的所有信息都存放在我们获取的json数据中，接下来我们只要根据键去取对应的值即可：

data1 = data['data']['cards']
# pprint.pprint(data1)
for card_group in data1:
try:
for mblog in card_group['card_group']:
pprint.pprint(mblog['mblog']['id'])
link_list.append(mblog['mblog']['id'])
# pprint.pprint(card_group['card_group'])
except:
pprint.pprint(card_group['mblog']['id'])
link_list.append(card_group['mblog']['id'])
1
2
3
4
5
6
7
8
9
10
11
我们获取了文章的id可以根据文章的id访问文章的详细信息。
四、访问文章详情，获取用户评论及信息
对文章的地址进行拼接，获取评论区用户信息及评论内容。

datas = {} # 存放用户ID以及评论内容
ID = [] # 存放用户ID
comment = [] # 存放用户评论
name = [] # 存放用户名

for link in links:
url = self.urlhead + link + self.urlend + link + '&max_id_type=0'
print(url)
response = requests.get(url, headers=self.headers)
try:
details = json.loads(response.text)['data']['data']
except:
print('ok--------------')
# print(details)
for content in details:
user_id = content['user']['id']
text = content['text']
user_name = content['user']['screen_name']
# print(user_id)
# print(text)
ID.append(user_id)
comment.append(text)
name.append(user_name)

datas['用户ID'] = ID
datas['昵称'] = name
datas['评论'] = comment
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
将获取的用户信息存为字典。
五、将用户信息存入Excel表格

def save_datas(self, datas):
datas = DataFrame(datas) # 将字典转换为DataFrame对象
datas.to_excel('pinglun/datas.xlsx', encoding='utf-8')
print('数据写入成功')
1
2
3
4
源码如下：

import requests
import json
import pprint
from pandas import DataFrame

class WeiboSpider:
def __init__(self):
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
}
self.con_url = 'https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0'
self.urlhead = 'https://m.weibo.cn/comments/hotflow?id='
self.urlend = '&mid='

def get_link(self):
link_list = []
response = requests.get(self.con_url, headers=self.headers)
data = json.loads(response.text)
data1 = data['data']['cards']
# pprint.pprint(data1)
for card_group in data1:
try:
for mblog in card_group['card_group']:
pprint.pprint(mblog['mblog']['id'])
link_list.append(mblog['mblog']['id'])
# pprint.pprint(card_group['card_group'])
except:
pprint.pprint(card_group['mblog']['id'])
link_list.append(card_group['mblog']['id'])
self.load_page(link_list)

def load_page(self, links):
datas = {} # 存放用户ID以及评论内容
ID = [] # 存放用户ID
comment = [] # 存放用户评论
name = [] # 存放用户名

datas['用户ID'] = ID
datas['昵称'] = name
datas['评论'] = comment
self.save_datas(datas)
def save_datas(self, datas):
datas = DataFrame(datas) # 将字典转换为DataFrame对象
datas.to_excel('pinglun/datas.xlsx', encoding='utf-8')
print('数据写入成功')

if __name__ == '__main__':
crawl = WeiboSpider(http://www.my516.com)
crawl.get_link()
---------------------

python3爬取微博评论并存为xlsx的更多相关文章

Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
Python爬虫抓取微博评论
第一步:引入库 import time import base64 import rsa import binascii import requests import re from PIL impo ...
python3爬取网页
爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com' ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
python3爬取全民K歌
Python3爬取全民k歌环境 python3.5 + requests 1.通过歌曲主页链接爬取首先打开歌曲主页,打开开发者工具(F12). 选择Network,点击播放,会发现有一个请求返回的 ...
Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...

随机推荐

YTU 2416: C语言习题成绩输出
2416: C语言习题成绩输出时间限制: 1 Sec 内存限制: 128 MB 提交: 1111 解决: 417 题目描述输入n(<=10)个学生的姓名.学号和成绩,将其中不及格者的姓 ...
luogu 4720 【模板】扩展卢卡斯
题目大意: 求$C_n^m \mod p$,p不一定为质数思路: 首先可以将$p$分解为$p1^{a1}*p2^{a2}*...*pk^{ak}$,对于这些部分可以使用$CRT$合并对于每个$p_ ...
coderfoces446c (斐波那契数列)
题目描述: 区间增值,但是每一项增加的值为Fi - l + 1,F[i]为斐波那契数列,求区间和? 考虑线段树,刚开始想用斐波那契数列的前n项和,可是推不出来,考虑到每个区间的增值序列都是一段斐波那契 ...
C#即时通讯系统设计与实现（一）
最近学习了一下即时通讯,写了几天了,现在把遇到的问题和得到的心得在这里分享下. 即时通讯,C/S模式,在服务器上架设服务端,服务端是服务形式的,可以设置为开机自启动,客户端进行访问,可以安装在任意一台 ...
微信公众号开发——创建自定义菜单（PHP版）
<?php include "TokenUtil.php"; //TokenUtil::build_access_token(); $access_token = Token ...
Unix\Linux | 总结笔记 | 查看文件的方式
0 目录 vi cat head tail more less 1.vi vi编辑器的内置命令有些内置命令使用键盘组合键即可完成,有些内置命令则需要以冒号“:”开头输入.常用内置命令如下: Ctrl ...
[CF1076G] Array Game
Description Transmission Gate Solution 考虑Dp,设Dp[i] 表示当我们从前面跳跃到i时,他是必胜还是必败. 那么\(Dp[i] = Min(Dp[j], !( ...
linux自动连接校园网设置
不知道有没有人用linux的时候碰到过校园网连接后,跳不出登录界面,即使手动输入也没有作用.写一个可能可行的方法: - 首先打开控制面板选择网络代理将代理中的选项设置为估计现在就能自动弹出登录页 ...
Tree CodeForces -932D
错误记录:如下注释语句 #include<cstdio> #include<algorithm> using namespace std; typedef long long ...
Spring配置文件中未引入dubbo命名空间头部配置而引起的错误案例
问题描述: Spring配置文件中未引入dubbo命名空间的头部配置而引起项目启动时报出如下错误信息: org.springframework.beans.factory.xml.XmlBeanDef ...

python3爬取微博评论并存为xlsx

python3爬取微博评论并存为xlsx的更多相关文章

随机推荐

热门专题