一、爬取目标

大家好，我是马哥。

今天分享一期python爬虫案例，爬取目标是新浪微博的微博数据，包含：

页码, 微博id, 微博bid, 微博作者, 发布时间, 微博内容, 转发数, 评论数, 点赞数

经过分析调研，发现微博有3种访问方式，分别是：

PC端网页：https://weibo.com/
移动端：https://weibo.cn/
手机端：https://m.weibo.cn/

最终决定，通过手机端爬取。

这里，给大家分享一个爬虫小技巧。当目标网站既存在PC网页端，又有手机移动端，建议爬取移动端，原因是：移动端一般网页结构简单，并且反爬能力较弱，更方便爬虫爬取。

二、展示爬取结果

我通过爬虫代码，爬取了“唐山打人”这个关键字下的前80页微博，部分数据如下：

一共635条数据，共80页，差不多每页不到10条的数据。

三、讲解代码

首先，导入需要用到的库：

import os

import re  # 正则表达式提取文本

from jsonpath import jsonpath  # 解析json数据

import requests  # 发送请求

import pandas as pd  # 存取csv文件

import datetime  #

然后，定义一个转换时间字符串的函数，因为爬取到的时间戳是GMT格式（类似这种：Fri Jun 17 22:21:48 +0800 2022）的，需要转换成标准格式：

def trans_time(v_str):

	"""转换GMT时间为标准格式"""

	GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'

	timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)

	ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")

	return ret_time

定义一个请求头，后面发送请求的时候带上它，防止反爬：

# 请求头

headers = {

	"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",

	"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",

	"accept-encoding": "gzip, deflate, br",

}

打开chrome浏览器，按F12进入开发者模式，按照下图操作，分析出目标请求地址：

根据分析结果，编写请求代码：

# 请求地址

url = 'https://m.weibo.cn/api/container/getIndex'

# 请求参数

params = {

	"containerid": "100103type=1&q={}".format(v_keyword),

	"page_type": "searchall",

	"page": page

}

# 发送请求

r = requests.get(url, headers=headers, params=params)

直接用json格式，接收返回的数据：

# 解析json数据

cards = r.json()["data"]["cards"]

下面，通过jsonpath，快速解析出各个字段数据。

科普知识：jsonpath是一种快速解析json数据的方法，语法规则有点像xpath，这里就不展开讲了，

详细介绍，请见:

JsonPath完全介绍及详细使用教程_Sunny蔬菜小柠的博客-CSDN博客_jsonpath

下面展示部分字段解析过程：

# 转发数

reposts_count_list = jsonpath(cards, '$..mblog.reposts_count')

# 评论数

comments_count_list = jsonpath(cards, '$..mblog.comments_count')

# 点赞数

attitudes_count_list = jsonpath(cards, '$..mblog.attitudes_count')

把所有的字段的list数据，拼装成DataFrame格式数据：

# 把列表数据保存成DataFrame数据

df = pd.DataFrame(

	{

		'页码': [page] * len(id_list),

		'微博id': id_list,

		'微博bid': bid_list,

		'微博作者': author_list,

		'发布时间': time_list,

		'微博内容': text2_list,

		'转发数': reposts_count_list,

		'评论数': comments_count_list,

		'点赞数': attitudes_count_list,

	}

)

最后，通过to_csv，（记得加上参数 encoding='utf_8_sig'）把数据持久化存储下来。

需要说明的是，微博数据爬取下来后，会存在少量重复数据，所以，去重处理一下：

# 删除重复数据

df.drop_duplicates(subset=['微博bid'], inplace=True, keep='first')

# 再次保存csv文件

df.to_csv(v_weibo_file, index=False, encoding='utf_8_sig')

print('数据清洗完成')

最终，数据保存完毕。

四、同步视频

4.1 演示视频

https://www.zhihu.com/zvideo/1521809935360385024

4.2 讲解视频

https://www.zhihu.com/zvideo/1521898658362155008

五、附：完整源码

附完整源码：点击这里完整源码

我是马哥，感谢您的阅读。

【python爬虫案例】爬取微博任意搜索关键词的结果，以“唐山打人”为例的更多相关文章

简单python爬虫案例(爬取慕课网全部实战课程信息)
技术选型下载器是Requests 解析使用的是正则表达式效果图: 准备好各个包 # -*- coding: utf-8 -*- import requests #第三方下载器 import re ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...

随机推荐

‘MsBuild.exe‘ 不是内部或外部命令，也不是可运行的程序
方法一: 在系统环境变量中的path变量中添加一条路径: 32位环境 C:\Windows\Microsoft.NET\Framework\v4.0.30319 64位环境 C:\Windo ...
聊聊大模型"打字机"效果的背后技术——SSE
SSE:Server Sent Event:服务器发送事件. Server-Sent Events(SSE)是一种由服务器向客户端推送实时数据的技术.它是构建基于事件的.服务器到客户端的通信的一种方法 ...
KingbaseES 基于SQL的函数过程
什么是SQL函数? SQL函数包体是一些可执行的SQL语言.同时包含1条以上的查询,但是函数只返回最后一个查询(必须是SELECT)的结果. 除非SQL函数声明为返回void,否则最后一条语句必须是S ...
Android记账本界面实现
1 <?xml version="1.0" encoding="utf-8"?> 2 & ...
双向循环链表（DoubleLoopLinkList）
双向循环链表关于双向循环链表可以先阅读这篇文章这里就不再赘述:双向链表(DoubleLinkList) Node template<typename T> class Node { pu ...
17 JavaScript 中的call和apply
17 JavaScript 中的call和apply 对于咱们逆向工程师而言. 并不需要深入的理解call和apply的本质作用. 只需要知道这玩意执行起来的逻辑顺序是什么即可在运行时. 正常的js ...
#树链剖分，LCA#洛谷 3398 仓鼠找sugar
题目多次询问求树上的两条路径是否有公共点分析有公共点当且仅当一条路径的LCA在另一条路径上, 否则一定会形成一个环,那树剖求LCA判断一下LCA是否在另一条路径上即可代码 #include & ...
华为终端云服务牵手Likee，助力其用户与变现双增长
如今,社交媒体越来越深入人们的生活,改变了人们沟通方式的同时,也塑造着全新的人际关系和品牌形象.为了迎合用户多样化的需求和提升用户体验, 社交媒体行业的新老企业不断追逐着新技术和新功能.据调查机构Da ...
Qt 实现涂鸦板一：简易涂鸦板
新建一个Qt项目,在 .h 文件中写入 #pragma once #include <QtWidgets/QWidget> #include "ui_xuexi.h" ...
mysql 重新整理——逻辑架构[二]
前言在此简洁逻辑架构,mysql的基础逻辑架构其实和sql server很像的. 正文首先是客户端,发起了连接. 然后呢连接池后那一块,就是有分析器的那一块,那一块是干啥的呢. 其实我们写的语句呢 ...

【python爬虫案例】爬取微博任意搜索关键词的结果，以“唐山打人”为例