python爬取动态网页数据，详解

原理：动态网页，即用js代码实现动态加载数据，就是可以根据用户的行为，自动访问服务器请求数据，重点就是：请求数据，那么怎么用python获取这个数据了？

浏览器请求数据方式：浏览器向服务器的api（例如这样的字符串：http://api.qingyunke.com/api.php?key=free&appid=0&msg=关键词）发送请求，服务器返回json，然后解析该json，就得到请求数据了

同理：用Python向api发送请求，获得json，解析json，得到数据

即关键在于得到api

api获取：

　　1.用浏览器打开目标网页eg：https://www.zhihu.com/topic/19561718/top-answers

将鼠标放在上图图示位置，将显示该用户的一些信息，这些信息就是动态加载出来的。当鼠标放在该位置时，浏览器向服务器api发出请求，得到json，再解析便得到下图所示数据

在该网页反键选择检查源代码，按图示点开选项：

然后将鼠标移动到网页界面用户上（箭头位置），会发现右边多出两个请求信息，如图：

点击下面一个，红色方框内的链接，就是要找的api接口

直接用浏览器打开该api即可看到json，如下图

下面用python代码请求该api并解析

import requests
import json
#api
url='https://www.zhihu.com/api/v4/members/wisphilo?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics'

#header的目的是模拟请求，因为该api设置了反爬取
header={
	'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

doc=requests.get(url,headers=header)#发起请求
doc.encoding='utf-8'#设置编码为utf-8

data=json.loads(doc.text)#将json字符串转为json

#根据位置查找数据
print('用户名：',data.get('name'))
print('个人描述：',data.get('headline'))
print('职务：'+data.get('employments')[0].get('job').get('name'))
print('回答：',data.get('answer_count'))
print('文章：',data.get('articles_count'))
print('关注者：',data.get('follower_count'))

　　另外查找数据最好用在线json格式化再查找，不然很难看出自己要的数据在哪eg：

一般网页的api都有规律可寻，用for循环控制变换字符即可实现自动爬取

上述代码运行结果：

和该界面对照

以上

python爬取动态网页数据，详解的更多相关文章

Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
利用selenium并使用gevent爬取动态网页数据
首先要下载相应的库 gevent协程库:pip install gevent selenium模拟浏览器访问库:pip install selenium selenium库相应驱动配置 https: ...
python爬取动态网页2，从JavaScript文件读取内容
import requests import json head = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...

随机推荐

c++ map容器使用及问题
C++ STL库map容器一些总结,欢迎大家指正补充. map容器由两部分组成,分别为关键字(Key)和值(Value),关键字和值都可以声明为任意类型的数据,注意:关键字唯一,不能重复!使用需包含头 ...
Matplotlib：绘图和可视化
Matplotlib:绘图和可视化简介简单绘制线形图 plot函数支持图类型保存图表一 .简介 Matplotlib是一个强大的Python绘图和数据可视化的工具包.数据可视化也是我们数据分 ...
javascript匿名函数自执行 (function(window,document,undefined){})(window,document);
使用匿名自执行函数的作用: (function(window,document,undefined){})(window,document); 1.首先匿名函数 (function(){}) (); ...
SAS学习笔记61 set和union的区别
好久没发博客了,水一篇,直接来代码 set的结果如下 union的结果如下
JMeter中文乱码的解决
对于JMeter中文乱码分为两部分: 1.请求(request):由于引用了csv文件当csv文件编码与JMeter不统一可能造成服务器收到数据的中文乱码 2.返回(response):由于服务器返回 ...
python爬虫-《笔趣看》网小说《悟空看私聊》
小编是个爱看小说的人,哈哈 # -*- coding:UTF-8 -*- ''' 类说明:下载<笔趣看>网小说<悟空看私聊> ''' from bs4 import Beaut ...
BZOJ4141 THUSC2013 魔塔贪心
没得传送门考虑当\(Atk\)增大时,\(Def\)一定越来越没用,因为回合数在变少.所以考虑从小到大枚举\(Atk\)然后双指针计算. 设\(f_i(x)\)表示在\(Atk = i\)时,\(D ...
Thomas Brinkhoff 基于路网的移动对象生成器的使用[第二版]
Thomas Brinkhoff 基于路网的移动对象生成器的使用 Thomas Brinkhoff 基于路网的移动对象生成器的使用相关操作的说明相关文件的说明运行导入eclipse后运行时选择 ...
Mac 磁盘分区格式
Mac 磁盘分区格式来源 https://www.chadou.me/p/190 参考文章 macOS磁盘工具帮助在Mac系统中抹掉(格式化)磁盘的时候,要求选择分区方案,包括GUID分区图.主引 ...
[转]关于ORA-00979 不是 GROUP BY 表达式错误的解释
转自:https://www.cnblogs.com/vigarbuaa/archive/2012/06/25/2561225.html ORA-00979 不是 GROUP BY 表达式”这个错误, ...

python爬取动态网页数据，详解

python爬取动态网页数据，详解的更多相关文章

随机推荐

热门专题