2_爬豆瓣电影_ajax动态加载
爬豆瓣
什么是 AJAX ?
AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。
AJAX = Asynchronous JavaScript and XML(AJAX = 异步 JavaScript 和 XML。)。
AJAX 不是新的编程语言,而是一种使用现有标准的新方法。
AJAX 是一种用于创建快速动态网页的技术。
通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
传统的网页(不使用 AJAX)如果需要更新内容,必需重载整个网页面。
动态加载的数据
通过另一个单独的请求请求到的数据
如果我们要对一个陌生的网站进行指定数据的爬取?
首先要明确爬取的数据在该网站是否为动态加载的
如何判断?
- 浏览器中按F12打开开发者工具,然后点击Network下的All
- 刷新网页,可以看到很多请求,直接找到第一个点击
- 然后在Response里按ctrl+F全局搜索
- 在全局搜索框中输入网页中的任意标题或者比较容易辨认的文字或者数字
- 如果可以查到,证明不是动态加载的,反之就是动态加载
是:通过浏览器抓包工具实现全局搜索,定位动态加载数据对应的数据包,从数据包中提取请求的url和请求参数。
不是:就可以直接将浏览器地址栏中的网址作为我们requests请求的url。
首先我们通过浏览器随机进入豆瓣主页的一个分类,下面我这个网址是代表着(热门电视剧)分类:
https://movie.douban.com/tv/#!type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0
我们往下翻,发现没有下一页,而是四个字:加载更多,我们点击它后,又加载出了一些电视剧,那我们观察一下此时网页的url变成了:
https://movie.douban.com/tv/#!type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20
变化就在于最后的start=0变成了start=20,而且整张页面并没有重新加载,页面最下方就加载出了数据,那么我们可以判断这些新加载出来的数据肯定是AJAX动态加载的了。
上面说了动态加载的数据是另一个单独的请求请求到的数据,现在我们就把它找出来。
- 在浏览器中按F12打开开发者工具
- 点击Network下的XHR(XHR就是 XMLHttpRequest 对象,也就是ajax功能实现所依赖的对象),这样我们就能看到AJAX发出的请求
- 点击第二行的clear(一个小圆圈中间有个反斜杠)方便我们观察在点击加载更多后发出了什么请求
果然我们发现了一个请求,点击它,可以看到里面有Headers和Response
Response下返回的是json数据,我们打开json在线解析工具https://www.json.cn/,然后解析,会发现这些数据就是我们点击加载更多后新加载出来的数据
而我们观察一下page_limit:和page_start:
page_limit=20&page_start=0(页面初始时),此时页面共有20部电视剧
page_limit=20&page_start=20(第一次点击加载更多时),此时页面共有40部电视剧
page_limit=20&page_start=40(第二次点击加载更多时),此时页面共有60部电视剧
由此得出结论,从page_start开始,加载page_limit个电视剧
而Headers下有
- type:tv
- tag:热门
- sort:recommend
- page_limit:20
- page_start:20
以及Request URL,Request URL则包含着这些参数
那我们就直接请求去掉参数的Request URL,然后请求时再把参数加上,这样参数可以动态化。
以下为完整代码:
import requests url = 'https://movie.douban.com/j/search_subjects'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'
}
page_start = input('您想从第几部电影开始获取:')
page_limit = input('您想一次获取多少部电影:')
#url里携带的参数
dic = {
'type': 'tv',
'tag': '热门',
'sort': 'recommend',
'page_limit': page_limit,
'page_start': page_start,
}
response = requests.get(url=url,params=dic,headers=headers)
page_text = response.json()#json返回的是序列化好的实例对象
print(page_text)#page_text是一个字典,数据在字典键值对中的值里面 for dic in page_text['subjects']:
_title = dic['title']
_rate = dic['rate']
print(_title+_rate)
https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20
2_爬豆瓣电影_ajax动态加载的更多相关文章
- 爬虫--selenuim和phantonJs处理网页动态加载数据的爬取
1.谷歌浏览器的使用 下载谷歌浏览器 安装谷歌访问助手 终于用上谷歌浏览器了.....激动 问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 二 ...
- selenuim和phantonJs处理网页动态加载数据的爬取
一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -* ...
- 爬虫开发6.selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取阅读量: 1203 动态数据加载处理 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/ ...
- 6-----selenuim和phantonJs处理网页动态加载数据的爬取
动态数据加载处理 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding ...
- 爬虫——爬取Ajax动态加载网页
常见的反爬机制及处理方式 1.Headers反爬虫 :Cookie.Referer.User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2.IP限制 ...
- 爬虫再探实战(三)———爬取动态加载页面——selenium
自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...
- Scrapy 框架 使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容 开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
- Python+Selenium爬取动态加载页面(2)
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
- Python+Selenium爬取动态加载页面(1)
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
随机推荐
- Java-类与对象-多态
Java类与对象-多态 多态:类与对象三大特征之一 什么是多态? 同类型的对象,执行同一个行为,会表现出不同的行为特征. 多态的形式 1.父类类型 对象名称 = new 子类构造器(); 2.接口 对 ...
- zabbix 6.2.0部署
zabbix 6.2官方部署文档 https://www.zabbix.com/documentation/6.2/en/manual/installation/install下载zabbix6.2安 ...
- 4G巴歇尔槽流量采集网关
首先向大家展示下拓扑图: 金鸽科技R10物联网网关,带有一个RS485口可以采集巴歇尔槽的液位状态,还提供一个网口用于给摄像头和现场其他的网络设备提供网络传输通道!R10A内置了巴歇尔槽液位换算成流量 ...
- php rand()和mt_ran(),还有随机数生成器
PHP 的 rand() 函数默认使用 libc 随机数发生器.mt_rand() 函数是非正式用来替换它的.该函数用了 Mersenne Twister 中已知的特性作为随机数发生器,它可以产生随机 ...
- Vue 路由的一些复杂配置
1 # 一.路由的props参数 2 export default new VueRouter({ 3 routes:[ 4 { 5 name:'guanyu', // 命名路由 6 path:'/a ...
- 5.26 NOI 模拟
\(T1\)石子与HH与HHの取 博弈是不可能会的 \(c_i\)相等,比较显然的\(Nim,\)直接前缀异或求一下 \(a_i=1,\)区间长度对\(2\)取模 结论\(:\)黑色石子严格大于白色个 ...
- 出票系统:根据淡旺季的月份和年龄,打印票价[课后练习] 出票系统:根据淡旺季的月份和年龄,打印票价[课后练习] 4 10旺季: 4 10旺季: 成人(18-60) : 60 成人(18-60):60 儿童(<18) :半价 儿童(<18):半价 老人(>60) :1/3 老人(>60):1/3 淡季: 淡季: 成人: 40 成人:40 其他: 20 其他:20
用if适合新手练习 package LianXiTi;import java.util.Scanner;public class first2 {// 出票系统:根据淡旺季的月份和年龄,打印票价[课后 ...
- 逐层阅读 research paper:Dmitry Berenson 的方法论
本博客翻译了 这篇文章,包含很实用的 读论文的方法论. 读论文的四个 layers 在读论文之前,要首先搞清楚,自己读论文的目的是什么,或者 希望读到什么程度. 下表列出了常见的读论文目的,以及相应的 ...
- HTML短链接
短链接跳转方法 新建一个目录名称就是短链接字符列如:1 创建一个index.html文件里面添加代码如下 <script type="text/javascript"> ...
- PHP代码审计学习-php安全基础
PHP代码审计-php安全基础 php.ini选项 register_globals php>=4.2.0,php.ini 的 register_globals 选项的默认值预设为 Off,当 ...