爬豆瓣

什么是 AJAX ?

AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。

AJAX = Asynchronous JavaScript and XML(AJAX = 异步 JavaScript 和 XML。)。

AJAX 不是新的编程语言,而是一种使用现有标准的新方法。

AJAX 是一种用于创建快速动态网页的技术。

通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

传统的网页(不使用 AJAX)如果需要更新内容,必需重载整个网页面。

动态加载的数据

通过另一个单独的请求请求到的数据

如果我们要对一个陌生的网站进行指定数据的爬取?

首先要明确爬取的数据在该网站是否为动态加载的

如何判断?

  1. 浏览器中按F12打开开发者工具,然后点击Network下的All
  2. 刷新网页,可以看到很多请求,直接找到第一个点击
  3. 然后在Response里按ctrl+F全局搜索
  4. 在全局搜索框中输入网页中的任意标题或者比较容易辨认的文字或者数字
  5. 如果可以查到,证明不是动态加载的,反之就是动态加载

是:通过浏览器抓包工具实现全局搜索,定位动态加载数据对应的数据包,从数据包中提取请求的url和请求参数。

不是:就可以直接将浏览器地址栏中的网址作为我们requests请求的url。

首先我们通过浏览器随机进入豆瓣主页的一个分类,下面我这个网址是代表着(热门电视剧)分类:

https://movie.douban.com/tv/#!type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

我们往下翻,发现没有下一页,而是四个字:加载更多,我们点击它后,又加载出了一些电视剧,那我们观察一下此时网页的url变成了:

https://movie.douban.com/tv/#!type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20

变化就在于最后的start=0变成了start=20,而且整张页面并没有重新加载,页面最下方就加载出了数据,那么我们可以判断这些新加载出来的数据肯定是AJAX动态加载的了。

上面说了动态加载的数据是另一个单独的请求请求到的数据,现在我们就把它找出来。

  1. 在浏览器中按F12打开开发者工具
  2. 点击Network下的XHR(XHR就是 XMLHttpRequest 对象,也就是ajax功能实现所依赖的对象),这样我们就能看到AJAX发出的请求
  3. 点击第二行的clear(一个小圆圈中间有个反斜杠)方便我们观察在点击加载更多后发出了什么请求

果然我们发现了一个请求,点击它,可以看到里面有Headers和Response

Response下返回的是json数据,我们打开json在线解析工具https://www.json.cn/,然后解析,会发现这些数据就是我们点击加载更多后新加载出来的数据

而我们观察一下page_limit:和page_start:

page_limit=20&page_start=0(页面初始时),此时页面共有20部电视剧

page_limit=20&page_start=20(第一次点击加载更多时),此时页面共有40部电视剧

page_limit=20&page_start=40(第二次点击加载更多时),此时页面共有60部电视剧

由此得出结论,从page_start开始,加载page_limit个电视剧

而Headers下有

  1. type:
    tv
  2. tag:
    热门
  3. sort:
    recommend
  4. page_limit:
    20
  5. page_start:
    20

以及Request URL,Request URL则包含着这些参数

那我们就直接请求去掉参数的Request URL,然后请求时再把参数加上,这样参数可以动态化。

以下为完整代码:

import requests

url = 'https://movie.douban.com/j/search_subjects'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'
}
page_start = input('您想从第几部电影开始获取:')
page_limit = input('您想一次获取多少部电影:')
#url里携带的参数
dic = {
'type': 'tv',
'tag': '热门',
'sort': 'recommend',
'page_limit': page_limit,
'page_start': page_start,
}
response = requests.get(url=url,params=dic,headers=headers)
page_text = response.json()#json返回的是序列化好的实例对象
print(page_text)#page_text是一个字典,数据在字典键值对中的值里面 for dic in page_text['subjects']:
_title = dic['title']
_rate = dic['rate']
print(_title+_rate)

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20

2_爬豆瓣电影_ajax动态加载的更多相关文章

  1. 爬虫--selenuim和phantonJs处理网页动态加载数据的爬取

    1.谷歌浏览器的使用 下载谷歌浏览器 安装谷歌访问助手 终于用上谷歌浏览器了.....激动 问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 二 ...

  2. selenuim和phantonJs处理网页动态加载数据的爬取

    一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -* ...

  3. 爬虫开发6.selenuim和phantonJs处理网页动态加载数据的爬取

    selenuim和phantonJs处理网页动态加载数据的爬取阅读量: 1203 动态数据加载处理 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/ ...

  4. 6-----selenuim和phantonJs处理网页动态加载数据的爬取

    动态数据加载处理 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding ...

  5. 爬虫——爬取Ajax动态加载网页

    常见的反爬机制及处理方式 1.Headers反爬虫 :Cookie.Referer.User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2.IP限制 ...

  6. 爬虫再探实战(三)———爬取动态加载页面——selenium

    自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...

  7. Scrapy 框架 使用 selenium 爬取动态加载内容

    使用 selenium 爬取动态加载内容 开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...

  8. Python+Selenium爬取动态加载页面(2)

    注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...

  9. Python+Selenium爬取动态加载页面(1)

    注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...

随机推荐

  1. vue2,vue指令和选项

    vue特点 mvvm框架 响应式(声明式) 组件化(支持自定义组件) 丰富的指令(Dom功能的抽象) 基于选项(template,data,computed,watch,methods) vue文档集 ...

  2. led跑马灯(模糊时钟ambiguous color,非法字符 non printable character,寄存器初值,计数器计数注意事项)

    1.设计定义 让8个led以100ns的速度循环闪烁. 2.设计输入 循环闪烁,还是周期问题,用时钟驱动,所以需要一个时钟信号clk.再给一个复位输入reset,八个输出led信号. 每100ns只有 ...

  3. 关于分组查询的一道sql题

    背景:想做一道sql的测试题,题目为: 按照角色分组算出每个角色按有办公室和没办公室的统计人数(列出角色,数量,有无办公室,注意一个角色如果部分有办公室,部分没有需分开统计) 如下,构造测试环境与对应 ...

  4. range函数的使用

    循环结构终于会出现了 这章讲完差不多读者可以实现大部分程序了 range()函数 用于生成一个整数序列 内置函数:前面不需要加任何前缀,可以直接使用的函数 创建range对象的三种方式 range(s ...

  5. 常用的函数式接口_Consumer接口和常用的函数式接口_Consumer接口的默认方法andThen

    Consumer接口 java,util.function.Consumer接口则正好与Supplier接口相反,它不是生产一个数据,而是消费一个数据,其数据类型由泛型决定 抽象方法:accept C ...

  6. Cayley 公式的另一种证明

    Cayley 公式的一些广为人知的证法: Prufer 序列 Matrix-Tree 定理 然而我都不会 233,所以下面说一个生成函数角度的证法 . 我们知道 \(n\) 个节点的有标号无根树有 \ ...

  7. iOS自动化打包 Jenkins+Gitlab+Fastlane+蒲公英+钉钉

    前言 这两天花时间整理一下自动化打包的整套流程,现在iOS端的整套流程是没有问题了,这个过程中踩得坑也的确是特别多,所以这周末把整个流程整理一下,总结出来这篇文章,希望能对有需要的小伙伴有点点帮助. ...

  8. Vue ref属性 && props配置项

    1 // # ref属性: 2 // # 1.用来给元素或者子组件注册引用信息(id的替代者) 3 // # 2.应用在html标签上获取的是真实的DOM元素,应用在组件标签上是组件实例对象(vc) ...

  9. 使用.NET简单实现一个Redis的高性能克隆版(一)

    译者注 该原文是Ayende Rahien大佬业余自己在使用C# 和 .NET构建一个简单.高性能兼容Redis协议的数据库的经历. 首先这个"Redis"是非常简单的实现,但是他 ...

  10. Python 爬取汽车之家口碑数据

    本文仅供学习交流使用,如侵立删!联系方式见文末 汽车之家口碑数据 2021.8.3 更新 增加用户信息参数.认证车辆信息等 2021.3.24 更新 更新最新数据接口 2020.12.25 更新 添加 ...