Ajax爬取动态数据和HTTPS自动默认证书

Ajax数据爬取

　　在spider爬取数据的过程中，有些网页的数据是利用Ajax动态加载出来的，所以，在网页源代码中可能不会看到这一部分的数据，因此，我们需要使用另外的方式进行数据多爬取。

　　以豆瓣电影的网页源码获取为例 https://movie.douban.com/ ，我们查看网页源代码，会发现网页中所包含的数据根本不在源代码中，比如查询囧妈，会显示查询结果为0。这时候我们就要注意他可能是使用Ajax进行动态加载的数据。

　　F12进入开发者工具，按照下图步骤进行查看

　　双击第3步骤中的链接，会发现有一些tag标签，最后会发现有一些数据包含其中。

　　有数据的这些连接就是Ajax动态加载的结果了。下面有一个小例子进行简单的运用。

 1 '''

 2 @Description: 爬取异步加载数据——以豆瓣网为例

 3 @Version: 1.0

 4 @Autor: Montoin Yan

 5 @Date: 2020-02-01 18:18:05

 6 @LastEditors  : Montoin Yan

 7 @LastEditTime : 2020-02-03 18:50:01

 8 '''

 9 from urllib import parse

10 from urllib.request import urlopen,Request

11 import simplejson

12 import random

13

14 #设置多个请求头，防止被反扒措施进行拦截

15 ua_list = [

16     "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",

17     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",

18     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",

19     "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"

20 ]

21 #随机pick one

22 ua = random.choice(ua_list)

23

24 #以https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=10&page_start=0 为例

25 #将链接进行分割，将Ajax需要传递的参数存储到字典中

26 url = "https://movie.douban.com/j/search_subjects"

27 d = {

28     'type':'movie',

29     'tag':'热门',

30     'page_limit':'10',

31     'page_start':'0'

32 }

33 request = Request('{}?{}'.format(url,parse.urlencode(d)),headers={

34     'User-agent':ua

35 })

36

37 with urlopen(request) as response:

38     subjects = simplejson.loads(response.read())

39     print(len(subjects['subjects']))

40     s = subjects['subjects']

41     for i in s:

42         print(i)

　　结果可以参照以下内容：

HTTPS跳过证书验证

　　引用python自带的ssl库，进行不信任证书的忽略，以12306为例。

 1 '''

 2 @Description: HTTPS利用SSL库进行默认信任证书的模拟

 3 @Version: 1.0

 4 @Autor: Montoin Yan

 5 @Date: 2020-02-03 20:18:52

 6 @LastEditors  : Montoin Yan

 7 @LastEditTime : 2020-02-03 20:32:47

 8 '''

 9

10 from urllib.request import urlopen,Request

11 import random

12 import ssl

13

14 url = "http://www.12306.cn/mormhweb/"

15 ua_list = [

16     "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",

17     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",

18     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",

19     "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"

20 ]

21 #随机pick one

22 ua = random.choice(ua_list)

23 request = Request(url,headers={

24     'User-agent':ua

25 })

26

27 #忽略不信任的证书

28 context = ssl._create_unverified_context()

29

30 #利用urlopen的最后一个参数，强调上下文使得在链接传递的时候忽略证书

31 with urlopen(request,context=context) as response:

32     print(response._method)

33     print(response.read())

Ajax爬取动态数据和HTTPS自动默认证书的更多相关文章

Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装下载golang软件解压golang 配置golang 重新导入配置 chromedp框架的使用实际的代 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
python 爬取动态数据
按照:https://dryscrape.readthedocs.io/en/latest/installation.html 安装dryscrape 以下是简单实现 import dryscrape ...
Python 爬虫实例（8）—— 爬取动态页面
今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图源代码: #-*-coding:utf-8-*- import time from ...
吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
1.下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next 把bin路径添加 ...
Python爬虫实战（一）使用urllib库爬取拉勾网数据
本笔记写于2020年2月4日.Python版本为3.7.4,编辑器是VS code 主要参考资料有: B站视频av44518113 Python官方文档 PS:如果笔记中有任何错误,欢迎在评论中指出, ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
使用ajax爬取网站图片()
以下内容转载自:https://www.makcyun.top/web_scraping_withpython4.html 文章关于网站使用Ajaxj技术加载页面数据,进行爬取讲的很详细大致步骤如下 ...

随机推荐

全卷积网络Fully Convolutional Networks (FCN)实战
全卷积网络Fully Convolutional Networks (FCN)实战使用图像中的每个像素进行类别预测的语义分割.全卷积网络(FCN)使用卷积神经网络将图像像素转换为像素类别.与之前介绍 ...
node和gulp版本的坑
现在node版本最新的稳定版在14+ 然后我在接手项目的时候使用gulp打包,怎么也打包不了,这个问题纠结了挺久,然后百度了下,发现版本的问题 node 12+ 以上的版本不兼容 gulp 3的版本 ...
并发王者课-铂金1：探本溯源-为何说Lock接口是Java中锁的基础
欢迎来到<并发王者课>,本文是该系列文章中的第14篇. 在黄金系列中,我们介绍了并发中一些问题,比如死锁.活锁.线程饥饿等问题.在并发编程中,这些问题无疑都是需要解决的.所以,在铂金系列文 ...
【NX二次开发】打开信息窗口UF_UI_open_listing_window
头文件:uf_ui_ugopen.h函数名:UF_UI_open_listing_window 函数说明:打开信息窗口测试代码: #include <uf.h> #include < ...
java中的关键字volatile
1.volatile简介 volatile作为java中的关键词之一,用以声明变量的值可能随时会被别的线程修改,使用volatile修饰的变量会强制将修改的值立即写入主存,主存中值的更新会使缓存中的值 ...
Pytest学习笔记3-fixture
前言个人认为,fixture是pytest最精髓的地方,也是学习pytest必会的知识点. fixture用途用于执行测试前后的初始化操作,比如打开浏览器.准备测试数据.清除之前的测试数据等等用 ...
树莓派FRP内网穿透及自启动
内网穿透的步骤和文件存档实验室在远方部署了电脑主机来采集数据和图片,每次去调试会很麻烦,因而使用FRP内网穿透使得我们可以在实验室访问主机. 主要功能实现远程可访问和开机自启FRP程序服务安装和 ...
Electron-Vite2-MacUI桌面管理框架|electron13+vue3.x仿mac桌面UI
基于vue3.0.11+electron13仿制macOS桌面UI管理系统ElectronVue3MacUI. 前段时间有分享一个vue3结合electron12开发后台管理系统项目.今天要分享的是最 ...
第11章 PADS功能使用技巧（2）-最全面
原文链接点击这里七.Flood与Hatch有什么区别? 我们先看看PADS Layout Help 文档是怎么说的,如下图所示: 从检索到的帮助信息,我们可以得到Hatch与Pour的区别,原文如下 ...
入“坑”mybatis后如何挣脱？
既然已经入"坑"mybatis了,你竟然还想着挣脱,我是不会让你挣脱的~ 当然我有一个算是挣脱的办法.那就是把它学会.理解透.这样我们也就不用在坑里一直徘徊,也算得上是一种挣脱吧! ...

Ajax爬取动态数据和HTTPS自动默认证书

Ajax爬取动态数据和HTTPS自动默认证书的更多相关文章

随机推荐

热门专题