第14.7节 Python模拟浏览器访问实现http报文体压缩传输

一、引言

在《第14.6节 Python模拟浏览器访问网页的实现代码》介绍了使用urllib包的request模块访问网页的方法。但上节特别说明http报文头Accept-Encoding最好不设置，否则服务端会根据该字段及服务端的情况采用对应方式压缩http报文体，如果爬虫应用没有解压支持会导致应用无法识别收到的响应报文体。本节简单介绍一下怎么处理响应报文体的压缩。

在爬虫爬取网页时，如果在请求头中传递了“‘Accept-Encoding’:‘gzip’”信息则服务器会采用gzip压缩报文，此时客户端必须支持对报文解压缩才能识别报文。解gzip压缩需要安装gzip模块，并在服务器返回http应答报文时判断服务端是否压缩了报文，如果压缩了就进行解压处理，否则直接读取。

二、对HTTP响应报文的报文体支持压缩处理的爬虫处理步骤

要进行响应HTTP报文体的压缩，爬虫应用需要进行如下处理：

1、在请求报文的http报文头中的Accept-Encoding中设置能支持的压缩格式；

2、读取响应报文后要判断响应报文头中的Content-Encoding的返回值的压缩格式；

3、调用对应的解压方法进行报文体解压。

三、案例

1、导入相关模块:

import urllib.request

from io import BytesIO

import gzip

2、构造支持压缩的请求报文头

本节在《第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头》的mkhead函数的基础上，增加一个参数来确认是否需要处理压缩报文，如果是则通过http报文头的Accept-Encoding参数向服务器告知支持的压缩格式，否则不设置压缩格式支持的请求报文头Accept-Encoding参数，代码如下：

  def mkhead(NeedEncoding=False):

    if NeedEncoding:

        header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

        'Accept-Encoding':'gzip',

        'Accept-Language':'zh-CN,zh;q=0.9',

        'Connection':'keep-alive',

        'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822;......',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

    else:

        header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

        'Accept-Language':'zh-CN,zh;q=0.9',

        'Connection':'keep-alive',

        'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822;......',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

    return header

3、读取响应报文后取响应报文头中的Content-Encoding的返回值的压缩格式

 req = urllib.request.Request(url=site,headers=header)

   sitersp = urllib.request.urlopen(req)

   Encoding = sitersp.info().get('Content-Encoding')  #取响应报文体的压缩格式

4、根据压缩对应情况进行处理后返回报文体的内容，如果是gzip压缩就调用gzip解压，如果未压缩就不进行解压处理，否则报错返回：

 if  Encoding== 'gzip':  #判断压缩格式是否gzip格式

        print(" Encoding== 'gzip'")

        buf = BytesIO(sitersp.read())

        fzip = gzip.GzipFile(fileobj=buf)

        return fzip.read().decode()

    elif not Encoding:  #是否没有压缩报文体

        print(" Encoding==None")

        return sitersp.read().decode()

    else:

        print(f"Content-Encoding={Encoding},can't unzip")

        return None

四、案例完整代码

#读取压缩http响应报文

import urllib.request

from io import BytesIO

import gzip

def mkhead(NeedEncoding=False):

    if NeedEncoding:

        header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

        'Accept-Encoding':'gzip',

        'Accept-Language':'zh-CN,zh;q=0.9',

        'Connection':'keep-alive',

        'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822;...... ',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

    else:

        header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

        'Accept-Language':'zh-CN,zh;q=0.9',

        'Connection':'keep-alive',

        'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822;......',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

    return header 

def readweb(site):

    header = mkhead(True)

    try:

        req = urllib.request.Request(url=site,headers=header)

        sitersp = urllib.request.urlopen(req)

    except Exception as e:

        print(e)

        return None

    Encoding = sitersp.info().get('Content-Encoding')

    if  Encoding== 'gzip':

        print(" Encoding== 'gzip'")

        buf = BytesIO(sitersp.read())

        fzip = gzip.GzipFile(fileobj=buf)

        return fzip.read().decode()

    elif not Encoding:

        print(" Encoding==None")

        return sitersp.read().decode()

    else:

        print(f"Content-Encoding={Encoding},can't unzip")

        return None

readweb(r'https://blog.csdn.net/LaoYuanPython/article/details/100585881 ')[0:100]

执行结果：

>>> readweb(r'https://blog.csdn.net/LaoYuanPython/article/details/100585881 ')[0:100]

 Encoding== 'gzip'

'<!DOCTYPE html>\n<html lang="zh-CN">\n<head>\n    <meta charset="UTF-8">\n    <link rel="canonical" href'

>>>

注意：代码中的cookie设置可以不要，那就是匿名爬取网页，如果需要非匿名则需要根据自己浏览器的cookie来设置。

本节介绍了使用urllib包的request模块读取网页并支持解压的实现过程，以支持网页内容的压缩传输。

老猿Python，跟老猿学Python!

博客地址：https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持，点赞、评论和加关注！谢谢！

第14.7节 Python模拟浏览器访问实现http报文体压缩传输的更多相关文章

python 模拟浏览器
想用python模拟浏览器访问web的方法测试些东西,有哪几种方法呢? 一类:单纯的访问web,不解析其js,css等. 1. urllib2 #-*- coding:utf-8 -* import ...
第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节使用 ...
第14.4节使用IE浏览器获取网站访问的http信息
上节<第14.3节使用google浏览器获取网站访问的http信息>中介绍了使用Google浏览器怎么获取网站访问的http相关报文信息,本节介绍IE浏览器中怎么获取相关信息.以上节为基 ...
第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问
一. 引言在<第14.8节 Python中使用BeautifulSoup加载HTML报文>中介绍使用BeautifulSoup的安装.导入和创建对象的过程,本节介绍导入后利用Beauti ...
第14.12节 Python中使用BeautifulSoup解析http报文：使用select方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>和<第14.11节 Python中使用BeautifulSo ...
第14.11节 Python中使用BeautifulSoup解析http报文：使用查找方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>介绍了BeautifulSoup对象的主要属性,通过这些属性可以访 ...
第14.8节 Python中使用BeautifulSoup加载HTML报文
一. 引言 BeautifulSoup是一个三方模块bs4中提供的进行HTML解析的类,可以认为是一个HTML解析工具箱,对HTML报文中的标签具有比较好的容错识别功能.阅读本节需要了解html相关的 ...
php -- php模拟浏览器访问网址
目前我所了解到的在php后台中,用php模拟浏览器访问网址的方法有两种: 第一种:模拟GET请求:file_get_contents($url) 通过php内置的 file_get_contents ...

随机推荐

RPA小结
1--怎么理解RPA? 1)RPA就是机器人流程自动化,根据业务的固定规则,自动完成一些任务(如数据抓取,信息录入,数据处理,自动化运维等),替代人类的重复劳动, 但RPA的发展已经不仅仅满足于此,正 ...
Spider_基础总结1_Request(get/post__url传参_headers_timeout)+Reponse
网络爬虫(一) 一.简介 1.robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow: ...
【JVM第五篇--运行时数据区】方法区
写在前面的话:本文是在观看尚硅谷JVM教程后,整理的学习笔记.其观看地址如下:尚硅谷2020最新版宋红康JVM教程一.栈.堆.方法区的关系虚拟机运行时的数据区如下所示: 即方法区是属于线程共享的内 ...
TTL门和MOS门悬空输入的处理
引言本来是数字电路学习时很重要的考点,但是总容易忘掉,所以记录一下~ 内容 TTL TTL电路中的TTL是Transistor-Transistor-Logic的英文缩写,指的是晶体管逻辑电路,即T ...
基于Docker UI 配置ceph集群
前言前一篇介绍了docker在命令行下面进行的ceph部署,本篇用docker的UI进行ceph的部署,目前来说市面上还没有一款能够比较简单就能直接在OS上面去部署Ceph的管理平台,这是因为OS的 ...
配置xenserver本地存储
查询磁盘对应关系: [root@xenserver-eqtwbths ~]# ll /dev/disk/by-id/ total 0 lrwxrwxrwx 1 root root 9 Jun 5 13 ...
医学AI论文解读 |Circulation|2018| 超声心动图的全自动检测在临床上的应用
文章来自微信公众号:机器学习炼丹术.号主炼丹兄WX:cyx645016617.文章有问题或者想交流的话欢迎- 参考目录: @ 目录 0 论文 1 概述 2 pipeline 3 技术细节 3.1 预处 ...
linux打包压缩解压tar常归操作
tar 打包 tar -cvf 打包后路径和文件名.tar 需要打包的路径和文件压缩 tar -zcvf 打包后路径和文件名.tar.gz 需要打包的路径和文件解压 tar -xvf 包名 -C 路径 ...
Hadoop框架：MapReduce基本原理和入门案例
本文源码:GitHub·点这里 || GitEE·点这里一.MapReduce概述 1.基本概念 Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行 ...
Edison：FL Studio中的常用音频录制与剪辑插件
Edison是FL Studio中的一个完全集成的音频编辑和录制工具.Edison加载到效果插槽(在任何调音台音轨中),然后录制或播放该位置的音频.您可以在任意数量的混音器轨道或效果插槽中根据需要加载 ...

第14.7节 Python模拟浏览器访问实现http报文体压缩传输

第14.7节 Python模拟浏览器访问实现http报文体压缩传输的更多相关文章

随机推荐

热门专题