1.爬虫 urlib库讲解 Handler高级用法

在前面我们总结了urllib库的 urlopen()和Request()方法的使用，在这一小节我们要使用相关的Handler来实现代理、cookies等功能。

写在前面：

urlopen()方法不支持代理、cookie等其它的HTTP/GTTPS高级功能，所以要支持这些功能：

使用相关的Handler处理器来创建特定功能的处理器对象
然后调用urllib.request.build_opener()方法使用这些处理器对象，创建自己的opener对象
使用自定义的opener对象，调用open()方法发送请求

*如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener()将自定义的opener对象定义为全局的opener，表示如果之后凡是调用urlopen(),都将使用这个opener

简单介绍下request模块里的相关的Handler类:（我们暂且只会用到3种，需求够了就ok）

ProxyHandler：用于设置代理，默认代理为空
HTTPCookieProcessor：用于处理Cookies
HTTPBasicAuthHandler：用于管理验证，如果一个链接打开时需要认证，那么可以用它来解决认证问题

0.代理服务器的设置

import urllib.request

import urllib.error

proxy_handler = urllib.request.ProxyHandler({

    'http': 'http://127.0.0.1:9743',

    'https': 'https://127.0.0.1:9743'

})

opener = urllib.request.build_opener(proxy_handler)

try:

    response = opener.open('http://httpbin.org/get')

except URLError as e:

    print(response.read())

当然，我们可以创建全局默认的opener对象，调用urlopen()来发送请求：

import urllib.request

proxy_handler = urllib.request.ProxyHandler({

    'http': 'http://127.0.0.1:9743',

    'https': 'https://127.0.0.1:9743'

})

opener = urllib.request.build_opener(proxy_handler)

urllib.request.install_opener(opener) #创建全局默认的opener对象

response = urllib.request.urlopen('http://httpbin.org/get')

print(response.read().decode('utf-8'))

1.cookie

简单说一说cookie相关的知识：cookies库，该模块(简单来说，一个.py文件就可以称作一个模块)主要的对象有CookJar、FileCookJar、MozillaCookJar、LwPCookJar.

*其实在大多数的情况下，我们只使用CookJar()，如果需要和本地文件交互，就要用MozillaCookJar()或者LwPCookJar().

*CookJar：管理HTTP、cookie值，存储HTTP请求生成的Cookie.向传出的Http请求添加cookie对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后Cookies也会丢失。

（以百度为例，我们将网站的cookies获取下来并以文件格式保存再读取并利用）

将网站的cookie获取下来

import http.cookiejar, urllib.request

cookie = http.cookiejar.CookieJar()

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

response = opener.open('http://www.baidu.com')

for item in cookie:

    print(item.name+"="+item.value)

结果如下：

BAIDUID=D45F880AC3EE43897AC101C8E9E48006:FG=1

BIDUPSID=D45F880AC3EE43897AC101C8E9E48006

H_PS_PSSID=1434_21081_28768_28724_28558_28832_28585_26350_28603_28627_28606

PSTM=1554791586

delPer=0

BDSVRTM=0

BD_HOME=0

获取网站的cookies并以文本格式保存

import http.cookiejar, urllib.request

filename = "cookie.txt"

cookie = http.cookiejar.MozillaCookieJar(filename)

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

response = opener.open('http://www.baidu.com')

cookie.save(ignore_discard=True, ignore_expires=True)

*MozillaCookieJar()是CookieJar的子类，可以用来处理Cookies和文件相关的事件，比如读取和保存cookies，可以将cookies保存成Mozilla型浏览器的Cookies格式

*LwPCookJar()同样可以读取和保存cookies，它会保存成libwww-per(LWP)格式的Cookies文件

import http.cookiejar, urllib.request

filename = 'cookie.txt'

cookie = http.cookiejar.LWPCookieJar(filename)

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

response = opener.open('http://www.baidu.com')

cookie.save(ignore_discard=True, ignore_expires=True)

生成了cookies文件后，从文件中读取并利用(以LWP格式为例)

import http.cookiejar, urllib.request

cookie = http.cookiejar.LWPCookieJar()

cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

response = opener.open('http://www.baidu.com')

print(response.read().decode('utf-8'))

2.验证

验证：有些网站在打开时就会弹出提示框，直接提示你输入用户名和密码，验证成功后才能查看页面。

from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener

from urllib.error import URLError

username = 'username'

password = 'password'

url = 'http://localhost:5000/'

p = HTTPPasswordMgrWithDefaultRealm()

p.add_password(None,url,username,password)

auth_handler = HTTPBasicAuthHandler(p)

opener = build_opener(auth_handler)

try:

    result = opener.open(url)

    html = result.read().decode('utf-8')

    print('html')

except URLError as e:

    print(e.reason)

1.爬虫 urlib库讲解 Handler高级用法的更多相关文章

2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议
1.异常处理 URLError类来自urllib库的error模块,它继承自OSError类,是error异常模块的基类,由request模块产生的异常都可以通过这个类来处理. from urllib ...
0.爬虫 urlib库讲解 urlopen()与Request()
# 注意一下是import urllib.request 还是 form urllib import request 0. urlopen() 语法:urllib.request.urlopen(u ...
3.爬虫 urlib库讲解总结
urllib库的总结: 用ProcessOn(安利这个软件,够用了)根据前面的几节内容做了个思维导图. urllib库一共有四个模块: request:它是最基本的模块,可以用来模拟发送请求 erro ...
5.爬虫 requests库讲解高级用法
0.文件上传 import requests files = {'file': open('favicon.ico', 'rb')} response = requests.post("ht ...
4.爬虫 requests库讲解 GET请求 POST请求响应
requests库相比于urllib库更好用!!! 0.各种请求方式 import requests requests.post('http://httpbin.org/post') requests ...
6.爬虫 requests库讲解总结
requests库的总结: 用ProcessOn根据前面的几节内容做了个思维导图:
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...

随机推荐

LeetCode6.Z字形变换 JavaScript
将一个给定字符串根据给定的行数,以从上往下.从左到右进行 Z 字形排列. 比如输入字符串为 "LEETCODEISHIRING" 行数为 3 时,排列如下: L C I R E T ...
SQL Server笔记——sql语句创建数据库
MS SQLServer的每个数据库包含: 1个主数据文件(.mdf)必须. 1个事务日志文件(.ldf)必须. 可以包含: 任意多个次要数据文件(.ndf) 多个事务日志文件 CREATE DATA ...
轻量ORM-SqlRepoEx （四）INSERT、UPDATE、DELETE 语句
*本文中所用类声明见上一篇博文<轻量ORM-SqlRepoEx (三)Select语句>中Customers类一.增加记录 1.工厂一个实例仓储 var repository = Rep ...
c#总结最近的几项重要代码
java的代码就不说了,毕竟不是我的主业. 1.c#数据库连接池Hikari. (1)动态加载各类数据库驱动 (2)支持简单配置文件 (3)支持按照名称多数据库调用 (4)使用简洁单数据库使用: H ...
TCP三次挥手四次握手
三次握手: 客户端发起: 1.向服务器端发送报文SYN=1,ACK=0;客户端进入SYN-SEND状态. 2.服务端收到SYN=1,ACK=0的请求报文,向客户端返回确认报文SYN=1,ACK=1,服 ...
jwplayer
将JW Player嵌入到网页中非常的简单,只需要进行如下3个步骤: 1.解压mediaplayer-viral.zip文件,将jwplayer.js和player.swf文件拷贝到工程中: 2.在页 ...
LintCode 12.带最小值操作的栈（两种方法实现）
题目描述实现一个带有取最小值min方法的栈,min方法将返回当前栈中的最小值. 你实现的栈将支持push,pop 和 min 操作,所有操作要求都在O(1)时间内完成. 样例如下操作:push(1 ...
python核心编程2 第十四章练习
14-3.执行环境.创建运行其他Python脚本的脚本. if __name__ == '__main__': with open('test.py') as f: exec(f.read()) 14 ...
web pack
WebPack是模块捆绑器,如果你的代码跨越了不同模块(例如不同Javascript文件),web pack可以将这些零散的代码构建到浏览器可读单个文件中. web pack还可以作为构建通道,你可以 ...
Spark-源码-Spark-Submit 任务提交
Spark 版本:1.3 调用shell, spark-submit.sh args[] 首先是进入 org.apache.spark.deploy.SparkSubmit 类中调用他的 main() ...

1.爬虫 urlib库讲解 Handler高级用法

1.爬虫 urlib库讲解 Handler高级用法的更多相关文章

随机推荐

热门专题