Python3爬虫（三）请求库的使用之urllib

Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、urllib库：

1. 是Python内置的HTTP请求库

2. 在Python2中，由urllib和urllib2之分，而在Python3中，统一为urllib

3. 主要包含模块：

　　request：最基本的发送模块，用来模拟发送请求

　　error：异常处理模块

　　parse：一个工具模块

　　robotparser：主要用来识别robots.txt文件

二、发送请求：

1. urlopen()

　　urllib.request：模块提供了最基本的构造HTTP请求的方法，同时还带有处理验证(authentication)、重定向(redirection)、浏览器Cookies等

import urllib.request
r = urllib.request.openurl('http://www.baidu.com')
print(r.read().decode('utf-8'))
print(type(r))    # <class 'http.client.HTTPResponse'>

　　HTTPResponse类型的对象包括的方法：read()、readinto()、getheader(name)、getheaders()、fileno()等

　　HTTPResponse类型的对象包括的属性：msg、version、status、reason、debuglevel、closed等

　　urlopen()函数的API：　　

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

　　　　data参数：

　　　　　　1. 可选

　　　　　　2. 若是字节流编码格式的内容，即bytes类型，则需要通过bytes()方法转化。若传递该参数，则请求方式会有GET变为POST

　　　　　　3. bytes()第一个参数需为str类型，可用urllib.parse.urlencode()方法是字典变为字符串

　　　　timeout参数：

　　　　　　1. 可选

　　　　　　2. 用于设置超时时间，单位是秒，默认使用全局默认时间

　　　　　　3. 支持HTTP、HTTPS、FTP请求

　　　　　　4. 例：　　　

import urllib
try:
    r = urllib.request.urlopen('http://www.baidu.com',timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason,socket.timeout):
        print('Time Out!')

　　　　context参数：必须是ssl.SSLContext类型，用来指定SSL设置

　　　　cafile参数：指定CA证书

　　　　capath参数：指定CA证书的路径

　　　　【注】cafile和capath一起在请求HTTPS时使用

　　　　cadefault参数：已被废弃，默认是False

2. Request

　　urlopen()不足以构建一个完整的请求，若要加入Headers等信息，就可以用Request类

　　Request类的构造：　　

class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)

　　　　url参数：同urlopen()

　　　　data参数：同urlopen()

　　　　headers参数：

　　　　　　1. 请求头

　　　　　　2. 可以直接在字典中构造，也可以用add_header()方法添加

　　　　　　3. 可将User-Agent改为Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)　　【注】伪造成浏览器访问

　　　　origin_req_host参数：指的是请求方的host名称或IP地址

　　　　unverifiable参数：请求是否是无法验证的，默认是False

　　　　method参数：是一个字符串，用来指示请求的方法

3. Handler（请求的高级用法）：

　　Handler是各种处理器，可以处理登录验证，可以处理Cookies，可以处理代理。

　　urllib.request模块里面的BaseHandler类，是所有其他Handler的父类。

　　各种Handler子类继承这个BaseHandler类：

　　　　HTTPDefaultErrorHandler：用于处理HTTP响应错误，会抛出异常

　　　　HTTPRedirectHandler：用于处理重定向

　　　　HTTPCookieProcessor：用于处理Cookies

　　　　ProxyHandler：用于设置代理，默认为空

　　　　HTTPPasswordMgr：用于管理密码

　　　　HTTPBasicAuthHandler：用于管理认证

4. OpenDirector：

　　应用：验证、代理、Cookies

三、异常处理：

1. URLError：

　　a. 来自urllib库的error模块，他继承自OSError类，是error异常模块的基类，由request模块产生的异常都可以通过它处理

　　b. reason属性，返回原因

2. HTTPError：

　　a. 是URLError的子类，专门用来处理HTTP请求错误

　　b. 三个属性：

　　　　code：返回状态码

　　　　reason：返回原因

　　　　headers：返回请求头

四、解析链接：

　　介绍parse模块中的方法，parse定义了处理URL的标准接口

1. urlparse()

　　实现URL的识别分段。

　　API用法：　

urllib.parse.urlparse(urlstring,scheme='',allow_fragments=True)

　　urlstring参数：必选，待解析的URL

　　scheme参数：它是默认的协议（HTTP、HTTPS），urlstring没有时生效

　　allow_fragments参数：是否忽略fragment，False为忽略，当URL中不包含params和query时，fragment会被解析为path的一部分

2. urlunparse()

　　与urlparse对立，接受的参数是一个可迭代对象，长度必须为6（scheme,netloc,path,params,query,fragment），可以是元组、字典等特定的数据结构，这样就可以实现URL的构造

3. urlsplit()

　　与urlparse相似，不单独解析parse，返回5各部分，元组类型

4. urlunsplit()

　　与urlunparse()类似，将各个部分拼接，长度必须是5

5. urljoin()

　　生成链接，提供一个base-url的scheme,netloc,和path 3个内容并对新链接缺失的部分进行补充。

　　【注】两个都有取最新的，不全的话互补

6. urlencode()

　　在构造GET请求参数的时候很有用，将字典序列化为GET请求参数

7. parse_qs()

　　反序列化，将一串GET请求参数，转化为字典

8. parse_qsl()

　　同parse_qs()，将GET转化为元组组成的列表

9. quote()

　　将内容转化为URL编码的格式，因为URL有中文编码格式时，可能会出现乱码，用它可以转化

10. unquote()

　　进行URL解码

五、分析robots协议：

　　robotparser模块，该模块提供了一个RobotFileParser类

urllib.robotparser.RobotFileParser(url='')

　　此类的常用方法：

　　set_url()　　设置robots.txt文件的链接

　　read()　　读取文件并分析

　　parse()　　解析文件

　　can_fetch()　　传入两个参数，第一个是User-Agent，第二个是抓取的URL，返回是否可抓取

　　mtime()　　返回上回抓取和分析的时间

　　modified()　　将当前时间设置为上次抓取和分析的时间

Python3爬虫（三）请求库的使用之urllib的更多相关文章

Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
爬虫、请求库selenium
阅读目录一介绍二安装三基本使用四选择器五等待元素被加载六元素交互操作七其他八项目练习一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决r ...
爬虫、请求库requests
阅读目录一介绍二基于GET请求三基于POST请求四响应Response 五高级用法一介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,req ...
python3爬虫之requests库基本使用
官方文档链接(中文) https://2.python-requests.org/zh_CN/latest/ requests 基于 urllib3 ,python编写. 安装 pip insta ...
Python爬虫requests请求库
requests:pip install request 安装实例: import requestsurl = 'http://www.baidu.com'response = requests. ...
Python3爬虫一之（urllib库）
urllib库是python3的内置HTTP请求库. ython2中urllib分为 urllib2.urllib两个库来发送请求,但是在python3中只有一个urllib库,方便了许多. urll ...
python3爬虫之Urllib库（一）
上一篇我简单说了说爬虫的原理,这一篇我们来讲讲python自带的请求库:urllib 在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了 ...
爬虫请求库——requests
请求库,即可以模仿浏览器对网站发起请求的模块(库). requests模块使用requests可以模拟浏览器的请求,requests模块的本质是封装了urllib3模块的功能,比起之前用到的urll ...
Python爬虫--- 1.1请求库的安装与使用
来说先说爬虫的原理:爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来.这个时候就要用到请 ...

随机推荐

如何给PDF加水印
May 19th 2017 Week 20th Friday
Good luck is another name for tenacity of purpose. 好运不过是坚持不懈的结果. To some extent, I don't agree with ...
Perl 基础笔记: 使用 cpanm 安装 Perl 模块
cpanm 其实只是一个可执行文件而已.将它下载到 bin 目录,然后添加执行权限就可以用了. $ sudo wget http://xrl.us/cpanm -O /usr/bin/cpanm; s ...
SQA1
客观地验证软件项目产品和工作是否遵循恰当的标准.步骤和需求. 2.将软件质量保证工作及结果通知给相关组别和个人.
SpringBoot使用PageHelper进行分页
因为SpringBoot就是为了实现没有配置文件,因此之前手动在Mybatis中配置的PageHelper现在需要重新配置,而且配置方式与之前的SSM框架中还是有点点区别. 首先需要在pom文件 ...
SP348 EXPEDI - Expedition
嘟嘟嘟水贪心. 当经过一个加油站的时候,记下这个加油站能加的油,然后没油的时候从经过的加油站中选择加油最多的加. #include<cstdio> #include<iostrea ...
CentOS如何部署TinyProxy
TinyProxy是个非常便利,及容易架设的HTTP代理安装方法 rpm -Uvh http://dl.fedoraproject.org/pub/epel/5/i386/epel-release- ...
使用MSF生成木马_入侵Windows
1>生成木马 (123.exe) -f 输出格式 -o 输出地址 2>启动msfconsole 3>进行设置&&启动攻击 4>木马运行&后 ...
Window下搭建foundation apps环境
Window下搭建foundation apps环境框架:AngularJS.Foundation, 构建工具:Gulp, 开发环境:node.js. 操作系统:windows (一)环境准备 1 ...
No space left on device错误解决
No space left on device错误解决笔记今天准备重启下数据库(linux oracle11g) conn /as sysdba; 出现这样的错误No space left on d ...

Python3爬虫（三）请求库的使用之urllib

Python3爬虫（三）请求库的使用之urllib的更多相关文章

随机推荐

热门专题