Python3学习笔记（urllib模块的使用）

1.基本方法

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

- url: 需要打开的网址

- data：Post提交的数据

- timeout：设置网站的访问超时时间

直接用urllib.request模块的urlopen（）获取页面，page的数据格式为bytes类型，需要decode（）解码，转换成str类型。

1 from urllib import request

2 response = request.urlopen(r'http://python.org/') # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse类型

3 page = response.read()

4 page = page.decode('utf-8')

urlopen返回对象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作

- info()：返回HTTPMessage对象，表示远程服务器返回的头信息

- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到

- geturl()：返回请求的url

2.使用Request

`urllib.request.Request`(url, data=None, headers={}, method=None)

使用request（）来包装请求，再通过urlopen（）获取页面。

 1 url = r'http://www.lagou.com/zhaopin/Python/?labelWords=label'

 2 headers = {

 3     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

 4                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 5     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 6     'Connection': 'keep-alive'

 7 }

 8 req = request.Request(url, headers=headers)

 9 page = request.urlopen(req).read()

10 page = page.decode('utf-8')

用来包装头部的数据：

- User-Agent ：这个头部可以携带如下几条信息：浏览器名和版本号、操作系统名和版本号、默认语言

- Referer：可以用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的

- Connection：表示连接状态，记录Session的状态。

3.Post数据

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

urlopen（）的data参数默认为None，当data参数不为空的时候，urlopen（）提交方式为Post。

 1 from urllib import request, parse

 2 url = r'http://www.lagou.com/jobs/positionAjax.json?'

 3 headers = {

 4     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

 5                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 6     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 7     'Connection': 'keep-alive'

 8 }

 9 data = {

10     'first': 'true',

11     'pn': 1,

12     'kd': 'Python'

13 }

14 data = parse.urlencode(data).encode('utf-8')

15 req = request.Request(url, headers=headers, data=data)

16 page = request.urlopen(req).read()

17 page = page.decode('utf-8')

`urllib.parse.urlencode`(query, doseq=False, safe='', encoding=None, errors=None)

urlencode（）主要作用就是将url附上要提交的数据。

1 data = {

2     'first': 'true',

3     'pn': 1,

4     'kd': 'Python'

5 }

6 data = parse.urlencode(data).encode('utf-8')

经过urlencode（）转换后的data数据为?first=true?pn=1?kd=Python，最后提交的url为

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的数据必须是bytes或者iterable of bytes，不能是str，因此需要进行encode（）编码

1 page = request.urlopen(req, data=data).read()

当然，也可以把data的数据封装在urlopen（）参数中

4.异常处理

 1 def get_page(url):

 2     headers = {

 3         'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

 4                     r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 5         'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 6         'Connection': 'keep-alive'

 7     }

 8     data = {

 9         'first': 'true',

10         'pn': 1,

11         'kd': 'Python'

12     }

13     data = parse.urlencode(data).encode('utf-8')

14     req = request.Request(url, headers=headers)

15     try:

16         page = request.urlopen(req, data=data).read()

17         page = page.decode('utf-8')

18     except error.HTTPError as e:

19         print(e.code())

20         print(e.read().decode('utf-8'))

21     return page

5、使用代理

`urllib.request.ProxyHandler`(proxies=None)

当需要抓取的网站设置了访问限制，这时就需要用到代理来抓取数据。

 1 data = {

 2         'first': 'true',

 3         'pn': 1,

 4         'kd': 'Python'

 5     }

 6 proxy = request.ProxyHandler({'http': '5.22.195.215:80'})  # 设置proxy

 7 opener = request.build_opener(proxy)  # 挂载opener

 8 request.install_opener(opener)  # 安装opener

 9 data = parse.urlencode(data).encode('utf-8')

10 page = opener.open(url, data).read()

11 page = page.decode('utf-8')

12 return page

urllib模块的使用的更多相关文章

Python核心模块——urllib模块
现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) ...
【py网页】urllib模块，urlopen
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 下面是在 Python Shell 里的 urllib 的使用情况: 01 Pyth ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
python urllib模块的urlopen()的使用方法及实例
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 一.urllib模块urlopen()函数: urlopen(url, data=N ...
全局变量 urllib模块 json模块
1.vars() 查看一个.py文件中的全局变量 print(vars()) #重点 __name__': '__main__ '__file__': 'C:/Users/lenovo/Pychar ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
[转]Python核心模块——urllib模块
现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) ...
Python基础之 urllib模块urlopen()与urlretrieve()的使用方法详解。
Python urllib模块urlopen()与urlretrieve()的使用方法详解 1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) ...
urllib模块
python爬虫-urllib模块 urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...

随机推荐

一个简单的Samba服务
上次给大家认识了下,搭建一个服务大概的一个认识. 这次给大家搭建一个Samba服务认识下. 项目准备: 虚拟机一个(Centos6.5版本) 项目目标: 进行samba最简单的配置项目难度: ❤❤ ...
1.线性回归、Logistic回归、Softmax回归
本次回归章节的思维导图版总结已经总结完毕,但自我感觉不甚理想.不知道是模型太简单还是由于自己本身的原因,总结出来的东西感觉很少,好像知识点都覆盖上了,但乍一看,好像又什么都没有.不管怎样,算是一次尝试 ...
你必须知道的----C语言笔试面试中经典易错的一些知识点（持续更新）
1. 关于二级指针的解析和引用 1.1 二级指针意义二级指针存放的是一级指针的地址 Ex: Int a = ; Int *p = &a; Int **q = &p; 1.2 ...
SDUT OJ 数据结构实验之链表一：顺序建立链表
数据结构实验之链表一:顺序建立链表 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Discuss Problem Descr ...
性能检测参考SQL语句
/****** Object: StoredProcedure [dbo].[SP_CPU] Script Date: 12/09/2018 19:01:24 ******/ SET ANSI_NUL ...
Docker Run 设置环境变量
Docker Run We can then override the environment variables set in the Docker file when running the im ...
Luogu P2572 [SCOI2010]序列操作线段树。。
咕咕了...于是借鉴了小粉兔的做法ORZ... 其实就是维护最大子段和的线段树,但上面又多了一些操作....QWQ 维护8个信息:1/0的个数(sum),左/右边起1/0的最长长度(ls,rs),整段 ...
springboot(一)：入门
什么是springboot Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程.该框架使用了特定的方式来进行配置,从而使开发人员不 ...
ESP8266使用详解
[From] http://www.cnblogs.com/yangfengwu/p/5205570.html 用的这款各引脚功能:来至厂家提供的资料 GPIO0 默认是工作模式(不接线).如果接了 ...
springboot+Zookeeper+Dubbo入门
最近想学习dubbo,就利用周末写了一个特别简单的demo,不知道有没有用,先记录一下. 1.安装zookeeper并启动(安装看我上一篇博客https://www.cnblogs.com/huang ...

urllib模块的使用

Python3学习笔记（urllib模块的使用）

1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

3.Post数据

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

4.异常处理

5、使用代理

urllib.request.ProxyHandler(proxies=None)

urllib模块的使用的更多相关文章

随机推荐

热门专题

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.request.Request`(url, data=None, headers={}, method=None)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.parse.urlencode`(query, doseq=False, safe='', encoding=None, errors=None)

`urllib.request.ProxyHandler`(proxies=None)