转载地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html

1.基本方法

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

- url: 需要打开的网址

- data：Post提交的数据

- timeout：设置网站的访问超时时间

直接用urllib.request模块的urlopen（）获取页面，page的数据格式为bytes类型，需要decode（）解码，转换成str类型。

1 from urllib import request

2 response = request.urlopen(r'http://python.org/') # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse类型

3 page = response.read()

4 page = page.decode('utf-8')

urlopen返回对象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作

- info()：返回HTTPMessage对象，表示远程服务器返回的头信息

- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到

- geturl()：返回请求的url

2.使用Request

`urllib.request.Request`(url, data=None, headers={}, method=None)

使用request（）来包装请求，再通过urlopen（）获取页面。

 1 url = r'http://www.lagou.com/zhaopin/Python/?labelWords=label'

 2 headers = {

 3     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

 4                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 5     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 6     'Connection': 'keep-alive'

 7 }

 8 req = request.Request(url, headers=headers)

 9 page = request.urlopen(req).read()

10 page = page.decode('utf-8')

用来包装头部的数据：

- User-Agent ：这个头部可以携带如下几条信息：浏览器名和版本号、操作系统名和版本号、默认语言

- Referer：可以用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的

- Connection：表示连接状态，记录Session的状态。

3.Post数据

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

urlopen（）的data参数默认为None，当data参数不为空的时候，urlopen（）提交方式为Post。

 1 from urllib import request, parse

 2 url = r'http://www.lagou.com/jobs/positionAjax.json?'

 3 headers = {

 4     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

 5                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 6     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 7     'Connection': 'keep-alive'

 8 }

 9 data = {

10     'first': 'true',

11     'pn': 1,

12     'kd': 'Python'

13 }

14 data = parse.urlencode(data).encode('utf-8')

15 req = request.Request(url, headers=headers, data=data)

16 page = request.urlopen(req).read()

17 page = page.decode('utf-8')

`urllib.parse.urlencode`(query, doseq=False, safe='', encoding=None, errors=None)

urlencode（）主要作用就是将url附上要提交的数据。

1 data = {

2     'first': 'true',

3     'pn': 1,

4     'kd': 'Python'

5 }

6 data = parse.urlencode(data).encode('utf-8')

经过urlencode（）转换后的data数据为?first=true?pn=1?kd=Python，最后提交的url为

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的数据必须是bytes或者iterable of bytes，不能是str，因此需要进行encode（）编码

1 page = request.urlopen(req, data=data).read()

当然，也可以把data的数据封装在urlopen（）参数中

4.异常处理

 1 def get_page(url):

 2     headers = {

 3         'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

 4                     r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 5         'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 6         'Connection': 'keep-alive'

 7     }

 8     data = {

 9         'first': 'true',

10         'pn': 1,

11         'kd': 'Python'

12     }

13     data = parse.urlencode(data).encode('utf-8')

14     req = request.Request(url, headers=headers)

15     try:

16         page = request.urlopen(req, data=data).read()

17         page = page.decode('utf-8')

18     except error.HTTPError as e:

19         print(e.code())

20         print(e.read().decode('utf-8'))

21     return page

5、使用代理

`urllib.request.ProxyHandler`(proxies=None)

当需要抓取的网站设置了访问限制，这时就需要用到代理来抓取数据。

 1 data = {

 2         'first': 'true',

 3         'pn': 1,

 4         'kd': 'Python'

 5     }

 6 proxy = request.ProxyHandler({'http': '5.22.195.215:80'})  # 设置proxy

 7 opener = request.build_opener(proxy)  # 挂载opener

 8 request.install_opener(opener)  # 安装opener

 9 data = parse.urlencode(data).encode('utf-8')

10 page = opener.open(url, data).read()

11 page = page.decode('utf-8')

12 return page

Python3学习笔记（urllib模块的使用）的更多相关文章

Python3学习笔记25-logging模块
logging模块,Python自带用来记录日志的模块. 因为工作需要用到关于日志的,最近一直都在看关于日志模块的东西,百度了很多文章,可惜都是看的让人一头雾水,最后运气不错,找到一篇很详细的文章.传 ...
Python3学习笔记27-ConfigParser模块
ConfigParser模块在Python3修改为configparser,这个模块定义了一个ConfigeParser类,该类的作用是让配置文件生效.配置文件的格式和window的ini文件相同,大 ...
Python3学习笔记34-pymongo模块
pymongo模块是python操作mongo数据的第三方模块,记录一下自己常用到的简单用法. 首先需要连接数据库: MongoClient():该方法第一个参数是数据库所在地址,第二个参数是数据库所 ...
Python3学习笔记32-xlwt模块
xlwt模块是用来写入excel的第三方模块,需要下载安装后才能使用. 设置字体样式 import xlwt #初始化一个excel excel = xlwt.Workbook(encoding='u ...
Python3学习笔记31-xlrd模块
xlrd模块是用来读取excel的第三方模块,需要下载安装后才能使用.新建一个excel,随便填充一些数据用来测试下. # -*- coding: utf-8 -*- import xlrd #打 ...
Python3学习笔记30-datetime模块
datetime是Python处理日期和时间的标准库获取当前的日期和时间 from datetime import datetime now = datetime.now() print(now) ...
Python3学习笔记26-unittest模块
unittest单元测试框架,主要由四部分组成:测试固件.测试用例.测试套件.测试执行器测试固件(test fixture) 测试固件有两部分,执行测试前的准备部分setUp(),测试执行完后的清扫 ...
Python3学习笔记——自定义模块
import sys import os print(__file__) #打印相对路径 base_dir = os.path.dirname(os.path.dirname(os.path.absp ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
python3学习笔记(7)_listComprehensions-列表生成式
#python3 学习笔记17/07/11 # !/usr/bin/env python3 # -*- conding:utf-8 -*- #通过列表生成式可以生成格式各样的list,这种list 一 ...

随机推荐

有这iconfont.woff文件为什么还报404
解决方法1.打开服务器IIS管理器,找到MIME类型. 2.添加MIME类型添加三条: 文件扩展名 MIME类型 .svg image/svg+xml.woff application/x-font ...
DNS预解析prefetch
前面的话本文将详细介绍DNS预解析prefetch的主要内容概述 DNS(Domain Name System, 域名系统),是域名和IP地址相互映射的一个分布式数据库.DNS 查询就是将域名转换 ...
关于vue-router 中参数传递的那些坑（params，query)
1.query方式传参和接受参数传参 this.$router.push({ path:'/xxx' query:{ idname:id } })接收的方式:this.$route.query.id ...
JS绑定带参数的事件总要执行一次方法，如何避免？
类似这样:function aa(vote){alert(vote);}$(".btnn").bind("click",aa(1)});没有点击就开始执行了.怎 ...
分布式版本控制系统 Git 的安装与使用
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2097 远端库地址:https://github.com/CJL29 ...
Java 集合系列之一：JCF集合框架概述
容器,就是可以容纳其他Java对象的对象.Java Collections Framework(JCF)为Java开发者提供了通用的容器 java集合主要划分为四个部分: Collection(Lis ...
C/C++面试题：编写类String的构造函数、析构函数和赋值函数。
转https://www.cnblogs.com/alinh/p/9636500.html 考点:构造函数.析构函数和赋值函数的编写方法出现频率:☆☆☆☆☆已知类String的原型为: ...
Maven 学习总结（五）之持续集成、构建web应用
持续集成的作用.过程和优势简单说,持续集成就是快速且高频率地自动构建项目的所有源码,并为项目成员提供丰富的反馈信息. 快速:集成的速度要尽可能地快,开发人员不希望自己的代码提交半天之后才得到反馈. ...
python 生产者 --- 消费者
值得拿出来看看的多进程爬取 (生产) , 解析 (消费) 网页同时进行,可以作为以后项目扩展使用 from bs4 import BeautifulSoup import requests i ...
nginx资料汇总
nginx docker 中的一些目录和 windows下是不同的, 静态内容目录: /usr/share/nginx/html 配置文件目录: /etc/nginx 日志输出目录: /var/log ...

Python3学习笔记（urllib模块的使用）

转载地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html

1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

3.Post数据

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

4.异常处理

5、使用代理

urllib.request.ProxyHandler(proxies=None)

Python3学习笔记（urllib模块的使用）的更多相关文章

随机推荐

热门专题

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.request.Request`(url, data=None, headers={}, method=None)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.parse.urlencode`(query, doseq=False, safe='', encoding=None, errors=None)

`urllib.request.ProxyHandler`(proxies=None)