常见的爬虫分析库(1)-Python3中Urllib库基本使用
原文来自:https://www.cnblogs.com/0bug/p/8893677.html
什么是Urllib?
Python内置的HTTP请求库
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块
相比Python的变化
Python2中的urllib2在Python3中被统一移动到了urllib.request中
python2
import urllib2
response = urllib2.urlopen('http://www.cnblogs.com/0bug')
Python3
import urllib.request
response = urllib.request.urlopen('http://www.cnblogs.com/0bug/')
urlopen()
不加data是以GET方式发送,加data是以POST发送
|
1
2
3
4
5
|
import urllib.requestresponse = urllib.request.urlopen('http://www.cnblogs.com/0bug')html = response.read().decode('utf-8')print(html) |
结果
加data发送POST请求
|
1
2
3
4
5
6
|
import urllib.parseimport urllib.requestdata = bytes(urllib.parse.urlencode({'hello': '0bug'}), encoding='utf-8')response = urllib.request.urlopen('http://httpbin.org/post', data=data)print(response.read()) |
timeout超时间
|
1
2
3
4
|
import urllib.requestresponse = urllib.request.urlopen('http://www.cnblogs.com/0bug', timeout=0.01)print(response.read()) |
|
1
2
3
4
5
6
7
8
|
import urllib.requestimport socketimport urllib.errortry: response = urllib.request.urlopen('http://www.cnblogs.com/0bug', timeout=0.01)except urllib.error.URLError as e: if isinstance(e.reason,socket.timeout): print('请求超时') |
响应
1.响应类型
|
1
2
3
4
|
import urllib.requestresponse = urllib.request.urlopen('http://www.cnblogs.com/0bug')print(type(response)) |
2.状态码、响应头
|
1
2
3
4
5
6
|
import urllib.requestresponse = urllib.request.urlopen('http://www.cnblogs.com/0bug')print(response.status)print(response.getheaders())print(response.getheader('Content-Type')) |
3.响应体
响应体是字节流,需要decode('utf-8')
|
1
2
3
4
5
|
import urllib.requestresponse = urllib.request.urlopen('http://www.cnblogs.com/0bug')html = response.read().decode('utf-8')print(html) |
Request
|
1
2
3
4
5
|
import urllib.requestrequest = urllib.request.Request('http://www.cnblogs.com/0bug')response = urllib.request.urlopen(request)print(response.read().decode('utf-8')) |
添加请求头信息
|
1
2
3
4
5
6
7
8
9
10
11
12
|
from urllib import request, parseurl = 'http://httpbin.org/post'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36', 'Host': 'httpbin.org'}dic = {'name': '0bug'}data = bytes(parse.urlencode(dic), encoding='utf-8')req = request.Request(url=url, data=data, headers=headers, method='POST')response = request.urlopen(req)print(response.read().decode('utf-8')) |
add_header
|
1
2
3
4
5
6
7
8
9
10
|
from urllib import request, parseurl = 'http://httpbin.org/post'dic = {'name': '0bug'}data = bytes(parse.urlencode(dic), encoding='utf-8')req = request.Request(url=url, data=data, method='POST')req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')response = request.urlopen(req)print(response.read().decode('utf-8')) |
Handler
代理:
|
1
2
3
4
5
6
7
8
9
|
import urllib.requestproxy_handler = urllib.request.ProxyHandler({ 'http': 'http代理', 'https': 'https代理'})opener = urllib.request.build_opener(proxy_handler)response = opener.open('http://www.cnblogs.com/0bug')print(response.read()) |
Cookie
|
1
2
3
4
5
6
7
8
|
import http.cookiejar, urllib.requestcookie = http.cookiejar.CookieJar()handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')for item in cookie: print(item.name + "=" + item.value) |
Cookie保存为文件
|
1
2
3
4
5
6
7
8
|
import http.cookiejar, urllib.requestfilename = 'cookie.txt'cookie = http.cookiejar.MozillaCookieJar(filename)handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')cookie.save(ignore_discard=True, ignore_expires=True) |
cookie.txt
另一种方式存
|
1
2
3
4
5
6
7
8
|
import http.cookiejar, urllib.requestfilename = 'cookie.txt'cookie = http.cookiejar.LWPCookieJar(filename)handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')cookie.save(ignore_discard=True, ignore_expires=True) |
用什么格式的存就应该用什么格式的读
|
1
2
3
4
5
6
7
8
|
import http.cookiejar, urllib.requestcookie = http.cookiejar.LWPCookieJar()cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')print(response.read().decode('utf-8')) |
异常处理
|
1
2
3
4
5
6
|
from urllib import request, errortry: response = request.urlopen('http://www.cnblogs.com/0bug/xxxx')except error.URLError as e: print(e.reason) |
|
1
2
3
4
5
6
7
8
9
10
|
from urllib import request, errortry: response = request.urlopen('http://www.cnblogs.com/0bug/xxxx')except error.HTTPError as e: print(e.reason, e.code, e.headers, sep='\n')except error.URLError as e: print(e.reason)else: print('Request Successfully') |
|
1
2
3
4
5
6
7
8
9
10
|
import socketimport urllib.requestimport urllib.errortry: response = urllib.request.urlopen('http://www.cnblogs.com/0bug/xxxx', timeout=0.001)except urllib.error.URLError as e: print(type(e.reason)) if isinstance(e.reason, socket.timeout): print('请求超时') |
URL解析
|
1
2
3
4
5
|
from urllib.parse import urlparseresult = urlparse('www.baidu.com/index.html;user?id=5#comment')print(type(result))print(result) |
|
1
2
3
4
|
from urllib.parse import urlparseresult = urlparse('www.baidu.com/index.html;user?id=5#comment', scheme='https')print(result) |
|
1
2
3
4
|
from urllib.parse import urlparseresult = urlparse('http://www.baidu.com/index.html;user?id=5#comment', scheme='https')print(result) |
|
1
2
3
4
|
from urllib.parse import urlparseresult = urlparse('http://www.badiu.com/index.html;user?id=5#comment', allow_fragments=False)print(result) |
|
1
2
3
4
|
from urllib.parse import urlparseresult = urlparse('http://www.badiu.com/index.html#comment', allow_fragments=False)print(result) |
urlunparse
|
1
2
3
4
|
from urllib.parse import urlunparsedata = ['http', 'www.baidu.com', 'index.html', 'user', 'id=6', 'comment']print(urlunparse(data)) |
urljoin
|
1
2
3
4
5
6
7
8
9
10
|
from urllib.parse import urljoinprint(urljoin('http://www.baidu.com', 'ABC.html'))print(urljoin('http://www.baidu.com', 'https://www.cnblogs.com/0bug'))print(urljoin('http://www.baidu.com/0bug', 'https://www.cnblogs.com/0bug'))print(urljoin('http://www.baidu.com/0bug', 'https://www.cnblogs.com/0bug?q=2'))print(urljoin('http://www.baidu.com/0bug?q=2', 'https://www.cnblogs.com/0bug'))print(urljoin('http://www.baidu.com', '?q=2#comment'))print(urljoin('www.baidu.com', '?q=2#comment'))print(urljoin('www.baidu.com#comment', '?q=2')) |
urlencode
|
1
2
3
4
5
6
7
8
9
|
from urllib.parse import urlencodeparams = { 'name': '0bug', 'age': 25}base_url = 'http://www.badiu.com?'url = base_url + urlencode(params)print(url) |
常见的爬虫分析库(1)-Python3中Urllib库基本使用的更多相关文章
- Python2和Python3中urllib库中urlencode的使用注意事项
前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...
- python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
- Python3中Urllib库基本使用
什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.par ...
- 爬虫中urllib库
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
- 对python3中pathlib库的Path类的使用详解
原文连接 https://www.jb51.net/article/148789.htm 1.调用库 ? 1 from pathlib import 2.创建Path对象 ? 1 2 3 4 5 ...
- Python3中urllib使用介绍
Py2.x: Urllib库 Urllin2库 Py3.x: Urllib库 变化: 在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import url ...
- Python3中urllib使用与源代码
Py2.x: Urllib库 Urllin2库 Py3.x: Urllib库 变化: 在Pytho2.x中使用import urllib2---对应的,在Python3.x中会使用import url ...
- Python爬虫入门(3-4):Urllib库的高级用法
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS.CS ...
- Python爬虫实战(一) 使用urllib库爬取拉勾网数据
本笔记写于2020年2月4日.Python版本为3.7.4,编辑器是VS code 主要参考资料有: B站视频av44518113 Python官方文档 PS:如果笔记中有任何错误,欢迎在评论中指出, ...
随机推荐
- linux系统 户和账号操作
1,基本操作要求 实现用户账号的管理,要完成的工作主要有如下几个方面: · 用户账号的添加.删除与修改.· 用户口令的管理.· 用户组的管理. 2,用户账户添加删除 ...
- 2017-2018-2 20165325 实验四《Android程序设计》实验报告
一.Android程序设计-1 1.检查点要求 Android Stuidio的安装测试: 参考<Java和Android开发学习指南(第二版)(EPUBIT,Java for Android ...
- Pytorch tutorial 之Datar Loading and Processing (2)
上文介绍了数据读取.数据转换.批量处理等等.了解到在PyTorch中,数据加载主要有两种方式: 1. 自定义的数据集对象.数据集对象被抽象为Dataset类,实现自定义的数据集需要继承Dataset. ...
- Date——时间戳转化为YYYY-MM-DD h:m:s时间格式
/** * example new Date(times) * @param time Date * @param fmt "yyyy-MM-dd" /"yyyy-MM- ...
- $Django Rest Framework-认证组件,权限组件 知识点回顾choices,on_delete
一 小知识点回顾 #orm class UserInfo (models.Model): id = models.AutoField (primary_key=True) name = models. ...
- (常用)os模块
os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径os.chdir("dirname") 改变当前脚本工作目录:相当于shell下cdos.curdi ...
- Laravel 5.2数据库--多个关联关系,带条件约束的渴求式加载的问题
### 今天在连表获取数据的时候,老是获取不到想要的,确实有点无力适从的感觉. 归根到底,还是对laravel不够熟悉,至少是数据库操作那块. ### 问题是这样的: 我想要通过连表中间表,拿中间表的 ...
- dubbo @Activate 注解使用和实现解析
Activate注解表示一个扩展是否被激活(使用),可以放在类定义和方法上, dubbo用它在spi扩展类定义上,表示这个扩展实现激活条件和时机. 先看下定义: @Documented @Retent ...
- swiper轮播图(逆向自动切换类似于无限循环)
swiper插件轮播图,默认的轮播循序是会从右向左,第一张,第二张,第三张,然后肉眼可见是的从第三张从左到右倒回第一张,这样就会有些视觉体验不高, ,不过还是能够用swiper本身的特性更改成无限循环 ...
- Confluence 6 H2 数据库连接与合并整合
使用 H2 console 连接到你嵌入的 H2 数据库 可以选的,你可以使用 H2 console 来连接到你的 H2 数据库.最简单的访问 Console 的方法是双击 H2 数据库的 jar 文 ...