Python爬虫之urllib.parse

Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数。

解析url

解析url（ urlparse() ）

urlparse() 函数可以将 URL 解析成 ParseResult 对象。对象中包含了六个元素，分别为：

协议（scheme）

域名（netloc）

路径（path）

路径参数（params）

查询参数（query）

片段（fragment）

from urllib.parse import urlparse

url='https://blog.csdn.net/xc_zhou/article/details/80907101'

parsed_result=urlparse(url)

print('parsed_result 包含了',len(parsed_result),'个元素')

print(parsed_result)

print('scheme  :', parsed_result.scheme)

print('netloc  :', parsed_result.netloc)

print('path    :', parsed_result.path)

print('params  :', parsed_result.params)

print('query   :', parsed_result.query)

print('fragment:', parsed_result.fragment)

print('username:', parsed_result.username)

print('password:', parsed_result.password)

print('hostname:', parsed_result.hostname)

print('port    :', parsed_result.port)

结果为：

parsed_result 包含了 6 个元素

ParseResult(scheme='http', netloc='user:pwd@domain:80', path='/path', params='params', query='query=queryarg', fragment='fragment')

scheme  : http

netloc  : user:pwd@domain:80

path    : /path

params  : params

query   : query=queryarg

fragment: fragment

username: user

password: pwd

hostname: domain

port    : 80

解析url（ urlsplit() ）

urlsplit() 函数也能对 URL 进行拆分，所不同的是， urlsplit() 并不会把路径参数(params) 从路径(path) 中分离出来。
当 URL 中路径部分包含多个参数时，使用 urlparse() 解析是有问题的

这时可以使用 urlsplit() 来解析：

from urllib.parse import urlsplit

url='http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment'

split_result=urlsplit(url)

print(split_result)

print('split.path    :', split_result.path)

# SplitResult 没有 params 属性

结果为：

SplitResult(scheme='http', netloc='user:pwd@domain:80', path='/path1;params1/path2;params2', query='query=queryarg', fragment='fragment')

split.path    : /path1;params1/path2;params2

解析url（urldefrag()）

from urllib.parse import urldefrag

url = 'http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment'

d = urldefrag(url)

print(d)

print('url     :', d.url)

print('fragment:', d.fragment)

结果为：

DefragResult(url='http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg', fragment='fragment')

url     : http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg

fragment: fragment

组建URL

组建url（urlunparse()）

urlunparse()接收一个列表的参数，而且列表的长度是有要求的，是必须六个参数以上，否则抛出异常。

from urllib.parse import urlunparse

url_compos = ('http', 'user:pwd@domain:80', '/path1;params1/path2', 'params2', 'query=queryarg', 'fragment')

print(urlunparse(url_compos))

结果为：

http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment

组建url（urljoin()）

urljoin()将两个字符串拼接成url，

from urllib.parse import urljoin

# 连接两个参数的url, 将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径，则以第二个为主

print(urljoin('https://movie.douban.com/', 'index'))

print(urljoin('https://movie.douban.com/', 'https://accounts.douban.com/login'))

结果为：

https://movie.douban.com/index

https://accounts.douban.com/login

查询参数的构造与解析

使用 urlencode() 函数可以将一个 dict 转换成合法的查询参数：

from urllib.parse import urlencode

query_args = {

    'name': 'dark sun',

    'country': '中国'

}

query_args = urlencode(query_args)

print(query_args)

结果为：

name=dark+sun&country=%E4%B8%AD%E5%9B%BD

使用 parse_qs() 来将查询参数解析成 dict。

from urllib.parse import urlencode

from urllib.parse import parse_qs

query_args = {

    'name': 'dark sun',

    'country': '中国'

}

query_args = urlencode(query_args)

print(query_args)

print(parse_qs(query_args))

结果为：

name=dark+sun&country=%E4%B8%AD%E5%9B%BD

{'name': ['dark sun'], 'country': ['中国']}

quote()与unquote()

quoteI()对特殊字符进行转义unquote()则相反。

from urllib.parse import quote

from urllib.parse import unquote

test1 = quote('中文')

print(test1)

test2 = unquote(test1)

print(test2)

结果为：

%E4%B8%AD%E6%96%87

中文

Python爬虫之urllib.parse详解的更多相关文章

Python爬虫系列-Urllib库详解
Urllib库详解 Python内置的Http请求库: * urllib.request 请求模块 * urllib.error 异常处理模块 * urllib.parse url解析模块 * url ...
python爬虫利器Selenium使用详解
简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...
Python爬虫：requests 库详解，cookie操作与实战
原文第三方库 requests是基于urllib编写的.比urllib库强大,非常适合爬虫的编写. 安装: pip install requests 简单的爬百度首页的例子: response.te ...
python爬虫框架scrapy实例详解
生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码.打开命令行,执行:scrapy st... 生成项目 scrapy提供一个工具来生成项目,生 ...
Python爬虫系列-Requests库详解
Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 实例引入 import requests response = requests.get( ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
python爬虫之urllib库（三）
python爬虫之urllib库(三) urllib库访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去 ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...
python爬虫之urllib库（一）
python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...

随机推荐

easyui 功能栏onclick传递object参数
{ field: 'Delete', title: '操作', width: 60, formatter: function (value, row, index) { var jrow = []; ...
取值函数（getter）和存值函数（setter）
todo get和set关键字
git回滚操作
一,找到之前的版本历史纪录,确定要回滚到那个版本号:git log 二,回滚到这个版本:git reset --hard 72229f823c8b21cbe52142a944d74f1883fa41a ...
一款基于CSS3漂亮的按钮
特别提示:本人博客部分有参考网络其他博客,但均是本人亲手编写过并验证通过.如发现博客有错误,请及时提出以免误导其他人,谢谢!欢迎转载,但记得标明文章出处:http://www.cnblogs.com/ ...
Spring容器的基本使用
1)如何将一个Bean组件交给Spring容器方法:在applicationContext.xml中添加以下定义 <bean id = “标识符” class = “Bean组件类型”> ...
使用MingGW-w64 Build Script 3.6.7搭建ffmpeg编译环境
在Linux下编译的Windows版本ffmpeg没有其他的依赖库使用的是centos 1.脚本下载 wget http://zeranoe.com/scripts/mingw_w64_build/ ...
leetcode-mid- 50. Pow(x,n)-NO
mycode time limited 例如 x=0.00001 n=2147483647 参考: class Solution(object): def myPow(self, x, n): &q ...
改变主程序的入口 main
main只是开发工具所规定的一个特殊函数名称而已.它既不是程序的入口,也不是必须要有的函数. 程序的入口点记录在可执行文件中的一个数据,该数据标明程序从哪个位置开始执行,这个数据是连接程序的时候由li ...
springboot打war包部署tomcat服务器，以及表单提交数据乱码处理
小白觉得springboot打成jar包直接使用内嵌的tomcat或jetty容器(java -jar xxx.jar)运行项目不利于定位问题,我还是习惯于查看tomcat或nginx的日志来定位问题 ...
【算法与数据结构】二叉堆和优先队列 Priority Queue
优先队列的特点普通队列遵守先进先出(FIFO)的规则,而优先队列虽然也叫队列,规则有所不同: 最大优先队列:优先级最高的元素先出队最小优先队列:优先级最低的元素先出队优先队列可以用下面几种数据结 ...

Python爬虫之urllib.parse详解

解析url

解析url（ urlparse() ）

解析url（ urlsplit() ）

解析url（urldefrag()）

组建URL

组建url（urlunparse()）

组建url（urljoin()）

查询参数的构造与解析

Python爬虫之urllib.parse详解的更多相关文章

随机推荐

热门专题