urllib.parse解析链接

1. `urlparse() 解析链接，注意，返回值比3多一个params的属性`

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')

print(type(result), result)

<class 'urllib.parse.ParseResult'>

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

结果

2. `urlunparse() 生成链接，数组必须要有6个元素`

from urllib.parse import urlunparse

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']

print(urlunparse(data))

http://www.baidu.com/index.html;user?a=6#comment

结果

3. `urlsplit() 解析链接，一般用这个，因为网上的链接大多都没有params`

from urllib.parse import urlsplit

result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment')

print(result)

SplitResult(scheme='http', netloc='www.baidu.com', path='/index.html;user', query='id=5', fragment='comment')

结果

4. `urlunsplit() 生成链接，数组中有且仅有5个值`

from urllib.parse import urlunsplit

data = ['http', 'www.baidu.com', 'index.html', 'a=6', 'comment']

print(urlunsplit(data))

http://www.baidu.com/index.html?a=6#comment

结果

5. `urljoin() 合并链接，`

from urllib.parse import urljoin

print(urljoin('http://www.baidu.com', 'FAQ.html'))

print(urljoin('http://www.baidu.com', 'https://cuiqingcai.com/FAQ.html'))

print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html'))

print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html?question=2'))

print(urljoin('http://www.baidu.com?wd=abc', 'https://cuiqingcai.com/index.php'))

print(urljoin('http://www.baidu.com', '?category=2#comment'))

print(urljoin('www.baidu.com', '?category=2#comment'))

print(urljoin('www.baidu.com#comment', '?category=2'))

http://www.baidu.com/FAQ.html

https://cuiqingcai.com/FAQ.html

https://cuiqingcai.com/FAQ.html

https://cuiqingcai.com/FAQ.html?question=2

https://cuiqingcai.com/index.php

http://www.baidu.com?category=2#comment

www.baidu.com?category=#comment

www.baidu.com?category=

结果

6. `urlencode() 参数序列化`

from urllib.parse import urlencode

params = {

    'name': 'germey',

    'age':

}

base_url = 'http://www.baidu.com?'

url = base_url + urlencode(params)

print(url)

http://www.baidu.com?name=germey&age=22

结果

7. `parse_qs()` 反序列化

from urllib.parse import parse_qs

query = 'name=germey&age=22'

print(parse_qs(query))

这个结合1或者3非常实用的，怎么实用自行脑补。

{'name': ['germey'], 'age': ['']}

结果

8. `parse_qsl()` 将参数转化为元组组成的列

from urllib.parse import parse_qsl

query = 'name=germey&age=22'

print(parse_qsl(query))

[('name', 'germey'), ('age', '')]

结果

9. `quote()` 将内容转化为URL编码的格式，URL中带有中文参数时，请使用。

from urllib.parse import quote

keyword = '壁纸'

url = 'https://www.baidu.com/s?wd=' + quote(keyword)

print(url)

https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8

结果

值得注意的是：只能用在参数部分，否则整个url都编码了，他的亲爹都不认识了。

10. `unquote()` 与9正好相反

from urllib.parse import unquote

url = 'https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8'

print(unquote(url))

https://www.baidu.com/s?wd=壁纸

结果

参考自：https://cuiqingcai.com/5508.html

urllib.parse解析链接的更多相关文章

urllib库:解析链接
1from urllib.parse import urlparse, urlunparse, urlsplit, urlunsplit, urljoin, urlencode, parse_qs, ...
Python 的 urllib.parse 库解析 URL
Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数. 解析url urlparse() 函数可以将 URL 解析成 ParseResult 对象.对象中包含了六 ...
URL组成成分及各部分作用简介及urllib.parse / uri
URL的一般格式为(带方括号[]的为可选项): protocol :// hostname[:port] / path / [;parameters][?query]#fragment urllib. ...
(转)Python3 模块3之 Urllib之 urllib.parse、urllib.robotparser
原文:https://blog.csdn.net/qq_36148847/article/details/79153738 https://blog.csdn.net/zly412934578/art ...
python爬虫之解析链接
解析链接 1. urlparse() & urlunparse() urlparse() 是对url链接识别和分段的,API用法如下: urllib.parse.urlparse(urlstr ...
我与python3擦肩而过（三）—— 我去。。又是编码问题——urllib.parse.unquote
记得初学python时就学的爬虫,经常遇到编码问题(其实在python3里面编码问题已经很少了...),用requests库就挺方便解决这些问题的.近来有共同学习python的程序员写了个电子书网站, ...
urllib.parse
1 url分解 import urllib.parse result = urllib.parse.urlparse('http://www.baidu.com') print(result) 结果为 ...
urllib.parse.parse_qsl 的一个小问题
最近在使用urllib时发现的一个问题,记录一下. 首先请分别执行下面这两句代码: 1."你好".encode("utf8").decode("gbk ...
urllib url解析学习
#!/usr/bin/env python # encoding: utf-8 from urllib.parse import * #urlparse:解析url分段 #urlsplit:类似url ...

随机推荐

40-python基础-python3-字典常用方法-setdefault()
setdefault() 常常需要为字典中某个键设置一个默认值,当该键没有任何值时使用它,如下面的情况: setdefault()方法, 字典.setdefault(键,默认值) 传递给该方法的第一个 ...
Java使用POI读取和写入Excel指南（转）
做项目时经常有通过程序读取Excel数据,或是创建新的Excel并写入数据的需求: 网上很多经验教程里使用的POI版本都比较老了,一些API在新版里已经废弃,这里基于最新的Apache POI 4.0 ...
wordpress系统网站访问慢的解决方案
从2013年5月底开始,google在中国基本处于无法访问状态,谷歌官网域名,香港域名均无法访问,就连之前的IP访问方法也都失效,而Google Adsense打不开,恐怕做谷歌联盟的站长也要倒霉了 ...
linux命令截取文件最后n行（所有命令）
linux命令截取文件最后n行(所有命令) tail -n a.txt > b.txt 联想:系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) una ...
Python Paramiko模块使用
1 执行远程命令 #!/usr/bin/python import paramiko ssh = paramiko.SSHClient() ssh.set_missing_host_key_polic ...
Postman初探
缘起今天要测试一个新接口,返回值应该是现有6个接口返回值中data.CountNum之和.麻烦处有: 1.用户角色不同,接口返回值也有不同.因此要用到的接口很多. 2.要对所有接口的返回值求和,再与 ...
pgtclsh -- PostgreSQL TCLshell 客户端
SYNOPSIS pgtclsh [filename [argument...]] DESCRIPTION 描述 pgtclsh 是一个 Tcl shell 接口,用 PostgreSQL 数据库访问 ...
前端 js javascript
新浪SAE公共资源推荐指数★★★ 支持https http://lib.sinaapp.com/http://lib.sinaapp.com/js/jquery/2.0.3/jquery-2.0.3 ...
Python3-unittest测试框架之DDT数据驱动
unittest测试框架之DDT数据驱动 ddt的使用 DDT数据驱动 DDT:Data Driver Test(数据驱动测试) 数据驱动思想:数据和用例进行分离,通过外部数据去生成测试用例安装 p ...
hdu 6134: Battlestation Operational (2017 多校第八场 1002）【莫比乌斯】
题目链接比赛时没抓住重点,对那个受限制的“分数求和”太过关心了..其实如果先利用莫比乌斯函数的一个性质把后面那个[gcd(i,j)=1]去掉,那么问题就可以简化很多.公式如下这和之前做过的一道题很 ...

urllib.parse解析链接

1. urlparse() 解析链接，注意，返回值比3多一个params的属性

2. urlunparse() 生成链接，数组必须要有6个元素

3. urlsplit() 解析链接，一般用这个，因为网上的链接大多都没有params

4. urlunsplit() 生成链接，数组中有且仅有5个值

5. urljoin() 合并链接，

6. urlencode() 参数序列化

7. parse_qs() 反序列化

8. parse_qsl() 将参数转化为元组组成的列

9. quote() 将内容转化为URL编码的格式，URL中带有中文参数时，请使用。

10. unquote() 与9正好相反

urllib.parse解析链接的更多相关文章

随机推荐

热门专题

1. `urlparse() 解析链接，注意，返回值比3多一个params的属性`

2. `urlunparse() 生成链接，数组必须要有6个元素`

3. `urlsplit() 解析链接，一般用这个，因为网上的链接大多都没有params`

4. `urlunsplit() 生成链接，数组中有且仅有5个值`

5. `urljoin() 合并链接，`

6. `urlencode() 参数序列化`

7. `parse_qs()` 反序列化

8. `parse_qsl()` 将参数转化为元组组成的列

9. `quote()` 将内容转化为URL编码的格式，URL中带有中文参数时，请使用。

10. `unquote()` 与9正好相反