urllib模块常用方法
import urllib.parse
## urlparse() 对url进行解析,并对url按照一定格式进行拆分,返回一个包含6个字符串的元组(协议,位置,路径,参数,查询,判断), 可以将获得的元组强转为list来进行取值
url = "http://www.baidu.com/s?username=zhiliao"
print(urllib.parse.urlparse(url)) #ParseResult(scheme='http', netloc='www.baidu.com', path='/s', params='', query='username=zhiliao', fragment='')
print(list(urllib.parse.urlparse(url)))
## urlunparse() 将上面urlparse解析后的数据组合成url
data =['http','www.baidu.com','index.html','user','a=6','comment']
print(urllib.parse.urlunparse(data))
## urlsplit() 和urlparse()用法一样,只不过返回结果中没有params这个属性
## urljoin() url拼接,以后者为标准
url1 = "https://www.baidu.com/index/index.html"
url2 = "/index/add.html"
a_url = urllib.parse.urljoin(url1, url2)
print(a_url) #https://www.baidu.com/index/add.html
## urlencode() 将字典类型数据解析成查询字符串类型数据, 如果请求数中有中文则会进行编码
data = {"name": "tony", "age": 25}
qs = urllib.parse.urlencode(data)
print(qs) # name=tony&age=25
## parse_qs() 将查询字符串类型数据,解码成字典类型数据
qs = "name=tony&age=25"
print(urllib.parse.parse_qs(qs)) // {'name': ['tony'], 'age': ['25']}
## quote() 编码 unquote 解码
encode_url = urllib.parse.quote("https://www.runoob.com/") # 对一些符号进行编码
print(encode_url)
unencode_url = urllib.parse.unquote(encode_url) # 解码
print(unencode_url)
## quote_plus 编码 unquote_plus 解码
print(urllib.parse.unquote('1+2')) #不解码加号 '1+2'
print(urllib.parse.unquote_plus('1+2')) #把加号解码为空格'1 2'
import urllib.request
## urlopen() 打开一个网页
url = "www.baidu.com"
print(urllib.request.urlopen(url).read())
## Request() 添加请求头,请求数据等
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}
req = urllib.request.Request("http://www.baidu.com/",headers=headers)
resp = urllib.request.urlopen(req)
print(resp.read())
## build_opener() urlopen底层函数,参考https://www.cnblogs.com/tinghai8/p/9044189.html
# 第一步:构建一个HTTPHandler 处理器对象,支持处理HTTP请求
http_handler = urllib.request.HTTPHandler()
# 第二步:调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)
# 第三步:构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")
# 第四步:调用自定义opener对象的open()方法,发送request请求
response = opener.open(request)
# 第五步:获取服务器响应内容
print(response.read())
## urlretrieve() 将网页保存到本地
urllib.request.urlretrieve("http://www.baidu.com/", "baidu.html")
urllib模块常用方法的更多相关文章
- Python核心模块——urllib模块
现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) ...
- 【py网页】urllib模块,urlopen
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 下面是在 Python Shell 里的 urllib 的使用情况: 01 Pyth ...
- Python3学习笔记(urllib模块的使用)转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
- python urllib模块的urlopen()的使用方法及实例
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 一.urllib模块urlopen()函数: urlopen(url, data=N ...
- 全局变量 urllib模块 json模块
1.vars() 查看一个.py文件中的全局变量 print(vars()) #重点 __name__': '__main__ '__file__': 'C:/Users/lenovo/Pychar ...
- python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
- [转]Python核心模块——urllib模块
现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) ...
- Python基础之 urllib模块urlopen()与urlretrieve()的使用方法详解。
Python urllib模块urlopen()与urlretrieve()的使用方法详解 1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) ...
- urllib模块
python爬虫-urllib模块 urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web ...
- Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿 作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
随机推荐
- [转帖]【存储测试】vdbench存储性能测试工具
一.前言 1.介绍 vdbench是一个I/O工作负载生成器,通常用于验证数据完整性和度量直接附加(或网络连接)存储性能.它可以运行在windows.linux环境,可用于测试文件系统或块设备基准性 ...
- [转帖]【JVM】类文件结构
Class文件的定义 一组以8字节为基础单位的二进制流, 各个数据项目严格按照顺序紧凑排列在class文件中, 中间没有任何分隔符,这使得class文件中存储的内容几乎是全部程序运行的程序. 注:Ja ...
- [转贴]loadrunner 场景设计-添加Unix、Linux Resources计数器
loadrunner 场景设计-添加Unix.Linux Resources计数器 https://www.cnblogs.com/shouke/p/10158239.html 场景设计-添加Un ...
- 非root用户搭建sftp以及进行简要使用的介绍
sftp的简介 关于sftp sftp是Secure FileTransferProtocol的缩写,安全文件传送协议,可以为传输文件提供一种安全的加密方法. sftp与 ftp有着几乎一样的语法和功 ...
- Object.defineProperty熬夜整理的用法,保证你看的明白!
Object.defineProperty的基本使用 <script> let personObj={ name:'何西亚', sex:'男' } //我们想给这个对象添加一个属性 // ...
- vs不同版本支持的c++版本和PlatformToolset,及在vs中切换c++版本
找c++资料从网上找确实更快速,但要想深入地理解vc++建议看msdn文档. vs不同版本支持的c++版本 C++17: vs2017基本支持,vs2015部分支持. C++14: vs2017就可以 ...
- TienChin 渠道管理-渠道导入
ChannelController @PostMapping("/importTemplate") void importTemplate(HttpServletResponse ...
- 【Jmeter】Request1输出作为Request2输入-后置处理器
[Jmeter]基础介绍-详细 接上文,继续介绍Jmeter,本文关注点为如何解决上文中提到的第一个问题,即: 需要实现Request1的返回作为Request2的RequestBody或Header ...
- 全套解决方案:中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
全套解决方案:基于pytorch.transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据! 1.简介 目标:基于pytorch.transformers做中文领 ...
- 深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL.RN.PN.MN 1.Simple Neural Attentive Learner(SNAIL) 元学习可以被定义为一种序列到序列的问题 ...