Python笔记（十三）：urllib模块

（一） URL地址

URL地址组件

URL组件	说明
scheme	网络协议或下载方案
net_loc	服务器所在地（也许含有用户信息）
path	使用（/）分割的文件或CGI应用的路径
params	可选参数
query	连接符（&）分割的一系列键值对
fragment	指定文档内特定锚的部分

net_loc组件

user:password@host:port

组件	说明
user	用户名或登录
password	用户密码
host	运行web服务器的计算机名称或地址（必需）
port	端口号（如果不是默认的80）

（二） urllib

这里主要说明urllib.request和urllib.parse.

（三） urllib.request

urllib.request

组件

说明

urlopen(url,data=None)

打开URL链接，并返回一个文件类型对象，就像open用二进制只读方式在本地打开了一个文件一样。

url:可以是url字符串，也可以是请求对象

data:url是post请求时，可以指定要传的数据

urlretrieve(url,filename=None)

下载url中的文件

filename：文件名及路径（没有指定路径则存放到当前工作目录下）

urlopen对象方法

组件	说明
read()	读取所有数据
readline()	读取一行数据
readlines()	读取所有行，作为列表返回
fileno()	返回文件句柄
close()	关闭url连接（close及上面4个方法和open的同名方法是一样的）
info()	返回MIME（多目标因特网邮件扩展）头文件。这个头文件通知浏览器返回的文件类型、以及可用哪类应用程序打开。
geturl()	返回真正的url（例如如果出现重定向，就可以从最终打开的文件中获得真正的url）
getcode()	返回HTTP状态码

 1 import  urllib.request

 url = 'https://tieba.baidu.com/p/5475267611'

 #打开url（就像用open二进制只读方式打开一个文件一样），使用read读取所有数据

 html = urllib.request.urlopen(url).read()

 print(type(html))

 url_file = 'https://imgsa.baidu.com/forum/w%3D580/sign=99114e38abec08fa260013af69ef3d4d/e549b13533fa828bc80c7764f61f4134960a5a85.jpg'

 #下载url中的文件并保存

 urllib.request.urlretrieve(url_file,'C:\Temp\\1.jpg')

 #返回MIEM头文件

 html_info = urllib.request.urlopen(url).info()

 print(html_info)

（四） urlib.parse

urlib.parse

函数	说明
urlparse(urlstr)	将url解析为一个元组(scheme='', netloc='', path='', params='', query='', fragment='')
urlunparse(urltup)	和urlparse相反，将url组件（一个元组）拼接为完整的url
urljoin(base,url)	将base的根域名和url拼接为一个完整的url base：函数会自动截取net_loc及前面的所有内容

 1 import urllib.parse

 url = 'https://www.cnblogs.com/cate/python/'

 newurl = '/cate/ruby/'

 #将url解析为一个元组(scheme='', netloc='', path='', params='', query='', fragment='')

 urlpar = urllib.parse.urlparse(url)

 print('urlparse示例：',urlpar)

 #和urlparse刚好相反，将元组(scheme='', netloc='', path='', params='', query='', fragment='')拼接为完整的url

 urlunp = urllib.parse.urlunparse(urlpar)

 print('urlunparse示例：',urlunp)

 #将url netloc及前面部分的内容与newurl连接起来

 url_ruby = urllib.parse.urljoin(url,newurl)

 print('urljoin示例：',url_ruby)

Python笔记（十三）：urllib模块的更多相关文章

Python笔记(十三)_os模块和os.path模块
os模块中关于文件/目录常用的函数使用方法 getcwd() 返回当前工作目录 chdir(path) 改变工作目录 listdir(path='.') 列举指定目录中的文件名('.'表示当前目录,' ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
13.python笔记之pyyaml模块
Date:2016-03-25 Title:13.Python笔记之Pyymal模块使用 Tags:Python Category:Python 博客地址:www.liuyao.me 作者:刘耀 YA ...
python笔记之常用模块用法分析
python笔记之常用模块用法分析内置模块(不用import就可以直接使用) 常用内置函数 help(obj) 在线帮助, obj可是任何类型 callable(obj) 查看一个obj是不是可以像 ...
python笔记之bisect模块
python笔记之bisect模块当你决定使用二分搜索时,这个模块会给你带来很大的帮助. 例子 import bisect L = [1,3,3,6,8,12,15] x = 3 #在L中查找x,x ...
python笔记之itertools模块
python笔记之itertools模块 itertools模块包含创建有效迭代器的函数,可以用各种方式对数据进行循环操作,此模块中的所有函数返回的迭代器都可以与for循环语句以及其他包含迭代器(如生 ...
python笔记之ZipFile模块
python笔记之ZipFile模块 zipfile模块用来做zip格式编码的压缩和解压缩的,zipfile里有两个非常重要的class, 分别是ZipFile和ZipInfo, 在绝大多数的情况下, ...
python笔记之subprocess模块
python笔记之subprocess模块 [TOC] 从Python 2.4开始,Python引入subprocess模块来管理子进程,以取代一些旧模块的方法:如 os.system.os.spaw ...
python笔记之Cmd模块
python笔记之Cmd模块 Cmd类型提供了一个创建命令行解析器的框架,默认情况下,它使用readline来进行交互式操作.命令行编辑和命令完成. 使用cmd创建的命令行解释器循环读取输入的所有行并 ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...

随机推荐

Day.js - JavaScript时间处理库
Day.js简介在使用JavaScript处理时间方面,使用的时Moment.js,但是它太重了,有200多k,一般项目中可能也只是用了几个api而已,所以,这里推荐一个轻量的时间库 - Day.j ...
微信 JS-SDK 签名验证
doc: http://mp.weixin.qq.com/wiki/7/aaa137b55fb2e0456bf8dd9148dd613f.html demo:http://demo.open.weix ...
OSGI动态加载删除Service bundle
OSGi模块化框架是很早就出来的一个插件化框架,最早Eclipse用它而出名,但这些年也没有大热虽然OSGi已经发布了版本1到版本5.现在用的最多的,也是本文讲述基于的是Equinox的OSGi实现, ...
全网最详细的再次或多次格式化导致namenode的ClusterID和datanode的ClusterID之间不一致的问题解决办法（图文详解）
不多说,直接上干货! java.io.IOException: Incompatible clusterIDs in /opt/modules/hadoop-2.6.0/data/tmp/dfs/da ...
第十五章-class类文件结构
参考博文: (1)关于class的签名Signature (2)关于访问标识 (3)关于Class中的Signature属性 (4)附录1 常量池解析 (5)附录2 方法解析 (6)Class文件结构 ...
代理模式——java设计模式
代理模式(Proxy Pattern) GoF中给出的代理模式的定义为: 代理模式给某一个对象提供一个代理或占位符,并由代理对象来控制对原对象的访问. 代理模式的英文叫做Proxy或Surrogate ...
前端模块化之CommonJS,ES6,AMD,CMD
最近在搞跨平台解决方案,讨论关于模块划分的问题以及如何尽量多的复用逻辑代码.于是就有了此文章,之前的博客也写过,不过由于主机商跑路,宝贵的资源也就没了,说多了都是泪~ 这里按模块化发展的历史回溯的时间 ...
自我总结（四） ---java web项目完结，j2ee的开始
自我完善的过程就是在不断的自我总结不断的改进. 前半个月刚好把项目做完了,项目也答辩了.总的来说吧,我觉得自己在java web这块知识上不算是彻彻底底把他弄懂了,就是说到的知识点都能够回答的上来一些 ...
k-近邻算法(KNN)
最近邻算法可以说是最简单的分类算法,其思想是将被预测的项归类为和它最相近的项相同的类.我们通过简单的计算比较即将被预测的项与已有训练集中各项的距离(差距),选择其中差距最小的一项,该项的类别即为我们即 ...
几句话的事儿，LogBack急速使用
1.说说logback 在java的世界里面好像从来只有log4j,因为它是在太有名气了.说实话,我也没觉得它那里不好,至少在我自己的项目里,它工作的好好的.但是主流有一种声音,在慢慢的放弃它,最始作 ...

Python笔记（十三）：urllib模块

Python笔记（十三）：urllib模块的更多相关文章

随机推荐

热门专题