urllib模块使用笔记
文中所有python代码均使用的是python2.7实现,与python3并不兼容。
UrlLib模块
urllib模块是适用于一个简单的网络数据获取和处理(不能处理有关验证和cookie等功能),官方文档的介绍主要是给了两个文档链接和三个标准:
- 基本网络名词的介绍和格式定义规则
文档地址:http://www.w3.org/pub/WWW/Addressing/Overview.html
HTTP规范文档及其错误代码
相关标准和规范
1) RFC1808(相对URL规范)
2) RFC1738(URL标准)
3) RFC1630(URL规范)
urllib 网页抓取
urllib模块主要的功能就是提供了一个对www协议访问的接口urlopen(),让我们可以直接通过url对网页进行读取,操作比较简单,可以如同操作文件一样读取文件,但也仅限读取,操作相对还是比较简单.
如下,为一个简单的使用urllib模块对网页访问的操作:
import sys,urllib
def accessByUrllib():
print "access html by urllib"
url="http://www.enjoytoday.cn/posts/362"
page=urllib.urlopen(url)
#print "page html:%s" % page.read() #返回html文件内容
print "\npage info:%s " % page.info() #返回基本信息(头信息)
print "\npage code:%s"% page.getcode() #http请求响应码,若非http则返回None
print "\npage url:%s"%page.geturl() #请求url,真实访问url(重定问情况下和url不相同)
print "\npage headers: %s"%page.headers #返回头信息
#将html写入本地,两种方法
url_file=open("./test.html",'wb+')
url_file.write(page.read())
url_file.close()
#使用urllib模块直接写入
urllib.urlretrieve(url,"./test2.html")
if __name__ == "__main__":
accessByUrllib()
如下为返回数据(由于html文件内容较多,所以将其屏蔽):
access html by urllib
page info:Date: Thu, 09 Nov 2017 14:27:43 GMT
Server: Apache/2.4.7 (Ubuntu)
Set-Cookie: JSESSIONID=6266B422E20D2F229556E51B9C4BCF8B.ajp13_worker;path=/;HttpOnly
Content-Language: en-US
Vary: Accept-Encoding
Connection: close
Content-Type: text/html;charset=UTF-8
page code:200
page url:http://www.enjoytoday.cn/posts/362
page headers: Date: Thu, 09 Nov 2017 14:27:43 GMT
Server: Apache/2.4.7 (Ubuntu)
Set-Cookie: JSESSIONID=6266B422E20D2F229556E51B9C4BCF8B.ajp13_worker;path=/;HttpOnly
Content-Language: en-US
Vary: Accept-Encoding
Connection: close
Content-Type: text/html;charset=UTF-8
Process finished with exit code 0
urllib其他用法
如上,为urllib 中的基本对网页的处理,如下介绍一些简单的请求处理以及url的处理操作
请求方式
默认的urllib采用GET方式进行请求操作,如下介绍如何指定请求方式:
def requestMethod(method="GET"):
'''
默认的urllib是以GET方式进行请求,可以通过使用urlencode()方法对其实现post请求,传入数据为类字典类型,key:vaule格式,但
默认参数类型为标准的application/x-www-form-urlencoded表单格式,不可更改
:param method: 指定请求方式:GET,POST
:return:
'''
url="http://www.enjoytoday.cn/posts/362"
if method:
if method=="GET":
page=urllib.urlopen(url)
print "get request return:%s"%page.read()
elif method=="POST":
reload(sys)
sys.setdefaultencoding('utf-8') #解决 'ascii' codec can't encode characters问题,注意需要在调用setdefaultencoding()之前先reload(sys)不然会抛出没有该方法.
dic={"name":u'飞云不在线',"sex":"man"}
params=urllib.urlencode(dic)
page=urllib.urlopen("%s?%s"%(url,params))
print "post request return:%s" %page.read()
else:
raise Exception("pass param format error.")
else:
raise Exception("param must not be Empty.")
如上为方法的基本使用.
url和路径转化
def transferUrl():
'''
url 和本地路径转化
:return:
'''
path = "D://python/test/tt.txt"
url=urllib.pathname2url(pathname=path)
print "path transfer to url:%s" % url
print "url transfer to path:%s" %urllib.url2pathname(url)
字符串的编解码
def encodeStr():
'''
字符串的编码和解码
:return:
'''
s="飞云不在线%%_345&"
quote_s=urllib.quote(s)
quote_plus_s=urllib.quote_plus(s)
unquote_s=urllib.unquote(quote_s)
unquote_plus_s=urllib.unquote_plus(quote_plus_s)
#encode
print "quote encode:%s"%quote_s
print "quote plus encode:%s"%quote_plus_s
#decode
print "quote decode:%s" % unquote_s
print "quote plus decode:%s" % unquote_plus_s
#运行结果如下:
quote encode:%E9%A3%9E%E4%BA%91%E4%B8%8D%E5%9C%A8%E7%BA%BF%25%25_345%26
quote plus encode:%E9%A3%9E%E4%BA%91%E4%B8%8D%E5%9C%A8%E7%BA%BF%25%25_345%26
quote decode:飞云不在线%%_345&
quote plus decode:飞云不在线%%_345&
urllib模块使用笔记的更多相关文章
- Python3学习笔记(urllib模块的使用)转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
- python学习笔记(十七)网络编程之urllib模块
如何用python打开一个网站或者请求一个接口呢,我们在这篇博客介绍一下. 首先我们得导入一个urllib模块,这个模块是python自带的标准模块,直接导入就能使用,但是用起来不方便,先看个简单的打 ...
- python学习笔记:网络请求——urllib模块
python操作网络,也就是打开一个网站,或者请求一个http接口,可以使用urllib模块.urllib模块是一个标准模块,直接import urllib即可,在python3里面只有urllib模 ...
- urllib模块的使用
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ca ...
- [自娱自乐] 4、超声波测距模块DIY笔记(四)——终结篇·基于C#上位机软件开发
前言 上一节我们已经基本上把超声波硬件的发射和接收模块全部做好了,接下来我们着手开发一个软硬结合的基于C#的平面定位软件! 目录 一.整体思路 二.效果提前展示 2-1.软件部分展示 2-2.硬件部分 ...
- [自娱自乐] 3、超声波测距模块DIY笔记(三)
前言 上一节我们已经研究了超声波接收模块并自己设计了一个超声波接收模块,在此基础上又尝试用单片机加反相器构成生成40KHz的超声波发射电路,可是发现采用这种设计的发射电路存在严重的发射功率太低问题,对 ...
- Python核心模块——urllib模块
现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) ...
- 【py网页】urllib模块,urlopen
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 下面是在 Python Shell 里的 urllib 的使用情况: 01 Pyth ...
- python urllib模块的urlopen()的使用方法及实例
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 一.urllib模块urlopen()函数: urlopen(url, data=N ...
随机推荐
- [leetcode] H-Index (Hash Table)
题目: Given an array of citations (each citation is a non-negative integer) of a researcher, write a f ...
- .Net Core使用Ocelot网关(一) -负载,限流,熔断,Header转换
1.什么是API网关 API网关是微服务架构中的唯一入口,它提供一个单独且统一的API入口用于访问内部一个或多个API.它可以具有身份验证,监控,负载均衡,缓存,请求分片与管理,静态响应处理等.API ...
- luogu P1951 收费站_NOI导刊2009提高(2) |二分答案+最短路
题目描述 在某个遥远的国家里,有n个城市.编号为1,2,3,-,n. 这个国家的政府修建了m条双向的公路.每条公路连接着两个城市.沿着某条公路,开车从一个城市到另一个城市,需要花费一定的汽油. 开车每 ...
- SI522和RC522/ZS3801/FM17520的区别
小编最近在测试一颗新的芯片,是国内知名厂家中科微研发的,主打超低功耗的厂家. 经过测试和比较小编发现 相对于MFRC522,SI522可以完全替换,不需要做任何更改,同时接受模式下功耗低10mA左右, ...
- 配置React Native的开发环境
本文转载自:http://mp.weixin.qq.com/s?__biz=MzIxNjEzNjUzOQ==&mid=402020148&idx=2&sn=ccad14a919 ...
- Java修炼——面向对象_抽象类和抽象方法
抽象类和抽象方法 什么是抽象类? 使用 abstract 修饰的类称为抽象类 public abstract class Person { } 抽象类的特征 1) 抽象类不可以创建对象 2) 抽象类可 ...
- 2017 ACM/ICPC 沈阳 F题 Heron and his triangle
A triangle is a Heron’s triangle if it satisfies that the side lengths of it are consecutive integer ...
- 【大厂】389- 解密国内BAT等大厂前端技术体系-阿里篇(长文建议收藏)
进入2019年,大前端技术生态似乎进入到了一个相对稳定的环境,React在2013年发布至今已经6年时间了,Vue 1.0在2015年发布,至今也有4年时间了. 整个业界在前端框架不断迭代中,也寻找到 ...
- 【Web技术】334- yarn、npm、cnpm 三者如何优雅的在一起使用 ?
前端得包管理你有过几个? 一位用不好包管理器的前端,是一个入门级前端,一个用不好webpack的前端,是一个初级前端 三个包管理器是可以一起用的,只要你够胆大心细,就没任何问题! 在javeScrip ...
- 浅析Java堆,栈,方法区
栈(Stack) 1.栈是线程私有的,其生命周期和线程相同. 2.每个方法在执行的时候都会开辟一个栈区,同时创建一个栈帧(Stack Frame). 3.栈帧用于存储局部变量表,操作数栈,动态链接和方 ...