文中所有python代码均使用的是python2.7实现,与python3并不兼容。

UrlLib模块

urllib模块是适用于一个简单的网络数据获取和处理(不能处理有关验证和cookie等功能),官方文档的介绍主要是给了两个文档链接和三个标准:

- 基本网络名词的介绍和格式定义规则

文档地址:http://www.w3.org/pub/WWW/Addressing/Overview.html

urllib 网页抓取

urllib模块主要的功能就是提供了一个对www协议访问的接口urlopen(),让我们可以直接通过url对网页进行读取,操作比较简单,可以如同操作文件一样读取文件,但也仅限读取,操作相对还是比较简单.

如下,为一个简单的使用urllib模块对网页访问的操作:

import sys,urllib

def accessByUrllib():
print "access html by urllib"
url="http://www.enjoytoday.cn/posts/362"
page=urllib.urlopen(url)
#print "page html:%s" % page.read() #返回html文件内容
print "\npage info:%s " % page.info() #返回基本信息(头信息)
print "\npage code:%s"% page.getcode() #http请求响应码,若非http则返回None
print "\npage url:%s"%page.geturl() #请求url,真实访问url(重定问情况下和url不相同)
print "\npage headers: %s"%page.headers #返回头信息 #将html写入本地,两种方法
url_file=open("./test.html",'wb+')
url_file.write(page.read())
url_file.close() #使用urllib模块直接写入
urllib.urlretrieve(url,"./test2.html") if __name__ == "__main__":
accessByUrllib()

如下为返回数据(由于html文件内容较多,所以将其屏蔽):

access html by urllib

page info:Date: Thu, 09 Nov 2017 14:27:43 GMT
Server: Apache/2.4.7 (Ubuntu)
Set-Cookie: JSESSIONID=6266B422E20D2F229556E51B9C4BCF8B.ajp13_worker;path=/;HttpOnly
Content-Language: en-US
Vary: Accept-Encoding
Connection: close
Content-Type: text/html;charset=UTF-8 page code:200 page url:http://www.enjoytoday.cn/posts/362 page headers: Date: Thu, 09 Nov 2017 14:27:43 GMT
Server: Apache/2.4.7 (Ubuntu)
Set-Cookie: JSESSIONID=6266B422E20D2F229556E51B9C4BCF8B.ajp13_worker;path=/;HttpOnly
Content-Language: en-US
Vary: Accept-Encoding
Connection: close
Content-Type: text/html;charset=UTF-8 Process finished with exit code 0

urllib其他用法

如上,为urllib 中的基本对网页的处理,如下介绍一些简单的请求处理以及url的处理操作

请求方式

默认的urllib采用GET方式进行请求操作,如下介绍如何指定请求方式:

   def requestMethod(method="GET"):
'''
默认的urllib是以GET方式进行请求,可以通过使用urlencode()方法对其实现post请求,传入数据为类字典类型,key:vaule格式,但
默认参数类型为标准的application/x-www-form-urlencoded表单格式,不可更改
:param method: 指定请求方式:GET,POST
:return:
'''
url="http://www.enjoytoday.cn/posts/362"
if method:
if method=="GET":
page=urllib.urlopen(url)
print "get request return:%s"%page.read()
elif method=="POST":
reload(sys)
sys.setdefaultencoding('utf-8') #解决 'ascii' codec can't encode characters问题,注意需要在调用setdefaultencoding()之前先reload(sys)不然会抛出没有该方法.
dic={"name":u'飞云不在线',"sex":"man"}
params=urllib.urlencode(dic)
page=urllib.urlopen("%s?%s"%(url,params))
print "post request return:%s" %page.read()
else:
raise Exception("pass param format error.")
else:
raise Exception("param must not be Empty.")

如上为方法的基本使用.

url和路径转化
def transferUrl():
'''
url 和本地路径转化
:return:
'''
path = "D://python/test/tt.txt"
url=urllib.pathname2url(pathname=path)
print "path transfer to url:%s" % url
print "url transfer to path:%s" %urllib.url2pathname(url)
字符串的编解码
def encodeStr():
'''
字符串的编码和解码
:return:
'''
s="飞云不在线%%_345&" quote_s=urllib.quote(s)
quote_plus_s=urllib.quote_plus(s)
unquote_s=urllib.unquote(quote_s)
unquote_plus_s=urllib.unquote_plus(quote_plus_s) #encode
print "quote encode:%s"%quote_s
print "quote plus encode:%s"%quote_plus_s
#decode
print "quote decode:%s" % unquote_s
print "quote plus decode:%s" % unquote_plus_s #运行结果如下:
quote encode:%E9%A3%9E%E4%BA%91%E4%B8%8D%E5%9C%A8%E7%BA%BF%25%25_345%26
quote plus encode:%E9%A3%9E%E4%BA%91%E4%B8%8D%E5%9C%A8%E7%BA%BF%25%25_345%26
quote decode:飞云不在线%%_345&
quote plus decode:飞云不在线%%_345&

Enjoytoday,EnjoyCoding

urllib模块使用笔记的更多相关文章

  1. Python3学习笔记(urllib模块的使用)转http://www.cnblogs.com/Lands-ljk/p/5447127.html

    Python3学习笔记(urllib模块的使用)   1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None,  ...

  2. python学习笔记(十七)网络编程之urllib模块

    如何用python打开一个网站或者请求一个接口呢,我们在这篇博客介绍一下. 首先我们得导入一个urllib模块,这个模块是python自带的标准模块,直接导入就能使用,但是用起来不方便,先看个简单的打 ...

  3. python学习笔记:网络请求——urllib模块

    python操作网络,也就是打开一个网站,或者请求一个http接口,可以使用urllib模块.urllib模块是一个标准模块,直接import urllib即可,在python3里面只有urllib模 ...

  4. urllib模块的使用

    Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ca ...

  5. [自娱自乐] 4、超声波测距模块DIY笔记(四)——终结篇·基于C#上位机软件开发

    前言 上一节我们已经基本上把超声波硬件的发射和接收模块全部做好了,接下来我们着手开发一个软硬结合的基于C#的平面定位软件! 目录 一.整体思路 二.效果提前展示 2-1.软件部分展示 2-2.硬件部分 ...

  6. [自娱自乐] 3、超声波测距模块DIY笔记(三)

    前言 上一节我们已经研究了超声波接收模块并自己设计了一个超声波接收模块,在此基础上又尝试用单片机加反相器构成生成40KHz的超声波发射电路,可是发现采用这种设计的发射电路存在严重的发射功率太低问题,对 ...

  7. Python核心模块——urllib模块

    现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) ...

  8. 【py网页】urllib模块,urlopen

    Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 下面是在 Python Shell 里的 urllib 的使用情况: 01 Pyth ...

  9. python urllib模块的urlopen()的使用方法及实例

    Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 一.urllib模块urlopen()函数: urlopen(url, data=N ...

随机推荐

  1. luogu P2507 [SCOI2008]配对

    题目描述 你有 n 个整数Ai和n 个整数Bi.你需要把它们配对,即每个Ai恰好对应一个Bp[i].要求所有配对的整数差的绝对值之和尽量小,但不允许两个相同的数配对.例如A={5,6,8},B={5, ...

  2. Spring简介即Spring Ioc

    Spring框架简介 Spring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE De ...

  3. CodeForces1006C-Three Parts of the Array

    C. Three Parts of the Array time limit per test 1 second memory limit per test 256 megabytes input s ...

  4. 分布式监控告警平台Centreon快速使用

    一. Centreon概述 Centreon是一款功能强大的分布式IT监控系统,它通过第三方组件可以实现对网络.操作系统和应用程序的监控:首先,它是开源的,我们可以免费使用它:其次,它的底层采用nag ...

  5. usb2.0高速视频采集之68013A寄存器配置说明

    任何的固件编程离不开与与原理图参考,图纸中所采用的是USB的Slave_fifo传输方式,具体配置与图纸对应即可. •USB_IFCLK:同步Slave_FIFO模式,输入频率范围5M-48M,在FP ...

  6. Day 03 作业

    简述变量的组成 变量名,赋值符号,变量值 简述变量名的命名规范 变量名应该能反映变量值所描述的状态 变量名必须以字母数字下划线组合且不能以数字开头 变量名不能是关键字 简述注释的作用 让后面的代码失效 ...

  7. Selnium IDE插件的安装与简单使用

    一.Firefox在线安装IDE插件 1.启动Firefox,点击菜单工具->附加组件,如图: 2.在附件管理页面,手动输入Selenium IDE,搜索 3.在搜索结果中点击Selenium ...

  8. 可编程逻辑(FPGA)与硬核处理器(HPS)之间互联的结构

    本周我想进一步探究可编程逻辑(FPGA)与硬核处理器(HPS)之间互联的结构.我发现了三种主要方式,它们是如何映射并处理通信的,哪些组件需要管控时序并且有访问权限. AXI Bridge 为了能够实现 ...

  9. ubuntu14.04编译vim8.1

    安装依赖 这一步其实我没做,直接下载编译成功了.估计有些包不是必需的.姑且列在这里供参考 sudo apt install libncurses5-dev libgnome2-dev libgnome ...

  10. 【CV现状-3.2】纹理与材质

    #磨染的初心--计算机视觉的现状 [这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣.可以随意传播,随意喷.所涉及的内容过多,将按如下内容划分章节.已经完成的会逐渐加上链接.] 缘起 三维感 ...