【python】使用Python中的urlparse、urllib抓取和解析网页

一、解析URL

函数urlparse(urlstring [, default_scheme [, allow_fragments]])的作用是将URL分解成不同的组成部分，它从urlstring中取得URL，并返回元组 (scheme, netloc, path, parameters, query, fragment)。注意，返回的这个元组非常有用，例如可以用来确定网络协议(HTTP、FTP等等 )、服务器地址、文件路径，等等。

　　函数urlunparse(tuple)的作用是将URL的组件装配成一个URL，它接收元组(scheme, netloc, path, parameters, query, fragment)后，会重新组成一个具有正确格式的URL，以便供Python的其他HTML解析模块使用。

　　函数urljoin(base, url [, allow_fragments]) 的作用是拼接URL，它以第一个参数作为其基地址，然后与第二个参数中的相对地址相结合组成一个绝对URL地址。函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。需要注意的是，如果基地址并非以字符/结尾的话，那么URL基地址最右边部分就会被这个相对路径所替换。比如，URL的基地址为Http://www.testpage.com/pub，URL的相对地址为test.html，那么两者将合并成http://www.testpage.com/test.html，而非http://www.testpage.com/pub /test.html。如果希望在该路径中保留末端目录，应确保URL基地址以字符/结尾。

　　下面是上面几个函数的详细一点的用法举例：

# -*- coding: UTF-8 -*-

__author__ = 'paul'

import urlparse

URLscheme = "http"

URLlocation = "www.python.org"

URLpath = "lib/module-urlparse.html"

modList = ("urllib", "urllib2", "httplib", "cgilib")

print u"用Google搜索python时地址栏中URL的解析结果"

#parsedTuple = urlparse.urlparse("http://www.google.com/search?hl=en&q=python&btnG=Google+Search")

parsedTuple = urlparse.urlparse("https://www.google.com.hk/?gws_rd=cr,ssl#newwindow=1&safe=strict&q=python")

print parsedTuple#将组件反解析成URL

print "\反解析python文档页面的URL"

unparsedURL = urlparse.urlunparse( \

(URLscheme, URLlocation, URLpath, '', '', ''))

print "\t" + unparsedURL#将路径和新文件组成一个新的URL

print "\n利用拼接方式添加更多python文档页面的URL"

for mod in modList:

    newURL = urlparse.urljoin(unparsedURL, \

    "module-%s.html" % (mod))

    print "\t" + newURL#通过为路径添加一个子路径来组成一个新的URL

print "\n通过拼接子路径来生成Python文档页面的URL"

newURL = urlparse.urljoin(unparsedURL,

"module-urllib2/request-objects.html")

print "\t" + newURL

上述代码的执行结果如下所示：

　　('http', 'www.google.com', '/search', '',

　　'hl=en&q=python&btnG=Google+Search', '')

　　反解析python文档页面的URL

　　http://www.python.org/lib/module-urlparse.html

　　利用拼接方式添加更多python文档页面的URL

　　http://www.python.org/lib/module-urllib.html

　　http://www.python.org/lib/module-urllib2.html

　　http://www.python.org/lib/module-httplib.html

　　http://www.python.org/lib/module-cgilib.html

　　通过拼接子路径来生成Python文档页面的URL

　　http://www.python.org/lib/module-urllib2/request-objects.html

若要通过urllib模块中的urlopen(url [,data])函数打开一个HTML文档，必须提供该文档的URL地址，包括文件名。函数urlopen不仅可以打开位于远程web服务器上的文件，而且可以打开一个本地文件，并返回一个类似文件的对象，我们可以通过该对象从HTML文档中读出数据。

　　一旦打开了HTML文档，我们就可以像使用常规文件一样使用read([nbytes])、readline()和readlines()函数来对文件进行读操作。若要读取整个HTML文档的内容的话，您可以使用read()函数，该函数将文件内容作为字符串返回。

　　打开一个地址之后，您可以使用geturl()函数取得被获取网页的真正的URL。这是很有用的，因为urlopen(或使用的opener对象)也许会伴随一个重定向。获取的网页URL也许和要求的网页URL不一样。

　　另一个常用的函数是位于从urlopen返回的类文件对象中的info()函数，这个函数可以返回URL位置有关的元数据，比如内容长度、内容类型，等等。下面通过一个较为详细的例子来对这些函数进行说明。

# -*- coding: UTF-8 -*-

__author__ = 'paul'

import urllib

webURL = "http://www.163.com"

localURL = r"594915.html"

print localURL

#通过URL打开远程页面

u = urllib.urlopen(webURL)

buffer = u.read()

print u.info()

print "从%s读取了%d 字节数据.\n" % (u.geturl(),len(buffer) )

#通过URL打开本地页面

u = urllib.urlopen(localURL)

buffer = u.read()

print u.info()

print "从%s读取了%d 字节数据.\n" % (u.geturl(),len(buffer) )

【python】使用Python中的urlparse、urllib抓取和解析网页的更多相关文章

使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Python中的urlparse、urllib抓取和解析网页（一）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
python threading模块中对于信号的抓取
最近的物联网智能网关(树莓派)项目中遇到这样一个问题:要从多个底层串口读取发来的数据,并且做出相应的处理,对于每个串口的数据的读取我能想到的可以采用两种方式: 一种是采用轮询串口的方式,例如每3s向每 ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
一.从HTML文档中提取链接模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁.高效地解析HTML文档. 处理HTML文档的时候,我们常常需要从其中提取出所有的链接.使用HTM ...
Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）
使用HtmlAgilityPack 基础请参考这篇博客:https://www.cnblogs.com/fishyues/p/10232822.html 下面是根据抓取的页面string 来解析并保存 ...
Jsoup抓取、解析网页和poi存取excel综合案例——采集网站的联系人信息
需求:采集网站中每一页的联系人信息一.创建maven工程,添加jsoup和poi的依赖包 <!-- https://mvnrepository.com/artifact/org.apache. ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...

随机推荐

20145326《Java程序设计》第一周学习总结
20145326<Java程序设计>第一周学习总结教材学习内容总结转眼间新的一学期终于开始了!为什么我这么期待呢?因为这学期可以上娄嘉鹏老师的java程序设计课,我不是什么电脑天才,之 ...
CF_863_F(Netflow)
codeforces_863_F 题目大意:给出一个数组的大小(n<=50),以及每个位置填数的范围限制(若无限制,即为1-n),最后求填出数组的最小花费,定义总花费为数组中每个数出现次数的平方 ...
Python学习札记(三十) 面向对象编程 Object Oriented Program 1
参考:OOP NOTE 1.面向对象编程--Object Oriented Programming,简称OOP,是一种程序设计思想.OOP把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数. ...
zabbix中监控某个进程的shell脚本
#!/bin/sh ret_ok= ret_warn= ret_critical= ret_unknown= info_count=`ps -aux | awk 'BEGIN {cnt=0} /[^- ...
Codeforces Round #394 (Div. 2) C.Dasha and Password（暴力）
http://codeforces.com/contest/761/problem/C 题意:给出n个串,每个串的初始光标都位于0(列)处,怎样移动光标能够在凑出密码(每个串的光标位置表示一个密码的字 ...
python 正则匹配字符串里面的字符
import re x=re.findall(r'\bf[a-z]*', 'which foot or hand fell fastest') print(x)
动画的使用—Drawable Animation
Drawable Animation可以称为帧动画,因为它是通过每次播放一帧Drawable资源实现的. Drawable Animation算不上真正意义上的动画,因为它的内部实现是通过定时发送消息 ...
python开发_sqlite3_绝对完整_博主推荐
'''SQLite数据库是一款非常小巧的嵌入式开源数据库软件,也就是说没有独立的维护进程,所有的维护都来自于程序本身. 在python中,使用sqlite3创建数据库的连接,当我们指定的数据库文件不 ...
xtrabackup备份之增量备份（二）
测试了差不多一周的xtrabackup,本篇主要聊一下xtrabackup的增量备份.我一开始不是很了解,为什么每周都需要做全备份,每天都需要做增量备份,现在想想这个和技术无关.但是有一个新问题,如果 ...
Laravel框架中Validor中错误信息$error的输出
@if (count($errors) > 0) <div class="alert alert-danger"> <ul> @foreach ($e ...

【python】使用Python中的urlparse、urllib抓取和解析网页

一、解析URL

【python】使用Python中的urlparse、urllib抓取和解析网页的更多相关文章

随机推荐

热门专题