Python HTML解析模块HTMLParser(爬虫工具)

简介

　　先简略介绍一下。实际上，HTMLParser是python用来解析HTML的内置模块。它可以分析出HTML里面的标签、数据等等，是一种处理HTML的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以"handle_"开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以"handle_"开头的函数即可。这几个函数包括：
（1）handle_startendtag 　　处理开始标签和结束标签（即单标签）
（2）handle_starttag     　　   处理开始标签，比如<xx>
（3）handle_endtag       　　处理结束标签，比如</xx>
（4）handle_charref      　　   处理特殊字符串，就是以&#开头的，一般是内码表示的字符
（5）handle_entityref   　　   处理一些特殊字符，以&开头的，比如  
（6）handle_data         　　   处理数据，就是<xx>data</xx>中间的那些数据
（7）handle_comment          处理注释
（8）handle_decl         　　    处理<!开头的，比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
（9）handle_pi           　　      处理形如<?instruction>的东西

实例

　　OK，废话少说，直接上手，来一个简单的爬虫实例——抓取贴吧图片。

 from html.parser import HTMLParser

 from urllib import request

 class MyHTMLParser(HTMLParser):     # 创建HTML解析类

     def __init__(self):

         HTMLParser.__init__(self)

         self.gifs_urls = []         # 创建列表，保存gif

         self.jpgs_urls = []         # 创建列表，保存jpg

     # 重写HTMLParser中的内置方法

     def handle_starttag(self, tags, attrs):  # 处理起始标记

         if tags == 'img':   # 处理图片

             for attr in attrs:

                 for t in attr:

                     if 'gif' in t and 'https' in t:

                         self.gifs_urls.append(t)    # 添加到gif列表

                     elif 'jpg' in t and 'https' in t:

                         self.jpgs_urls.append(t)    # 添加到jpg列表

                     else:

                         pass

     # 自定义的方法

     def get_gifs(self):     # 返回gif列表

         return self.gifs_urls

     def get_jpgs(self):     # 返回jpg列表

         return self.jpgs_urls

     # 自定义的方法，获取页面

     def getHTML(self,url):

         req=request.Request(url,method='GET')

         html=request.urlopen(req,timeout=30)

         return html.read()

     # 自定义的方法，批量下载图片

     def downImgs(self,img_urls,n=10,path='Image/'):

         count=1

         for url in img_urls:

             request.urlretrieve(url=url,filename='{0}{1}{2}'.format(path,count,'.jpg'))

             count=count+1

             if count == n + 1:

                 print('共下载%d张图片' %(n))

                 return

 if __name__ == '__main__':

     Url = 'http://tieba.baidu.com/p/2256306796'

     HtmlParser=MyHTMLParser()

     Html=HtmlParser.getHTML(Url)

     # print(Html)

     HtmlParser.feed(str(Html))      #开始解析HTML，自动调用HTMLParser中的内置方法

     HtmlParser.downImgs(HtmlParser.get_jpgs())

　　至此，转载请注明出处。

Python HTML解析模块HTMLParser(爬虫工具)的更多相关文章

Python HTML解析器BeautifulSoup(爬虫解析器)
BeautifulSoup简介我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...
关于解决Python中requests模块在PyCharm工具中导入问题
问题引入: 今天在学习Python网络请求的时候,导入requests模块时一直报红色波浪线,如图: 反复折腾,一直以为自己没有安装requests模块,反复安装反复卸载: 安装方法: 首先 cd 进 ...
python 配置文件解析模块 configparser
import ConfigParser //实例化cf = ConfigPraser.ConfigPraser()cf.read("配置文件") //获取所有sections.也就 ...
面试官问我：如何在 Python 中解析和修改 XML
摘要:我们经常需要解析用不同语言编写的数据.Python提供了许多库来解析或拆分用其他语言编写的数据.在此 Python XML 解析器教程中,您将学习如何使用 Python 解析 XML. 本文分享 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫工具集合
python爬虫工具集合大家一起来整理吧!强烈建议PR.这是初稿,总是有很多问题,而且考虑不全面,希望大家支持! 源文件主要针对python3 常用库 urllib Urllib是python提供 ...
Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容. 为了知道POST方法所需要传 ...
python爬虫工具
一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...
python命令行参数解析模块argparse和docopt
http://blog.csdn.net/pipisorry/article/details/53046471 还有其他两个模块实现这一功能,getopt(等同于C语言中的getopt())和弃用的o ...

随机推荐

rest-framework之认证组件
认证组件认证简介作用:校验是否登录首先定义一个类,集成BaseAuthentication,写一个方法:authenticate,在方法内部,实证过程,认证通过,返回None或者两个对象(use ...
mysql 开发进阶篇系列 48 物理备份与恢复(xtrabackup 的增量备份与恢复，以及备份总结)
一.增量备份概述 xtrabackup 和innobackupex 二个工具都支持增量备份,这意味着能复制自上次备份以来更改的数据.可以在每个完整备份之间执行许多增量备份,因此,您可以设置一个备份 ...
sql server 性能调优之资源等待PAGELATCH
一.概述在前几章介绍过 sql server 性能调优资源等待之PAGEIOLATCH,PAGEIOLATCH是出现在sql server要和磁盘作交互的时候,所以加个IO两个字.这次来介绍PAGE ...
[Jenkins]Console Output中文显示问号的问题解决
------------------------------------------------------ 如需转载,请注明出处. 文章链接:https://www.cnblogs.com/dzbl ...
Android UI（四）云通讯录项目之云端更新进度条实现
作者:泥沙砖瓦浆木匠网站:http://blog.csdn.net/jeffli1993个人签名:打算起手不凡写出鸿篇巨作的人,往往坚持不了完成第一章节.交流QQ群:[编程之美 365234583]h ...
nohup & expect & netstat学习
1.nohup 用途:不挂断地运行命令,通常加上‘&’命令,& 放在命令后面表示设置此进程为后台进程.分为两种情况,如下: 在不使用密码的情况下使用nohup,只需按如下形式即可: n ...
（转）MySQL join语法解析与性能分析
文章转载的:http://www.cnblogs.com/BeginMan/p/3754322.html 一.join语法概述 join用于多表中字段之间的联系,语法如下: ... FROM tabl ...
[转]Javascript中几种较为流行的继承方式
出处:http://www.jianshu.com/p/a6c005228a75 开篇从'严格'意义上说,javascript并不是一门真正的面向对象语言.这种说法原因一般都是觉得javascrip ...
date、sleep和usleep命令
bash&shell系列文章:http://www.cnblogs.com/f-ck-need-u/p/7048359.html 1.1 date命令 date用于获取和设置操作系统的时间,还 ...
Perl导入代码文件
从函数复用开始:eval和do执行perl文件当我们定义了一个功能比较通用的子程序,比如获取数值的绝对值.想要到处使用这个子程序,就得不断复制.粘贴这段绝对值函数的定义文本.显然,这是不太理想的方式 ...

Python HTML解析模块HTMLParser(爬虫工具)

简介

实例

Python HTML解析模块HTMLParser(爬虫工具)的更多相关文章

随机推荐

热门专题