资料:https://docs.python.org/3/library/html.parser.html

python 自带了一个类,叫 HTMLParser。

我们用的时候需要自己定义一个类,继承自 HTMLParser 。然后重写一部分方法。

下面是我们常用的解析html的方法,可以看到在 HTMLParser 里面,这些方法内容都是空的,也就是如果我们要用某个方法,我们得自己再我们的类里面重写这个方法。具体的每个方法的使用方式参见下文。

  1. # Overridable -- finish processing of start+end tag: <tag.../>
  2. def handle_startendtag(self, tag, attrs):
  3. self.handle_starttag(tag, attrs)
  4. self.handle_endtag(tag)
  5.  
  6. # Overridable -- handle start tag
  7. def handle_starttag(self, tag, attrs):
  8. pass
  9.  
  10. # Overridable -- handle end tag
  11. def handle_endtag(self, tag):
  12. pass
  13.  
  14. # Overridable -- handle character reference
  15. def handle_charref(self, name):
  16. pass
  17.  
  18. # Overridable -- handle entity reference
  19. def handle_entityref(self, name):
  20. pass
  21.  
  22. # Overridable -- handle data
  23. def handle_data(self, data):
  24. pass
  25.  
  26. # Overridable -- handle comment
  27. def handle_comment(self, data):
  28. pass
  29.  
  30. # Overridable -- handle declaration
  31. def handle_decl(self, decl):
  32. pass
  33.  
  34. # Overridable -- handle processing instruction
  35. def handle_pi(self, data):
  36. pass

使用

1. 简单解析

  1. from html.parser import HTMLParser
  2.  
  3. class MyHTMLParser(HTMLParser):
  4. def handle_starttag(self, tag, attrs):
  5. print("Encountered a start tag:", tag)
  6.  
  7. def handle_endtag(self, tag):
  8. print("Encountered an end tag :", tag)
  9.  
  10. def handle_data(self, data):
  11. print("Encountered some data :", data)
  12.  
  13. parser = MyHTMLParser()
  14. parser.feed('<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>')

这里写了一个类 MyHTMLParse ,继承自 HTMLParser。然后重写了 handle_xxx方法。

然后只要调用该类的 feed() 方法,将html格式的数据传进去,遇到特定的数据,就会自动触发相应的方法。比如遇到<html>就会触发handle_starttag()方法进行处理。

执行结果如下:

  1. Encountered a start tag: html
  2. Encountered a start tag: head
  3. Encountered a start tag: title
  4. Encountered some data : Test
  5. Encountered an end tag : title
  6. Encountered an end tag : head
  7. Encountered a start tag: body
  8. Encountered a start tag: h1
  9. Encountered some data : Parse me!
  10. Encountered an end tag : h1
  11. Encountered an end tag : body
  12. Encountered an end tag : html

2. 复杂解析

  1. from html.parser import HTMLParser
  2. from html.entities import name2codepoint
  3.  
  4. class MyHTMLParser(HTMLParser):
  5. def handle_starttag(self, tag, attrs):
  6. print("Start tag:", tag)
  7. for attr in attrs:
  8. print(" attr:", attr)
  9.  
  10. def handle_endtag(self, tag):
  11. print("End tag :", tag)
  12.  
  13. def handle_data(self, data):
  14. print("Data :", data)
  15.  
  16. def handle_comment(self, data):
  17. print("Comment :", data)
  18.  
  19. def handle_entityref(self, name):
  20. c = chr(name2codepoint[name])
  21. print("Named ent:", c)
  22.  
  23. def handle_charref(self, name):
  24. if name.startswith('x'):
  25. c = chr(int(name[1:], 16))
  26. else:
  27. c = chr(int(name))
  28. print("Num ent :", c)
  29.  
  30. def handle_decl(self, data):
  31. print("Decl :", data)
  32.  
  33. parser = MyHTMLParser()

1)解析文档类型申明

传入html数据如下:

  1. parser.feed('<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">')

执行结果如下,可以看到会自动调用 handle_decl() 方法。

  1. Decl : DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"

2) 解析属性

传入html数据如下:

  1. parser.feed('<img src="python-logo.png" alt="The Python logo">')

执行结果如下,可以看到会自动调用 handle_starttag()方法。

  1. Start tag: img
  2. attr: ('src', 'python-logo.png')
  3. attr: ('alt', 'The Python logo')

3)解析数据以及结束标签

传入html数据如下:

  1. parser.feed('<style type="text/css">#python { color: green }</style>')

执行结果如下,可以看到会自动调用 handle_data() 以及 handle_endtag()方法。

  1. Start tag: style
  2. attr: ('type', 'text/css')
  3. Data : #python { color: green }
  4. End tag : style

4)解析备注

传入html数据如下:

  1. parser.feed('<!-- a comment --><!--[if IE 9]>IE-specific content<![endif]-->')

执行结果如下,可以看到会自动调用 handle_comment()方法。

  1. Comment : a comment
  2. Comment : [if IE 9]>IE-specific content<![endif]

5)解析实体字符

传入html数据如下:

  1. parser.feed('&gt;>>')

在html语言中 ‘>’这个符号,实体名称为 &gt , 实体编号为 &#62。这里 &#x3E表示16进制数字,3E转化过来和62 是一致的。

执行结果如下,可以看到会自动调用 handle_entityref() 来处理 &gt ,然后调用 handle_charref()来处理 &#62 以及 &#x3E。

  1. Named ent: >
  2. Num ent : >
  3. Num ent : >

Python 3 解析 html的更多相关文章

  1. 用 ElementTree 在 Python 中解析 XML

    用 ElementTree 在 Python 中解析 XML 原文: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python- ...

  2. Python XML解析(转载)

    Python XML解析 什么是XML? XML 指可扩展标记语言(eXtensible Markup Language). 你可以通过本站学习XML教程 XML 被设计用来传输和存储数据. XML是 ...

  3. python高效解析日志入库

    python脚本解析日志文件入库一般有三个重要的步骤:读文件.解析文件.入库.在这三个方面下功夫,可确保我们获得最优的性能(这里不讨论并发) 1 读文件:一次读一行,磁盘IO太多,效率低下:一次性读如 ...

  4. Python网页解析

    续上篇文章,网页抓取到手之后就是解析网页了. 在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库.它主要的特点就是容错性很好 ...

  5. [Python]ConfigParser解析配置文件

    近期发现非常多接口配置都硬编码在souce file中了,于是就看了下python怎么解析配置文件,重构下这一块. 这个应该是早就要作的... 配置文件: [mysqld] user = mysql ...

  6. Python 文本解析器

    Python 文本解析器 一.课程介绍 本课程讲解一个使用 Python 来解析纯文本生成一个 HTML 页面的小程序. 二.相关技术 Python:一种面向对象.解释型计算机程序设计语言,用它可以做 ...

  7. Python XML解析之ElementTree

    参考网址: http://www.runoob.com/python/python-xml.html https://docs.python.org/2/library/xml.etree.eleme ...

  8. python大法好——Python XML解析

    Python XML解析 什么是XML? XML 被设计用来传输和存储数据. XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识. 它也是元标记语言,即定义了用于定义其他与 ...

  9. python脚本解析json文件

    python脚本解析json文件 没写完.但是有效果.初次尝试,写的比较不简洁... 比较烦的地方在于: 1,中文编码: pSpecs.decode('raw_unicode_escape') 2,花 ...

  10. python dpkt解析ssl流

    用法:python extract_tls_flow.py -vr  white_pcap/11/2018-01-10_13-05-09_2.pcap  -o pcap_ssl_flow.txt  & ...

随机推荐

  1. Mac os 下的文件权限管理

    Mac os 下的文件权限管理 命令 ls -l -A 结果 -rw-r--r-- 1 user admin 2326156 4 12 15:24 adb 横线代表空许可.r代表只读,w代表写,x代表 ...

  2. openstack vm实例pxe无法启动

    问题如下: 创建vm没有任何报错,打开控制台提示: SeaBIOS (versio xxxxxxx) Machine UUID xxxxxxxxxx iPXE (http://ipxe.org) 00 ...

  3. JavaScript初步

    隐式转换 其他类型转换成布尔类型: undefined --> false null --> false 0或者0.0或者NaN --> false 字符串长度为0 --> f ...

  4. [BZOJ4289][PA2012]TAX(最短路)

    首先考虑一种暴力做法,为每条边拆成两条有向边,各建一个点.若某两条边有公共点,则在边所对应的点之间连一条边,权值为两条边中的较大值.这样跑最短路是$O(m^2\log m)$的. 用类似网络流中补流的 ...

  5. NYOJ 298 点的变换 矩阵乘法

    http://acm.nyist.net/JudgeOnline/problem.php?pid=298 最好还是自己手推一下矩阵式子..不算太难..但是有一些小知识.... 首先当然是矩阵的细节.. ...

  6. PHPredis长连接pconnect

    1. 当使用pconnect时,连接会被重用,连接的生命周期是fpm进程的生命周期,而非一次php的执行. 疑惑1: fpm进程的生命周期是指 当前那个还是指所有:    php-fpm通常是1个ma ...

  7. iOS防止button重复点击

    项目中常会遇到在按钮的点击事件中去执行一些耗时操作.如果处理不当经常会出现连续多次点击push多次的情况,造成不好的用户体验. 一种情况是用户快速连续点击,这种情况无法避免.另一种情况是点击一次后响应 ...

  8. extjs用iframe的问题

    项目中用extjs做前提系统的界面是左边用树做目录 右边用tabpanel做内容展示点击树节点的时候 在tabpanel添加新的tab JScript code var newTab = center ...

  9. JavaFX学习之Web

    PopupFeatures 处理新窗口    WebHistory 网页一般都带有历史记录的功能,可以回退,也可以前进,fx用WebHistory处理. final WebHistory wh = w ...

  10. Visual Studio 2015的“转到定义”和“查看定义”出错的Bug

    今天发现Visual Studio 2015的"转到定义"和"查看定义"时出现如下错误: 它对于自己写的代码工作正常,对于系统函数就出现这个错误,将系统设置还原 ...