原文链接:http://yifei.me/note/464

最近要做下微信爬虫,之前写个小东西都是直接用正则提取数据就算了,如果需要更稳定的提取数据,还是使用 xpath 定位元素比较可靠。周末没事,从爬虫的角度研究了一下 python xml 相关的库。

Python 标准库中自带了 xml 模块,但是性能不够好,而且缺乏一些人性化的 API,相比之下,第三方库 lxml 是用 Cython 实现的,而且增加了很多实用的功能,可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在 lxml.etree中,所以下文都假定已经执行了

  1. from lxml import etree

解析 XML 字符串

网页下载下来以后是个字符串的形式,使用etree.fromstring(str)构造一个 etree._ElementTree对象,使用 etree.tostring(t)返回一个字符串

  1. >>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>'
  2. >>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好传 byte string
  3. >>> etree.tostring(root)
  4. # 默认返回的是 byte string
  5. b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>'
  6. >>> print(etree.tostring(root, pretty_print=True).decode('utf-8'))
  7. #decode 一下变成 unicode
  8. <root>
  9. <foo id="foo-id" class="foo zoo">Foo</foo>
  10. <bar>Bar</bar>
  11. <baz/> # 注意这里没有子节点的 baz 节点被变成了自闭和的标签
  12. </root>
  13. >>> type(root)
  14. <class 'lxml.etree._Element'>
  15. # 可以看出 tostring 返回的是一个_Element类型的对象,也就是整个 xml 树的根节点

Element结构

etree._Element 是一个设计很精妙的结构,可以把他当做一个对象访问当前节点自身的文本节点,可以把他当做一个数组,元素就是他的子节点,可以把它当做一个字典,从而遍历他的属性

  1. >>> root.text
  2. 'root content' # 注意只是 root 自身的文本,并不包含子节点的文本
  3. >>> root.tag
  4. 'root'
  5. >>> root[0].tag
  6. 'foo'
  7. >>> foo = root[0]
  8. >>> for attr, val in foo.items():
  9. ... print(attr, val)
  10. ...
  11. id foo-id
  12. class foo zoo
  13. >>> foo.get('id')
  14. 'foo-id'
  15. >>> foo.attrib
  16. {'class': 'foo zoo', 'id': 'foo-id'}

Element 和 ElementTree

xml 是一个树形结构,lxml 使用etree._Elementetree._ElementTree来分别代表树中的节点和树,etree.ELementetree.ElementTree 分别是两个工厂函数

  1. >>> t = root.getroottree()
  2. # 获得一个节点对应的树
  3. <lxml.etree._ElementTree object at 0x107295308>
  4. >>> t.getroot() == root
  5. # 使用getroot 返回一个树的根节点
  6. True
  7. >>> foo_tree = etree.ElementTree(root)
  8. # 也可以从一个节点构造一个树,那么这个节点就是这棵树的根
  9. >>> foo_tree.getroot().tag
  10. 'foo'
  11. >>> foo.getroottree().tag
  12. 'root'
  13. #注意,foo 这个节点的 roottree 仍然是以 root 节点为根的

其他方法如getparent()/getprevious()/getnext()都是显而易见的,不赘述了

XPath

XPath 实在太强大了,在定位元素方面绝对是秒杀 CSS 选择器。在 lxml 中,_Element_ElementTree 分别具有xpath 函数,两者的区别在于:

如果是相对路径,_Element.xpath是以当前节点为参考的,_ElementTree.xpath以根为参考

如果是绝对路径,_ElementTree.xpath是以当前节点的getroottree的根节点为参考的

还有,如果 xpaht 表达式应该返回元素的话,总是返回一个数组,即使只有一个元素

  1. >>> foo.xpath('/root')[0].tag
  2. 'root'
  3. >>> foo.xpath('.')[0].tag
  4. 'foo'
  5. >>>
  6. >>> t.xpath('/root')[0].tag
  7. 'root'
  8. >>> t.xpath('.')[0].tag
  9. 'root'
  10. >>>

lxml 还支持几个函数 find/findall,他们使用 ElementPath,是一种类似 xpath 的语言,感觉很是奇怪,lxml 的文档描述他是 xpath 的一个子集,暂时不看了。

HTML

最后再来讨论一下 HTML,以上的讨论都是基于 xml 的,HTML 和 xml 还是有些许不同的,lxml 也有一个专门的 html 模块。

比如我们解析 html 的话最好使用html.fromstring(),返回的是lxml.html.HtmlElement,具有上述的所有能力,同时能够更好地兼容 html。

  1. >>> etree.fromstring('<meta charset=utf-8 />')
  2. # 比如这句就会报错,因为属性值没有用引号括起来
  3. Traceback (most recent call last):
  4. File "<stdin>", line 1, in <module>
  5. File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737)
  6. File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674)
  7. File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220)
  8. File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345)
  9. File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584)
  10. File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238)
  11. File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147)
  12. lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15
  13. >>> html.fromstring('<meta charset=utf-8>')
  14. # 没有问题

html.HtmlElement同时多了几项功能

  1. >>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>')
  2. >>> doc.text_content()
  3. 'lorem poium'

lxml简明教程的更多相关文章

  1. 2013 duilib入门简明教程 -- 第一个程序 Hello World(3)

    小伙伴们有点迫不及待了么,来看一看Hello World吧: 新建一个空的win32项目,新建一个main.cpp文件,将以下代码复制进去: #include <windows.h> #i ...

  2. 2013 duilib入门简明教程 -- 部分bug (11)

     一.WindowImplBase的bug     在第8个教程[2013 duilib入门简明教程 -- 完整的自绘标题栏(8)]中,可以发现窗口最大化之后有两个问题,     1.最大化按钮的样式 ...

  3. 2013 duilib入门简明教程 -- 部分bug 2 (14)

        上一个教程中提到了ActiveX的Bug,即如果主窗口直接用变量生成,则关闭窗口时会产生崩溃            如果用new的方式生成,则不会崩溃,所以给出一个临时的快速解决方案,即主窗口 ...

  4. 2013 duilib入门简明教程 -- 自绘控件 (15)

        在[2013 duilib入门简明教程 -- 复杂控件介绍 (13)]中虽然介绍了界面设计器上的所有控件,但是还有一些控件并没有被放到界面设计器上,还有一些常用控件duilib并没有提供(比如 ...

  5. 2013 duilib入门简明教程 -- 事件处理和消息响应 (17)

        界面的显示方面就都讲完啦,下面来介绍下控件的响应.     前面的教程只讲了按钮和Tab的响应,即在Notify函数里处理.其实duilib还提供了另外一种响应的方法,即消息映射DUI_BEG ...

  6. 2013 duilib入门简明教程 -- FAQ (19)

        虽然前面的教程几乎把所有的知识点都罗列了,但是有很多问题经常在群里出现,所以这里再次整理一下.     需要注意的是,在下面的问题中,除了加上XML属性外,主窗口必须继承自WindowImpl ...

  7. Mac安装Windows 10的简明教程

    每次在Mac上安装Windows都是一件非常痛苦的事情,曾经为了装Win8把整台Mac的硬盘数据都弄丢了,最后通过龟速系统恢复模式恢复了MacOSX(50M电信光纤下载了3天才把系统下载完),相信和我 ...

  8. Docker简明教程

    Docker简明教程 [编者的话]使用Docker来写代码更高效并能有效提升自己的技能.Docker能打包你的开发环境,消除包的依赖冲突,并通过集装箱式的应用来减少开发时间和学习时间. Docker作 ...

  9. 2013 duilib入门简明教程 -- 总结 (20)

        duilib的入门系列就到尾声了,再次提醒下,Alberl用的duilib版本是SVN上第个版本,时间是2013.08.15~       这里给出Alberl最后汇总的一个工程,戳我下载,效 ...

随机推荐

  1. ES4:ElasticSearch 使用C#添加和更新文档

    这是ElasticSearch 2.4 版本系列的第四篇: 第一篇:ES1:Windows下安装ElasticSearch 第二篇:ES2:ElasticSearch 集群配置 第三篇:ES3:Ela ...

  2. java对象克隆以及深拷贝和浅拷贝

    1.什么是"克隆"? 在实际编程过程中,我们常常要遇到这种情况:有一个对象A,在某一时刻A中已经包含了一些有效值,此时可能 会需要一个和A完全相同新对象B,并且此后对B任何改动都不 ...

  3. 关于php的flush在本机正常在服务器不灵的问题

    这个问题网上很多,我就不重复那些了. 我的是关于进度条的应用.我最后遇到的问题是,在本机swampserver环境下的输出缓存很快,但是到了服务器上就是一段一段的了.我的服务器是Web服务器是IIS. ...

  4. iOS开发之UITabBarController

    1.概述 跟UINavigationController类似,UITabBarController也可以轻松地管理多个控制器,轻松完成控制器之间的切换,典型例子就是QQ.微信等应用. 2.UITabB ...

  5. Web移动端的常用组件库

    normalize http://necolas.github.io/normalize.css/ 最受欢迎的css reset 保留有用的默认值,这个区别于其他的CSS resets 标准化大范围的 ...

  6. The 15th UESTC Programming Contest Preliminary G - GC?(X,Y) cdoj1564

    地址:http://acm.uestc.edu.cn/#/problem/show/1564 题目: G - GC?(X,Y) Time Limit: 3000/1000MS (Java/Others ...

  7. Git 远程分支的pull与push

    Git 远程分支的pull与push 远程分支信息查看 git branch -r #查看远程分支 git branch -a #查看所有分支,本地和远程 git remote show [remot ...

  8. Tcl与Design Compiler (十三)——Design Compliler中常用到的命令(示例)总结

    本文如果有错,欢迎留言更正:此外,转载请标明出处 http://www.cnblogs.com/IClearner/  ,作者:IC_learner 本文将描述在Design Compliler中常用 ...

  9. instance 网卡是如何被拉起来的?- 每天5分钟玩转 OpenStack(172)

    instance 的网卡是如何被配置并拉起的?这是理解和用好 cloud-init 非常关键的一步.我们先讨论一个最简单基础的场景:镜像中没有安装 cloud-init. 此时 instance 启动 ...

  10. 存储linux RAID6被重建成RAID5的数据恢复解决方案

    数据恢复故障描述:原存储为12块2T硬盘组成的Linux RAID6,文件系统均为EXT3,此存储上划有3个LUN,每个均为6TB大小,某天在RAID失效后,维护人员为了抢救数据,对此失效的存储重进行 ...