Python3爬虫（五）解析库的使用之XPath

Infi-chu:

http://www.cnblogs.com/Infi-chu/

XPath：

全称是 XML Path Language，XML路径语言，它是一门在XML文档中和HTML文档中查找信息的语言

1.XPath常用规则

表达式　　　　描述

nodename　　选取此节点的所有子节点

/　　　　　　从当前节点选取直接子节点

//　　　　　　从当前节点选取子孙节点

.　　　　　　选取当前节点

..　　　　　　选取当前节点的父节点

@ 　　　　　选取属性

2.准备工作：安装 lxml 库

3.例子：

from lxml import etree

text =

'''

<div>

<ul>

<li class="ex1"><a href="ex1.html">ex1</a></li>

<li class="ex2"><a href="ex2.html">ex2</a>

</ul>

</div>

'''

html = etree.HTML(text)    # 调用HTML类进行html初始化工作

r = etree.tostring(html)     # 修复HTML代码，补全其他选项

print(r.decode('utf-8'))       # 结果返回是bytes，我们将其转化成UTF-8

4.所有节点

选取所有节点：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

res = html.xpath('//*')    # 选取所有

print(res)

5.子节点

选取li节点的所有直接a子节点：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

res = html.xpath('//li/a')

print(res)

6.父节点

使用.和..

7.属性匹配

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

res = html.xpath('//li[@class='ex1']')

print(res)

8.文本属性

选取li节点的内部文本，两种方法，推荐第二种

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

res = html.xpath('//li[@class='ex1']/a/text()')

print(res)

b.推荐，信息更全

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

res = html.xpath('//li[@class="ex1"]//text()')

print(res)

9.属性获取

获取所有li节点下所有a节点的href属性

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

res = html.xpath('//li/a/@href')

print(res)

10.属性多值匹配

from lxml import etree

text =

'''

<div>

<ul>

<li class="li li-first"><a href="ex1.html">li1</a></li>

</ul>

</div>

'''

html = etree.HTML(text)

res = html.xpath('//li[contains(@class,"li")]/a/text()')

print(res)

【注】

contains()中，

第一个参数传入属性名称，第二个参数传入属性值

11.多属性匹配

根据多个属性确定一个节点

from lxml import etree

text =

'''

<div>

<ul>

<li class="li" name="123"><a href="ex1.html">ex1</a></li>

</ul>

</div>

'''

html = etree.HTML(text)

res = html.xpath('//li[@contains(@class,"li") and @name="123"]/a/text()')

print(res)

12.按序选择（多个节点）

from lxml import etree

text =

'''

<div>

<ul>

<li class="ex1"><a href="ex1.html">ex1</a></li>

<li class="ex2"><a href="ex2.html">ex2</a></li>

<li class="ex3"><a href="ex3.html">ex3</a></li>

</ul>

</div>

'''

html = etree.HTML(text)

res = html.xpath('//li[1]/a/text()')    # 第一个li

res = html.xpath('//li[last()]/a/text()')    #  最后一个li

res = html.xpath('//li[position()<3]/a/text()')    # 前两个li

res = html.xpath('//li[last()-2]/a/text()')    # 第一个li

【注】

序号从1开始

13.节点轴选择

from lxml import etree

text =

'''

<div>

<ul>

<li class="ex1"><a href="ex1.html">ex1</a></li>

<li class="ex2"><a href="ex2.html">ex2</a></li>

<li class="ex3"><a href="ex3.html">ex3</a></li>

</ul>

</div>

'''

html = etree.HTML(text)

res = html.xpath('//li[1]/ancestor::*')    # 获取祖先节点

res = html.xpath('//li[1]/ancestor::div')    # 获取祖先div节点

res = html.xpath('//li[1]/attribute::*')    # 所有属性值

res = html.xpath('//li[1]/child::a[href="ex1.html"]')    # 所有直接子节点

res = html.xpath('//li[1]/descendant::span')    # 所有子孙节点

res = html.xpath('//li[1]/following::*[2]')    # 当前节点之后的所有节点

res = html.xpath('//li[1]/following-sibling::*')    # 当前节点之后的所有同级节点

　【注】这些都是轴

ancestor、attribute、child、descendant、following、following-sibling

Python3爬虫（五）解析库的使用之XPath的更多相关文章

【XPath Helper：chrome爬虫网页解析工具 Chrome插件】XPath Helper：chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插件网
[XPath Helper:chrome爬虫网页解析工具 Chrome插件]XPath Helper:chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插 ...
Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
Python爬虫【解析库之pyquery】
该库跟jQuery的使用方法基本一样 http://pyquery.readthedocs.io/ 官方文档解析库的安装 pip3 install pyquery 初始化 1.字符串初始化 htm ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...
爬虫之解析库-----re、beautifulsoup、pyquery
一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
python3爬虫之Urllib库（一）
上一篇我简单说了说爬虫的原理,这一篇我们来讲讲python自带的请求库:urllib 在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了 ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
python3爬虫之Urllib库（二）
在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等 ...
python爬虫之解析库正则表达式
上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里 ...

随机推荐

python学习笔记（1）----python安装
1.下载Python for windows 废话不说,直接上网址:https://www.python.org/ftp/python/3.5.1/python-3.5.1.exe 2.安装Pytho ...
Struts的学习-eclipse与idea与struts的连接
1.建立一个空白工程(里面是没有文件的). 可以在文件放置找到项目文件夹 2.点击托管项目到码云 (ps:没有码云帐号的自己注册) 3.按快捷键:ctrl+alt+shift+s 呼出项目结构管理器, ...
Dll注入：修改PE文件 IAT注入
PE原理就不阐述了, 这个注入是PE感染的一种,通过添加一个新节注入,会改变PE文件的大小,将原有的导入表复制到新节中,并添加自己的导入表描述符,最后将数据目录项中指向的导入表的入口指向新节. 步骤: ...
GridView中的更新按钮不能触发RowUpdating事件
当点击“编辑”按钮以后,可以看到“更新”和“取消”按钮,“取消”按钮可以正常触发RowCancelingEdit事件,但是“更新”按钮不能触发RowUpdating事件. 解决方案: 在<asp ...
Uva 10534 波浪子序列
题目链接:https://vjudge.net/contest/160916#problem/C 题意: 求一个奇数长的子序列,前一半严格递增,后一半严格递减:O(nlogn) 分析: 再次复习一下L ...
java线程池系列(1)-ThreadPoolExecutor实现原理
前言做java开发的,一般都避免不了要面对java线程池技术,像tomcat之类的容器天然就支持多线程. 即使是做偏后端技术,如处理一些消息,执行一些计算任务,也经常需要用到线程池技术. 鉴于线程池 ...
oracle 基础知识（三）
一.删除oracle 进入注册表到HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\OracleOraHome91TNSListener Ima ...
Android学习笔记_18_Activity生命周期及跳转方式
一.Activity有三个状态: 1.当它在屏幕前台时(位于当前任务堆栈的顶部),它是激活或运行状态.它就是响应用户操作的Activity. 2. 当它上面有另外一个Activity,使它失去了焦点但 ...
使用transfor让图片旋转
材料:Transform,onmouseout,onmouseover css: html: js:
分享一个带有合计行功能的DataGridView扩展
因为一个Winform的项目中需要用到带有合计行的表格,并且需要满足以下需求: 合计行可自动对需要求和的列进行求和计算; 合计行必须固定(冻结)在表格的最底部,且其位置不受滚动条的滚动而移动; 可以设 ...

Python3爬虫（五）解析库的使用之XPath

Python3爬虫（五）解析库的使用之XPath的更多相关文章

随机推荐

热门专题