Xpath运算符

5、position定位

    >>print tree.xpath('//*[@id="testid"]/ol/li[position()=2]/text()')[0]

    >>2

6、条件

    >>定位所有h2标签中text值为`这里是个小标题`

    >>print tree.xpath(u'//h2[text()="这里是个小标题"]/text()')[0]

    >>这里是个小标题

7、函数

    count：统计

    >>print tree.xpath('count(//li[@data])') #节点统计

    >>3.0

    concat：字符串连接

    >>print tree.xpath('concat(//li[@data="one"]/text(),//li[@data="three"]/text())')

    >>13

    string：解析当前节点下的字符

    >>#string只能解析匹配到的第一个节点下的值，也就是作用于list时只匹配第一个

    >>print tree.xpath('string(//li)')

    >>时间

    local-name：解析节点名称

    >>print tree.xpath('local-name(//*[@id="testid"])') #local-name解析节点名称

    >>div

    contains(string1,string2)：如果 string1 包含 string2，则返回 true，否则返回 false

    >>tree.xpath('//h3[contains(text(),"H3")]/a/text()')[0] #使用字符内容来辅助定位

    >>百度一下

    >>一记组合拳

    >>#匹配带有href属性的a标签的先辈节点中的div，其兄弟节点中前一个div节点下ul下li中text属性包含“务”字的节点的值

    >>print tree.xpath(u'//a[@href]/ancestor::div/preceding::div/ul/li[contains(text(),"务")]/text()')[0]

    >>任务

    not：布尔值（否）

    >>print tree.xpath('count(//li[not(@data)])') #不包含data属性的li标签统计

    >>18.0

    string-length：返回指定字符串的长度

    >>#string-length函数+local-name函数定位节点名长度小于2的元素

    >>print tree.xpath('//*[string-length(local-name())<2]/text()')[0]

    >>百度一下

    组合拳2

    >>#contains函数+local-name函数定位节点名包含di的元素

    >>print tree.xpath('//div[@id="testid"]/following::div[contains(local-name(),"di")]')

    >>[<Element div at 0x225e108>, <Element div at 0x225e0c8>]

    or：多条件匹配

    >>print tree.xpath('//li[@data="one" or @code="84"]/text()') #or匹配多个条件

    >>['1', '84']

    >>#也可使用|

    >>print tree.xpath('//li[@data="one"]/text() | //li[@code="84"]/text()') #|匹配多个条件

    >>['1', '84']

    组合拳3：floor + div除法 + ceiling

    >>#position定位+last+div除法，选取中间两个

    >>tree.xpath('//div[@id="go"]/ul/li[position()=floor(last() div 2+0.5) or position()=ceiling(last() div 2+0.5)]/text()')

    >>['5', '6']

    组合拳4隔行定位：position+mod取余

    >>#position+取余运算隔行定位

    >>tree.xpath('//div[@id="go"]/ul/li[position()=((position() mod 2)=0)]/text()') 

    starts-with：以。。开始

    >>#starts-with定位属性值以8开头的li元素

    >>print tree.xpath('//li[starts-with(@code,"8")]/text()')[0]

    >>84

8、数值比较

    <：小于

    >>#所有li的code属性小于200的节点

    >>print tree.xpath('//li[@code<200]/text()')

    >>['84', '104']

    div：对某两个节点的属性值做除法

    >>print tree.xpath('//div[@id="testid"]/ul/li[3]/@code div //div[@id="testid"]/ul/li[1]/@code')

    >>2.65476190476

    组合拳4：根据节点下的某一节点数量定位

    >>#选取所有ul下li节点数大于5的ul节点

    >>print tree.xpath('//ul[count(li)>5]/li/text()')

    >>['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

9、将对象还原为字符串

    >>> s = tree.xpath('//*[@id="testid"]')[0] #使用xpath定位一个节点

    >>> s

    <Element div at 0x2b6ffc8>

    >>> s2 = etree.tostring(s) #还原这个对象为html字符串

    >>> s2

    '<div id="testid">\n\t\t<h2>ÕâÀïÊÇ¸öÐ¡±êÌâ</h2>\n\t\t<ol>\n\t\t\t<li data="one">1</li>\n\t\t\t<li data="two">2</li>\n\t\t\t<li data="three">3</li>\n\t\t</ol>\n\t\t<ul>\n\t\t\t<li code="84">84</li>\n\t\t\t<li code="104">104</li>\n\t\t\t<li code="223">223</li>\n\t\t</ul>\n\t</div>\n\t'

10、选取一个属性中的多个值

    举例：<div class="mp-city-list-container mp-privince-city" mp-role="provinceCityList">

    选择这个div的方案网上有说用and的，但是似乎只能针对不同的属性的单个值

    本次使用contains

    >>.xpath('div[contains(@class,"mp-city-list-container mp-privince-city")]')

    >>当然也可以直接选取其属性的第二个值

    >>.xpath('div[contains(@class,"mp-privince-city")]')

    >>重点是class需要添加一个@符号

    本次验证否定了网上的and，使用了contains,验证环境在scrapy的response.xpath下

作者：whaike
链接：https://www.jianshu.com/p/1575db75670f
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

Xpath运算符的更多相关文章

XPath 运算符
XPath 表达式可返回节点集.字符串.逻辑值以及数字. XPath 运算符下面列出了可用在 XPath 表达式中的运算符: 运算符描述实例返回值 | 计算两个节点集 //book | //c ...
[XPath] XPath 与 lxml （四）XPath 运算符
XPath 中支持的运算符 # | 或: 返回所有 price 和 title 节点集合 >>> root.xpath('//price|//title') [<Element ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
HtmlAgilityPackage XPath学习
最近的开发中要用到htmlAgilityPackage, 所以记录一下XPath相关知识! XPath 简介 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对 ...
初学XPath，其实很简单
XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. (我的理解:XPath 就是一个用来查找xml节点的路径语言,一个路径字符串语法) XM ...
XPath操作XML文档
NET框架下的Sytem.Xml.XPath命名空间提供了一系列的类,允许应用XPath数据模式查询和展示XML文档数据. 3.1XPath介绍主要的目的是在xml1.0和1.1文档节点树种定位节点 ...
XPath <第四篇>
.Net框架下的System.Xml.XPath命名空间提供了一系列的类,允许你应用XPath数据模式查询和展示XML文档数据. 一.XPath介绍 XPath有七种类型的节点:元素.属性.文本.命名 ...
Dom4j和Xpath(转)
1.DOM4J简介 DOM4J是 dom4j.org 出品的一个开源 XML 解析包.DOM4J应用于 Java 平台,采用了 Java 集合框架并完全支持 DOM,SAX 和JAXP. DOM4J使 ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...

随机推荐

Excel怎么把两个单元格中的文字合并到一个单元格中
使用&符号,可以将字符串和单元格中的内容拼接起来
内部类访问外部类成员变量，使用外部类名.this.成员变量
public class Outer { private int age = 12; class Inner { private int age = 13; public void print() { ...
Docker Command and Dockerfile
镜像相关命令 # 下载镜像 docker pull xxx # 搜素镜像 docker search xxx # 查看已经下载了哪些镜像 docker images # 查看已下载镜像的id dock ...
虚拟机启动jenkins，访问提示：该Jenkins实例似乎已离线
ubuntu虚拟机使用java命令启动jenkins,本地访问提示:该Jenkins实例似乎已离线. https://www.cnblogs.com/du-hong/p/10655635.html 没 ...
Java集合框架总览
Java集合 Java 集合框架主要包括两种类型的容器,一种是集合(Collection),存储一个元素集合,另一种是图(Map),存储键/值对映射.Collection 接口有 3 种子类型,Lis ...
P3515-[POI2011]Lightning Conductor【整体二分,决策单调性】
正题题目链接:https://www.luogu.com.cn/problem/P3507 题目大意 \(n\)个数字的一个序列\(a\),对于每个位置\(i\)求一个\(p_i\)使得对于任意\( ...
Visaul Studio Code中提示 vue：无法加载vue.ps1，未对vue.ps1进行数字签名
Visaul Studio Code错误提示错误如图: 解决办法首先以管理员身份打开windows PowShell终端. 输入下面命令,如提示选择Y即可. get-help set-execut ...
前端规范之Git提交规范（Commitizen）
代码规范是软件开发领域经久不衰的话题,几乎所有工程师在开发过程中都会遇到或思考过这一问题.而随着前端应用的大型化和复杂化,越来越多的前端团队也开始重视代码规范.同样,前段时间,笔者所在的团队也开展了一 ...
NOIP模拟69
T1 石子游戏大坑未补 T2 大鱼吃小鱼解题思路 set+桶可以得到 60pts (code) 线段树上二分每一次优先递归右区间从右区间贪心选择,并且记录下更改过的值,在处理完答案之后再复原回去. ...
VirtualBox上安装Debian10个人备忘笔记
准备 VirtualBox 下载链接:Downloads – Oracle VM VirtualBox,下载完成后安装即可. Debian 下载链接:通过 HTTP/FTP 下载 Debian CD/ ...

Xpath运算符

Xpath运算符的更多相关文章

随机推荐

热门专题