xpath路径选择器定位元素

1. xpath：

使用路径表达式来定位xml或者html中文档中选取节点。在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）

假设xml文档为：

<?xml version="1.0" encoding="ISO-8859-1"?>

<book>

<title lang="en">Harry Potter</title>

<author>J K. Rowling</author>

</book>

</bookstore>

l 文档节点：<bookstore>

l 元素节点：<author>J K. Rowling</author>

l 属性节点：lang="en"

l 文本：2005

l 父节点（Parent）：每个元素以及属性都有一个父。book 元素是 title、author、year 以及 price 元素的父

l 子节点（Children）：节点可有零个、一个或多个子节点。title、author、year 以及 price 元素都是 book 元素的子

l 同胞（Sibling）：拥有相同的父的节点。title、author、year 以及 price 元素都是同胞

l 先辈（Ancestor）：某节点的父、父的父，等等。title 元素的先辈是 book 元素和 bookstore 元素

l 后代（Descendant）：某个节点的子，子的子，等等。bookstore 的后代是 book、title、author、year 以及 price 元素

2. 基础语法：

1) 路径表达式

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。（可以理解为后面跟的是绝对路径）
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。（相对路径）
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。后面跟属性名

2) 谓语（Predicates）

放在方括号[]中，相当于筛选条件，用来查找[]中指定的特定节点或者包含某个指定的值的节点。在下面的表格中，列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。 /表示绝对路径，所以后面跟的是根节点bookstore，[]内部的数字表示第几个[]前面的元素，也就是第1个book元素，注意这里的编号是从1开始。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	@lang表示lang属性，//title表示选取所有title元素，这个表达式表示的是选取所有带 lang 属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且元素的lang属性值为eng
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

3) xpath轴

亲属关系匹配

例子	结果
/bookstore/child::book	child表示子节点，child::book就是子节点名为book的节点，整个表达式就是说bookstore节点的所有子节点名字为book的节点
attribute::lang	attribute表示属性名，表达式为选取当前节点的 lang 属性。
child::*	选取当前节点的所有子元素。
attribute::*	选取当前节点的所有属性。
child::text()	选取当前节点的所有文本子节点。
child::node()	选取当前节点的所有子节点。
descendant::book	选取当前节点的所有 book 后代。
ancestor::book	选择当前节点的所有 book 先辈。
ancestor-or-self::book	选取当前节点的所有 book 先辈以及当前节点（如果此节点是 book 节点）
child::*/child::price	选取当前节点的所有 price 孙节点。
parent::*	找到父级元素
following::*	选取文档中当前节点的结束标签之后的所有节点
preceding::*	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling::*	选取当前节点之前的所有同级节点
following-sibling::*	选取当前节点之后的所有同级节点
descendant::*	选取当前节点的所有后代元素（子、孙等）

例如有一段html的内容如下

<div>

</div>

此时如果想要获取第二个span标签，可以这样写：

//input[@id='123']/preceding-sibling::span

input标签比较好找，先找到input标签，然后找它的兄弟节点。preceding-sibling表示找前面的元素的同级元素，后面的::span表示找的是span标签。

4) Xpath运算符

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

5) xpath常用函数

实例	返回值
last()	返回当前上下文中的最后一个节点的位置号码数
position()	返回当前节点的位置的数字，位于第多少个

//book[position()=2]等价于//book[2]

例子：

路径表达式	结果
//div[last()]	最后一个div
//div[last()-1]	倒数第二个div
//div[position()<3]	前两个div
//div[@id='id3']//p[last()]	第三个div中最后一个p标签对象
//div[@href='http://www.baidu.com']	选取连接为http://www.baidu.com的属性
//*[@id='id3']//p[contain(.,'20')]	在第3个div中找包含20的文本节点
//*[@id='id3']//p[contain(.,'20')]//fowing-sibiling::p	选取包含字符串20文本节点的下一个节点的p节点

3. 补充几个常用方法

3.1 contains

包含，比如//div[contains(@class,'xx')]

查找div元素，元素的class属性值包含xx

3.2 starts-with

以某某开头，例如

//input[starts-with(@class,'xx')]

查找input元素，元素的class属性值以xx开头

3.3 ends-with

以某某结尾，例如：

//input[starts-with(@class,'xx')]

查找input元素，元素的class属性值以xx结尾

3.4 not

否定的意思，比如：

input[not（id='123'）]

查找id值不是123的input元素。

//span[not(contains(text(),'123'))]

查找一个文本内容不包含123的span标签。

**3.5 *通配符**

*表示通配符，比如：//span[@*='123']

span标签的任何属性为123的元素

4. 定位原则

以百度首页为例

1) 用id定位，比如//input[@id="su"]

2) 用元素文本比如//input[@value="百度一下"]

3) 用元素的唯一属性,找到这个元素的唯一属性，写法同上

4) 用元素的多个属性组合，比如//*[@id="kw" and @name ="wd"]

5) contains模糊匹配，比如//div[@id="u"]/a[contains(.,"录")]。或者可以写//div[@id="u"]/a[contains(@href,"passport")]

6) 找到已查找的元素，然后基于此元素的相对位置定位，比如先找到一个div，再通过找到的这个div找他的父亲或者兄弟，子女。//div[@id="u"]/child::node()，先找到一个id属性为u的div，再找到这个div的所有孩子节点，后面跟[1]，就是这些孩子节点的第一个节点。

selenium中的xpath用法，使用xpath定位元素的更多相关文章

Python+Selenium练习篇之8-利用css定位元素
前面介绍了,XPath, id , class , link text, partial link text, tag name, name 七大元素定位方法,本文介绍webdriver支持的最后一个 ...
Python+Selenium练习篇之2-利用ID定位元素
在前面一篇文章,我们介绍了如何摘取页面字段,通过正则进行匹配符合要求的字段.如果感觉有点困难,不能立马理解,没有关系.把字符串摘取放到第一篇,是因为自动化测试脚本,经常要利用字符串操作,字符串切割,查 ...
总结Selenium自动化测试方法（三）WebDriver定位元素方法
三.WebDriver定位元素推荐使用的webdriver是firefox,因为他的firebug更能可以帮助定位页面元素使用 # create a new Firefox session cls. ...
Python+Selenium练习篇之7-利用name定位元素
本文介绍如何通过节点中name的值来定位这个web元素.还是来看百度首页搜索输入框,通过name的值来定位. 相关脚本代码: # coding=utf-8 from selenium import w ...
css3中webkit-box的用法（平分父元素）
display:box;box-flex是css3新添加的盒子模型属性,它的出现可以解决我们通过N多结构.css实现的布局方式.经典的一个布局应用就是布局的垂直等高.水平均分.按比例划分.目前box- ...
scrapy xpath用法
一.实验环境 1.Windows7x64_SP1 2.anaconda3 + python3.7.3(anaconda集成,不需单独安装) 3.scrapy1.6.0 二.用法举例 1.开启scrap ...
CSS中的三种基本的定位机制
CSS 定位机制 CSS 有三种基本的定位机制:普通流.浮动和绝对定位. 一.普通流除非专门指定,否则所有框都在普通流中定位.普通流中元素框的位置由元素在(X)HTML中的位置决定.块级元素从上到下 ...
『心善渊』Selenium3.0基础 — 6、Selenium中使用XPath定位元素
目录 1.Selenium中使用XPath查找元素 (1)XPath通过id,name,class属性定位 (2)XPath通过标签中的其他属性定位 (3)XPath层级定位 (4)XPath索引定位 ...
Selenium中如何使用xpath更快定位
在学习Selenium路上,踩了也不少坑,这是我最近才发现的一个新写法,好吧,"才发现"又说明我做其他事了.对的,我现在还在加班! 开车~~~ 例子:知乎网标签:Python3. ...

随机推荐

Python--day61--Django中的app
jekyll 如何加密博客防止抓取
经常会发现自己的博客被一些垃圾网站抓取,我就在博客进行加密,在访问的时候进行解密,于是爬虫如果不执行js就无法获得内容本文告诉大家如何加密博客加密使用把文章内容转换为 Html 之后转换为 bas ...
P1023 活动安排
题目描述某个人可以在n个活动中选择一些出来参加.每个活动都有起止时间.而且每个时间段只能参加一个活动.问,这个人最多能加参加几个活动. 可以在活动结束时,立即开始新的活动. 输入格式第一行是一个整 ...
Java 9版本之后Base64Encoder和Base64Decoder无法继续使用解决办法
在项目开发过程中,因为重装系统,安装了Java10版本,发现sun.misc.Base64Encoder和sun.misc.Base64Decoder无法使用. 原因: 查看官网发现,JDK中的/li ...
Array数组的常用方法
1.concat()链接数组 var a = [1,2,3]; console.log(a.concat(4,5));//[1,2,3,4,5] 2.join()分隔符链接数组变字符串,如果省略该参数 ...
深浅Copy的理解
在python里对对象进行拷贝有三个,即赋值,深拷贝,浅拷贝. 而对象又分为两种,一种是不可变对象(字符串.元组.数字 ),一种是可变对象(列表.字典). 而深浅拷贝有三种情况:拷贝的是不可变对象.拷 ...
CF1228——记一次和紫名失之交臂的CF
CF1228--记一次和紫名失之交臂的CF 第无数次和暴涨失之交臂 A 题目大意给定\(l,r\)输出任意一个\(l,r\)之间的每一位都不同的数 \((l <= r <= 10^5)\) ...
vue-learning：21 - js - mixins
mixins 混入是一种对重复代码的组织方式,可以在多个组件间复用代码. 如果在项目中,在多个组件间有一段逻辑代码是共同的.那常见的处理方式是: 每个组件都复制粘贴代码(显然这是最不好方式) 将以共同 ...
关于react的redux的知识点
项目小的时候我们getState()进行管理数据,只有当数据庞大的时候我们采用Redux来进行管理. Redux: ①:它是专注于状态管理的库,和React是解耦的 ②:它是单向数据流,单一的状态 ③ ...
HDU - 1005 Number Sequence （矩阵快速幂）
A number sequence is defined as follows: f(1) = 1, f(2) = 1, f(n) = (A * f(n - 1) + B * f(n - 2)) mo ...

selenium中的xpath用法，使用xpath定位元素