XPath总结

XPath总结

一、何为XPath

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的

二、XPath语法

1、语法

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性
contains	包含，模糊匹配
*	选取所有节点
\|	与

2、实例

路径表达式	结果
//book/page	选取根目录下所有book标签中的page标签
//book[@name='hong']	选取根目录下所有name属性是hong的book标签
//*[@name='key']	选取根目录下所有name属性是key的任意标签
//*[@name，'key_']	选取根目录下所有name属性包含key的任意标签
//*[@id="author"]/a[3]	选取根目录下所有id属性是author的任意标签下子标签中的第3个a标签
//title[@*]	选取所有带有属性的 title 元素
//title \| //price	选取文档中的所有 title 和 price 元素。

三、XPath轴

定义所选节点与当前节点之间的树关系

1、XPath轴语法

轴名称::节点测试[谓语]

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身
attribute	选取当前节点的所有属性
child	选取当前节点的所有子元素
descendant	选取当前节点的所有后代元素（子、孙等）
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身
following	选取文档中当前节点的结束标签之后的所有节点
namespace	选取当前节点的所有命名空间节点
parent	选取当前节点的父节点
preceding	选取文档中当前节点的开始标签之前的所有节点
preceding-sibling	选取当前节点之前的所有同级节点
self	选取当前节点

2、XPath轴实例

例子	结果
child::book	选取所有属于当前节点的子元素的 book 节点
attribute::lang	选取当前节点的 lang 属性
child: 爬虫（十一）—— XPath总结的更多相关文章爬虫常用Xpath和CSS3选择器对比爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大.CSS中的空白符' '和Xpath的'//'都表示 ... python爬虫：XPath语法和使用示例 python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ... Python爬虫之xpath语法及案例使用 Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ... 非常全的一份Python爬虫的Xpath博文非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ... 爬虫神器xpath的用法(三) xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数,网址列表) ''' from mult ... 爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ... 互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）版权声明:本文为博主原创文章,未经博主允许不得转载. 相关教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ... 【爬虫】Xpath高级用法 xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正.试验环境 ... 爬虫 selenium+Xpath 爬取动态js页面元素内容介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ... 抓包分析、多线程爬虫及xpath学习 1.抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https:/ ... 随机推荐 Kali系统 metasploit 使用教程基础配置由于kali 2.0 已经没有metasploit 这个服务了,所以service metasploit start 的方式不起作用. 在kali 2.0中启动带数据库支持的MSF方式如下: ... Jquery实例链接 jquery学习笔记 jquery实现全选,反选,取消的操作左侧菜单收缩的实现(包括,筛选器,addclass.removeclass.绑定事件,链式编程) 模态对话框实现增加删除表格里面的内容 j ... 移动端300ms延迟原理，穿透、遮罩层滑动导致下面滑动总结遮罩层滑动导致下面滑动 1,阻止弹层滑动,使用默认事件,使用这种方式弹层不能滑动 document.getElementById("model").addEventListener ... [书接上一回]在Oracle Enterprise Linux (v5.7) 中安装DB - (4/4) 选择自己创建的安装数据库路径. Sample Schemas 打钩. 调整内存大小. 选择官方建议的字符集编码. 是否创建创建的脚本,如需要请打钩. 脚本生成成功. 创建成功,如需要,则可以管理数据库 ... pppd - 点对点协议守护进程总览 SYNOPSIS pppd [ tty_name ] [ speed ] [ options ] 描述点对点协议 (PPP) 提供一种在点对点串列线路上传输资料流 (datagrams)的方法 ... 【学习】011 JVM参数调优配置自动内存管理机制 Java虚拟机原理所谓虚拟机,就是一台虚拟的机器.他是一款软件,用来执行一系列虚拟计算指令,大体上虚拟机可以分为系统虚拟机和程序虚拟机, 大名鼎鼎的Visual Box.Vmar ... prototype的用法定义: prototype 属性使您有能力向对象添加属性和方法. 语法: object.prototype.name=value 实例: function prot(){ this.name = 'J ... Python3解leetcode Kth Largest Element in a Stream 问题描述: Design a class to find the kth largest element in a stream. Note that it is the kth largest el ... [USACO2011 Feb]Best Parenthesis Time Limit: 10 Sec Memory Limit: 128 MB Description Recently, the cows have been competing with stri ... C#[WinForm]实现自动更新 C#[WinForm]实现自动更新 winform程序相对web程序而言,功能更强大,编程更方便,但软件更新却相当麻烦,要到客户端一台一台地升级,面对这个实际问题,在最近的一个小项目中,本人设计了一个 ... 热门专题 Ant design pro 怎么用 python 实现优先队列 html最大只支持12px字号 ArcGIS“一个或多个ActiveX控件无法显示 allowbackup =false 无效 nginx http返回值统计 webpack项目中配置babel centos7拼音输入 opencart 优化版 setInterval返回值的范围是什么 idea2020查看jar依赖关系 nginx 域名开放某个端口范围 xlwings写入一列数据series Cesium 颜狗初步 centos8 paramiko安装 cesium 三维切二维换图层 React Nnative 使用自定义图标 IOS 双系统怎么删除linux 不同的字符串计算出来的 hash值一样吗 Power Query 日期智能筛选只保留最后 Home Powered By WordPress

例子

结果

child::book

选取所有属于当前节点的子元素的 book 节点

attribute::lang

选取当前节点的 lang 属性

child:

爬虫（十一）—— XPath总结的更多相关文章

爬虫常用Xpath和CSS3选择器对比
爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大.CSS中的空白符' '和Xpath的'//'都表示 ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
爬虫神器xpath的用法(三)
xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数,网址列表) ''' from mult ...
爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影
本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ...
互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）
版权声明:本文为博主原创文章,未经博主允许不得转载. 相关教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...
【爬虫】Xpath高级用法
xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正.试验环境 ...
爬虫 selenium+Xpath 爬取动态js页面元素内容
介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ...
抓包分析、多线程爬虫及xpath学习
1.抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https:/ ...

随机推荐

Kali系统 metasploit 使用教程
基础配置由于kali 2.0 已经没有metasploit 这个服务了,所以service metasploit start 的方式不起作用. 在kali 2.0中启动带数据库支持的MSF方式如下: ...
Jquery实例链接
jquery学习笔记 jquery实现全选,反选,取消的操作左侧菜单收缩的实现(包括,筛选器,addclass.removeclass.绑定事件,链式编程) 模态对话框实现增加删除表格里面的内容 j ...
移动端300ms延迟原理，穿透、遮罩层滑动导致下面滑动总结
遮罩层滑动导致下面滑动 1,阻止弹层滑动,使用默认事件,使用这种方式弹层不能滑动 document.getElementById("model").addEventListener ...
[书接上一回]在Oracle Enterprise Linux (v5.7) 中安装DB - (4/4)
选择自己创建的安装数据库路径. Sample Schemas 打钩. 调整内存大小. 选择官方建议的字符集编码. 是否创建创建的脚本,如需要请打钩. 脚本生成成功. 创建成功,如需要,则可以管理数据库 ...
pppd - 点对点协议守护进程
总览 SYNOPSIS pppd [ tty_name ] [ speed ] [ options ] 描述点对点协议 (PPP) 提供一种在点对点串列线路上传输资料流 (datagrams)的方法 ...
【学习】011 JVM参数调优配置
自动内存管理机制 Java虚拟机原理所谓虚拟机,就是一台虚拟的机器.他是一款软件,用来执行一系列虚拟计算指令,大体上虚拟机可以分为系统虚拟机和程序虚拟机, 大名鼎鼎的Visual Box.Vmar ...
prototype的用法
定义: prototype 属性使您有能力向对象添加属性和方法. 语法: object.prototype.name=value 实例: function prot(){ this.name = 'J ...
Python3解leetcode Kth Largest Element in a Stream
问题描述: Design a class to find the kth largest element in a stream. Note that it is the kth largest el ...
[USACO2011 Feb]Best Parenthesis
Time Limit: 10 Sec Memory Limit: 128 MB Description Recently, the cows have been competing with stri ...
C#[WinForm]实现自动更新
C#[WinForm]实现自动更新 winform程序相对web程序而言,功能更强大,编程更方便,但软件更新却相当麻烦,要到客户端一台一台地升级,面对这个实际问题,在最近的一个小项目中,本人设计了一个 ...

爬虫（十一）—— XPath总结

XPath总结

一、何为XPath

二、XPath语法

1、语法

2、实例

三、XPath轴

1、XPath轴语法

2、XPath轴实例

爬虫（十一）—— XPath总结的更多相关文章

随机推荐

热门专题