xpath解析数据

"""

xpath 也是一种用于解析xml文档数据的方式

xml path

w3c xpath搜索用法

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。都要用/

"""

doc = """

<?xml version="1.0" encoding="ISO-8859-1"?>

<html>

    <body>

        <bookstore id="test" class="ttt">

        <book id= "1" class = "2">

          <title lang="eng">Harry Potter</title>

          <price>29.99</price>

        </book>

        <book id = "2222222222222">11111111111111111111

          <title lang="abc">Learning XML</title>

          <price>39.95</price>

        </book>

        </bookstore>

    <a></a>

    </body>

</html>

"""

from lxml import etree

html = etree.HTML(doc)

print(html.xpath("/bookstore")) # 从根标签找所有匹配的 列表形式

print(html.xpath("//bookstore")) # 全文中找所有匹配的 列表形式

# 通配符 *

print(html.xpath("//book")) #全文中找所有book标签

print(html.xpath("//*"))  # 全文中找所有标签

# 获取属性

print(html.xpath("//bookstore/@id")) #获取id属性

print(html.xpath("//bookstore/@*")) #获取所有属性

# 嵌套

print(html.xpath("//bookstore/book/title/text()"))

==============================================================================

# 加上谓语(条件) 

# 指定要获取的索引

# print(html.xpath("//bookstore/book[1]/title/text()")) # 获取第一个

# print(html.xpath("//bookstore/book[last()-1]/title/text()")) # last() 最后一个     last()-1 倒数第二个

# print(html.xpath("//bookstore/book[position()>1]/title/text()")) # 索引大于1的

# xpath 原生 既能查找属性 又能查找标签   而在selenium只能查找标签

# 查找price的值大于30的book标签

# e = html.xpath("//book[price > 30]")[0]

# print(e.text) # 访问文本 不包含子标签的文本 只包含自己标签的文本

# print(e.attrib) # 访问属性

# 用属性来作限制

# 只要存在lang属性即可

print(html.xpath("//*[@lang]"))

# 找的是具备lang并且值为abc的标签

print(html.xpath("//*[@lang='abc']"))

#获取其属性

print(html.xpath("//*[@lang='abc']")[0].attrib)

# 只要 有属性即可

print(html.xpath("//*[@*]"))

# 多个匹配条件

print(html.xpath("//title|//price"))

==================================================================================

# 轴匹配  (先拿到一个标签 在相对这个标签找其他标签)   

print(html.xpath("//bookstore/ancestor::*")) # 所有先辈

print(html.xpath("//bookstore/ancestor::body")) # 所有叫body的先辈

print(html.xpath("//bookstore/ancestor-or-self::*")) # 所有先辈包含他自己

# 获取属性

print(html.xpath("//bookstore/attribute::id"))

print(html.xpath("//bookstore/@id"))

# 所有子级标签(只有子级)

print(html.xpath("//bookstore/child::*"))

# 所有后代标签

print(html.xpath("//bookstore/descendant::*"))

# 在这个标签后面的所有标签  与层级无关

print(html.xpath("//book[1]/following::*")) #第一个book后的所有标签

# 获取弟弟们(他后面的同级标签)

print(html.xpath("//book[1]/following-sibling::*"))

# 获取哥哥们(它前面的同级标签)

print(html.xpath("//book[1]/preceding-sibling::*"))

# 获取父级

print(html.xpath("//book[1]/parent::*"))

# 获取既有id属性 又有class属性的标签

print(html.xpath("//*[@id and @class]"))

xpath解析数据的更多相关文章

爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
iOS 抓取 HTML ,CSS XPath 解析数据
以前我们获取数据的方式都是使用 AFN 来 Get JSON 数据,比如点我查看 JSON 数据.http://news-at.zhihu.com/api/4/news/latest 但例如下面的百 ...
万方数据知识平台 TFHpple +Xpath解析
试了一下.基本上适合全部的检索结果. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loadi ...
解析数据(正则,xpath)
正则表达式拆分 import re # 1.拆分字符串 one = 'asdsfsgsh' # 标准是 s 为拆分 pattern = re.compile('s') result = patter ...
数据的查找和提取[2]——xpath解析库的使用
xpath解析库的使用在上一节,我们介绍了正则表达式的使用,但是当我们提取数据的限制条件增多的时候,正则表达式会变的十分的复杂,出一丁点错就提取不出来东西了.但python已经为我们提供了许多用于解 ...
python爬虫使用xpath解析页面和提取数据
XPath解析页面和提取数据一.简介关注公众号"轻松学编程"了解更多. XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.X ...
利用XPath解析带有xmlns的XML文件
在.net中,编写读取xml 的程序中提示"未将对象引用设置到对象的实例",当时一看觉得有点奇怪.为什么在读取xml数据的时候也要实例化一个对象.google了才知道,xml文件中 ...
xpath 解析及案例
xpath解析编码流程: 1.实例化一个etree对象,且将页面源码加载到该对象中 2.使用xpath函数,且在函数中必须作用一个xpath表达式进行标签的定位 3.使用xpath进行属性和文本的提 ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...

随机推荐

旧版本的firefox 下载和安装（查找web元素路径） ---web 元素自动化测试
ftp.mozilla.orgpubfirefoxreleases 旧版下载地址选择47版本因为48后面的会进行插件校验这样firepath安装不成功安装文件:在百度 ...
ide phpStorm注释模板修改
1.打开设置 2.找到,如下图所示位置,注意是第二个tab(Includes) 3.再任意空白位置,输入/**,按回车即可出现对应注释内容(其实还可以先 Ctrl + Shift + /,然后删少一个 ...
js canvas游戏初级demo-上下左右移动
大概流程就是监听状态变化擦除画布重绘由于js监听时间变化的函数addEventListener只能达到每秒触发20次左右,也就是每秒20帧,看起来有点卡卡的所以用定时器搞到每秒30帧按上下左右键 ...
Go并发示例-Pool
https://mp.weixin.qq.com/s/MBY6l5VxrFPJ4AA8nGeQUQ <Go语言实战>笔记(十六) | Go并发示例-Pool 飞雪无情异步图书 2017- ...
Toad for Oracle 创建表空间和用户
表空间 1.找到Tablespace,右键,单击Create Tablespace 2.输入表空间名字,例如:test_tablespace3.单击"Date Files"选项卡, ...
java-方法重载、参数传递、
1.Java的方法重载overload:同一个类内,可以有多个同名的方法,只要参数不同即可(包括参数类型和个数.多类型顺序) 2.基本类型(8种:byte\short\int\long\double\ ...
mysql8.0.13免安装版的安装配置详解
一.下载下载地址:https://dev.mysql.com/downloads/mysql/ 二.解压到某个目录,例如:D:/mysql/mysql-8.0.13-winx64 三.配置环境变量 ...
写一个方法，用于解读 url 后面的请求参数，最终得到 {"a"：2，"b"：3，"c"：4}；
function getUrlParams(url){ let searchParam = url.split("?")[1]; let searchItemParams = se ...
Win10 +gtx1660 +CUDA10.0+CNDNN7.5+Tensorflow 1.13.1
硬件环境:ASUS Z370 + i7 8700K + 16G + GTX1660 软件环境:win10 x64 anaconda 3.5 python 3.6 pycharm 201 ...
解决git冲突造成的Please move or remove them before you can merge
git clean -d -fx “” 其中x —–删除忽略文件已经对git来说不识别的文件d —–删除未被添加到git的路径中的文件f —–强制运行如果你确定这货已经没用了,并且git status ...

xpath解析数据

xpath解析数据

xpath解析数据的更多相关文章

随机推荐

热门专题