【BOOK】解析库

XPath—XML Path Language

1、安装 lxml库

2、XPath常用规则

3、XPath解析页面

from lxml import etree

text = '''

<div>

<ul>

<li calss='item-1'><a href='link1.html'> first item </a></li>

<li calss='item-2'><a href='link2.html'> second item

</ul>

</div>

'''

## 调用HTML类进行初始化，构造一个XPath对象

## etree可以自动修正html文本

html = etree.HTML(text)

## tostring()输出修正后的HTML代码，结果是bytes类型

result = etree.tostring(html)

print(result.decode('utf-8'))

## 读取文本文件进行解析

html = etree.parse('./test.html', etree.HTMLParser())

## *匹配所有节点 ， 列表形式， 所有节点都是Element对象

result = html.xpath('//*')

print(result)

4、//* 获取所有节点

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())

## *匹配所有节点 ， 列表形式， 所有节点都是Element对象

result = html.xpath('//*')

print(result)

## 获取所有li节点
result1 = html.xpath('//li')
print(result1) # [<Element li at 0x34eca08>, <Element li at 0x34ec530>]
print(result1[0]) # 获取第一个li节点

5、/ 子节点

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
## 获取 li节点的所有a子节点
result2 = html.xpath('//li/a')
print(result2)

6、.. 父节点

@ 属性

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
## 获取父节点 ..

## 获取属性 href 为"link2.html"的a节点的父亲节点的class属性值

result3 = html.xpath('//a[@href="link2.html"]/../@class')

print(result3) ## ['item-2']

7、text() 文本获取

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
## text() 获取节点中的文本

result4 = html.xpath('//li[@class="item-1"]//text()')

print(result4)

result5 = html.xpath('//li[@class="item-1"]/a/text()')

print(result5)

8、contains() 属性多指匹配　　

from lxml import etree

## li节点class属性有多个值

text = '''

<li class="li li-first"><a href="link-html">first item</a></li>

'''

html = etree.HTML(text)

## 属性多值匹配  contains(@class, "li")

result = html.xpath('//li[contains(@class, "li")]/a/text()')

print(result)

9、多属性匹配

from lxml import etree

## li节点有多个属性

text = '''

<li class="li li-first" name="item"><a href="link-html">first item</a></li>

'''

html = etree.HTML(text)

## 多属性匹配  and

result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')

print(result)

10、按序选择

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())

## 按序选择

## 序号以1开头 选取第一个li节点

result1 = html.xpath('//li[1]/a/text()')

print(result1) # [' first item ']

## 选取最后一个li节点

result2 = html.xpath('//li[last()]/a/text()')

print(result2) # [' sixth item']

## 选取位置小于3的li节点

result3 = html.xpath('//li[position()<3]/a/text()')

print(result3) # [' first item ', ' second item']

## 选取倒数第三个li节点

result4 = html.xpath('//li[last()-2]/a/text()')

print(result4) # [' forth item']

11、节点轴选择

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())

## 节点轴选择

## ancestor::* 获取所有的祖先节点

result1 = html.xpath('//li[1]/ancestor::*')

print(result1)

## ancestor::div 获取祖先节点 div

result2 = html.xpath('//li[1]/ancestor::div')

print(result2)

## attribute::* 获取第一个li节点所有的属性值

result3 = html.xpath('//li[1]/attribute::*')

print(result3)

## child::* 获取第一个li节点所有的孩子节点

result4 = html.xpath('//li[1]/child::*')

print(result4)

## descendant::* 获取第一个li节点所有的子孙节点

result5 = html.xpath('//li[1]/descendant::*')

print(result5)

## following::* 获取第一个li节点之后的所有节点

result6 = html.xpath('//li[1]/following::*')

print(result6)

## following-sibling::* 获取第一个li节点之后的所有同级节点

result6 = html.xpath('//li[1]/following-sibling::*')

print(result6)

【BOOK】解析库—XPath的更多相关文章

网页解析库-Xpath语法
网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言, ...
Python3编写网络爬虫05-基本解析库XPath的使用
一.XPath 全称 XML Path Language 是一门在XML文档中查找信息的语言最初是用来搜寻XML文档的但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大,它提供了 ...
python爬虫基础04-网页解析库xpath
更简单高效的HTML数据提取-Xpath 本文地址:https://www.jianshu.com/p/90e4b83575e2 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 ...
爬虫之解析库Xpath
简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力.起初XPat ...
爬虫解析库xpath
# xpath简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言.用于在 XML 文档中通过元素和属性进行导航. XPath基于XM ...
解析库--XPath
from lxml import etree 2 text = ''' 3 <div> 4 <ul> 5 <li class = "item-0"&g ...
BeautifulSoup与Xpath解析库总结
一.BeautifulSoup解析库 1.快速开始 html_doc = """ <html><head><title>The Dor ...
（最全）Xpath、Beautiful Soup、Pyquery三种解析库解析html 功能概括
一.Xpath 解析 xpath:是一种在XMl.html文档中查找信息的语言,利用了lxml库对HTML解析获取数据. Xpath常用规则: nodename :选取此节点的所有子节点 // : ...
网络爬虫之Selenium模块和Xpath表达式+Lxml解析库的使用
实际生产环境下,我们一般使用lxml的xpath来解析出我们想要的数据,本篇博客将重点整理Selenium和Xpath表达式,关于CSS选择器,将另外再整理一篇! 一.介绍: selenium最初是一 ...
xpath beautiful pyquery三种解析库
这两天看了一下python常用的三种解析库,写篇随笔,整理一下思路.太菜了,若有错误的地方,欢迎大家随时指正.......(conme on.......) 爬取网页数据一般会经过获取信息-> ...

随机推荐

swift中的进制转换，以及玩转二进制
swift中的进制转换,以及玩转二进制在日常开发中我们很少用到进制转换,或操作二进制的情况.但是如果你处理一些底层的代码,你会经常与二进制打交道,所以接下来我们先来了解一下二进制. 二进制(bina ...
ubuntu 的 apt 命令
工作原理 apt 全称 advanced packaging tool 是 ubuntu 下的包管理工具 apt 采用集中式仓储机制来管理软件,有软件安装包和软件安装列表两部分完成. 使用 a ...
Ginan-PEA例程下载
输入以下命令可在Ubuntu系统中进行下载,但受到网络限制并不能有效下载或者下载很慢 python3 scripts/download_examples.py 通过阅读python脚本,可将下载网址拷 ...
浅析Winform的可视样式
每一个C#的Winform项目的Main方法里,都有这么一行代码,那么它究竟是用来做什么的呢? Application.EnableVisualStyles(); 从注释来看,这是一行用作设置样式的代 ...
关于安装hadoop时在centos上修改主机名总是不成功
按照老师给的文件和网上搜的代码改了很多次,比如改/etc/sysconfig/network这些,无论改几次都没用,找了个帖子,说可能是因为 CentOS7版本由于与之前版本变化比较大,修改主机名的方 ...
java后端JVM面试资料
目录 JDK,JRE,JVM三者的区别与联系讲⼀讲JVM跨平台与跨语⾔ JVM的运⾏时数据区有哪些? 什么是堆内存?堆内存包含哪些部分? 什么是内存溢出什么是内存泄漏?与内存溢出有什么关系? 对象 ...
强烈推荐的elasticsearch集群连接工具: elasticvue
个人感觉非常棒的es-cluster连接工具, 检查状态什么的, 一目了然, 支持中文超方便, 比elasticSearchHead好用多了. 安装方法打开微软浏览器edge-商城搜索-Elastic ...
nohup文件的压缩分割
编写sh脚本先拷贝,之后,清空. 待完成,压缩功能 #!/bin/sh #description split logs time1=$(date -d 'yesterday' "+%Y%m ...
Python发送飞书消息
#!/usr/bin/python3.8 # -*- coding:UTF-8 -*- import os, sys sys.path.append(os.path.dirname(os.path.a ...
eccodes 使用girb_filter工具
参考自ECMWF网站https://confluence.ecmwf.int/display/OPTR/ecCodes%3A+GRIB+and+BUFR+data+decoding+and+encod ...

【BOOK】解析库—XPath

【BOOK】解析库—XPath的更多相关文章

随机推荐

热门专题