Python 爬虫之 xpath

0x01 XML 基础

xpath 是在 XML 文档中搜索内容的一门语言

HTML 是 XML 的一个子集

XML 代码举例：

<book>

    <isbn>978xxxxxxxx</isbn>

    <name>XML从入门到精通</name>

</book>

其中：

<book>、<isbn>等称为节点
1. <book>是<isbn>的父节点
2. <isbn>是<book>的子节点之一
3. <isbn>与<name>互为兄弟节点
通过节点之间的关系，从根节点查找任意节点，如\book\isbn

xpath 查找原理

0x02 解析 XML

安装 lxml 模块：pip install lxml(4.5.0)

lxml 用法步骤：

将需要解析的 HTML 内容构造出 etree 对象

使用 etree 对象的xpath()方法配合 xpath 表达式来完成对数据的提取

from lxml import etree

html = """

<book>

    <isbn>978xxxxxxxx</isbn>

    <name>XML从入门到精通</name>

        <ctx id="111">内容一</ctx>

        <ctx id="222">内容二</ctx>

        <div>

            <ctx id="333">内容三</ctx>

        </div>

</book>

"""

et = etree.XML(html)

# 根据节点进行搜索

res1 = et.xpath("/book")

res2 = et.xpath("/book/isbn")

res3 = et.xpath("/book//ctx")

res4 = et.xpath("/book/*/ctx")

res5 = et.xpath("/book//ctx/text()")    # 获取该节点的文本

# 输出结果

print(res1)

print(res2)

print(res3)

print(res4)

print(res5)

0x03 解析 HTML

测试用 HTML：

<html>

    <head>

        <meta charset="utf-8" >

        <title>页面标题</title>

    </head>

    <body>

        <h1>标题一</h1>

        <h2>标题二</h2>

        <h3>标题一</h3>

        <h4>标题一</h4>

        <a href="http://www.qq.com">腾讯网</a>

        <div id="content" class="default">

            <p>段落</p>

            <a href="http://www.baidu.com">百度</a>

            <a href="http://www.cnblogs.com/SRIGT">我的博客</a>

            <a href="test">测试</a>

            <img src="./logo.ico" />

        </div>

    </body>

</html>

python 代码：

当标签使用不规范时，使用 xpath 爬取会报错

如：


<meta charset="utf-8">



<meta charset="utf-8" />

from lxml import etree

et = etree.parse("test.html")

res1 = et.xpath('/html')

res2 = et.xpath("/html/body//a/text()")                     # 所有<a>标签的文本

res3 = et.xpath("/html/body/div/a[1]/text()")               # 第1个<a>标签的文本

res4 = et.xpath("/html/body/div/a[@href='test']/text()")    # 由属性值索引的文本

print(res4)

print()

links = et.xpath("/html/body/div/a")

for link in links:

    res5_1 = link.xpath("./text()")

    print(res5_1)

    res5_2 = link.xpath("./@href")

    print(res5_2)

res6 = et.xpath("/html/body/div/a/@href")

print(res6)

End

Python 爬虫之 xpath的更多相关文章

python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
【python爬虫】Xpath
一.xml是什么 1.定义:可扩展标记性语言 2.特点:xml的是具有自描述结构的半结构化数据. 3.作用:xml主要设计宗旨是用来传输数据的.他还可以作为配置文件. 二.xml和html的区别 1. ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
python爬虫--用xpath爬豆瓣电影
步骤将目标网站下的页面抓取下来将抓取下来的数据根据一定规则进行提取具体流程将目标网站下的页面抓取下来 1. 倒库 import requests 2.头信息(有时候可不写) headers ...
Python爬虫：Xpath语法笔记
一.选取节点常用的路劲表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpat ...
python爬虫之xpath的基本使用
一.简介 Xpath是一门在XML文档中查找信息的语言.Xpath可用来在XML文档中对元素和属性进行遍历.Xpath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPa ...
Python 爬虫知识点 - XPath
http://cuiqingcai.com/2621.html 一.基础介绍 <bookstore> <book> <title>Harry Potter</ ...
python爬虫-使用xpath方法
#coding=utf-8 import re from lxml import etree import requests response = requests.get("http:// ...

随机推荐

ventoy集成微PE+优启通；vmware虚拟机如何进入PE系统，ventoy启动盘制作。
Ventoy下载地址:Ventoyhttps://www.ventoy.net/cn/index.html 一.Ventoy介绍 Ventoy是一个制作可启动U盘的开源工具.有了Ventoy你就无需反 ...
2、zookeeper的简单命令
Zookeeper的常用命令本篇不包括权限acl相关以及集群相关,那些要另开篇章.使用的版本是Zookeeper3.4.14,不同版本会有一定的差异性. 节点的存储信息新增命令语法:create ...
Java synchronized的使用与原理
需要明确的几个问题: synchronized关键字可以作为函数的修饰符,也可作为函数内的语句,也就是平时说的同步方法和同步语句块.如果再细的分类,synchronized可作用于instance变 ...
霞鹜文楷字体推荐 - 'Fira Code', '霞鹜文楷等宽 Light',
霞鹜文楷字体推荐字体推荐在vscode里面 'Fira Code', '霞鹜文楷等宽 Light', 仓库 https://github.com/lxgw/LxgwWenKai https:// ...
Dreamweaver基础教程：学习JavaScript
目录简介用法输出语法字面量变量操作符语句关键字注释数据类型函数函数表达式 Function() 构造函数自调用函数箭头函数 arguments 对象使用构造函数调用函数 ...
javascript import maps 特性现已被全部主流浏览器支持
值得庆祝 Import maps 特性现在可以在全部三个主要浏览器内使用现在主流现代web 应用引入和利用javascript 是通过 Es module 模块实现. 在开发javascript上 ...
Web服务器通信原理
Web服务器通信原理 1.区分系统 2.DOS系统 3.IP地址 4.域名.DNS 5.端口 6.HTTP协议 7.Web容器 8.整个流程一.区分系统主要三个系统Windows.Linux.Ma ...
AI 学习时代：大语言模型领域的行业黑话和专业术语解析
近年来,深度学习技术的快速发展带动了大语言模型在自然语言处理领域的广泛应用.在这个激动人心的领域里,我们常常会遇到一些行业黑话和专业术语.为了帮助大家更好地入门,让我们深入探讨一些关键概念,以及它们在 ...
Spring Boot学习日记8
学习了yaml文件的配置 <server> <port>8081<port> </server> # k-v键值对 name: xiaoqi #相当于n ...

Python 爬虫之 xpath

0x01 XML 基础

0x02 解析 XML

0x03 解析 HTML

Python 爬虫之 xpath的更多相关文章

随机推荐

热门专题