Python爬虫基础讲解（七）：xpath的语法

xpath语法

XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

下面列出了最有用的表达式：

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

选取未知节点

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

案例

import parsel # str --> Selector对象具有xpath方法

提取到的数据返回一个列表

html_str = """

    <div>

          <ul>

                <li class="item-i">

                    <a href="link1.html">第一个</a>

                </li>

                <1iclass="item-2个>J学言

                    <a href="link2. html">第二个</a>

                </li>

                <li class="item-3">

                    <a href="link3.html">第三个</a>

                </li>

                <li class="item-4">

                    <a href="link4.html">第四个</a>

                </li>

                 <li class="item-5">

                    <a href="link5.html">第五个</a>

                </li>

          </ul>

    </div>

# 1、转换数据类型

# data = parsel.Selector(html_str).extract()

# parsel能够把缺失的html标签补充完成

data = parsel.Selector (html_str)  # parsel能够把缺失的html标签补充完成

# 2、解析数据--list类型

# print(data)

# 2、1从根节点开始，获取所有<a>标签

result = data.xpath(' /html/body/ div/ul/li/a').extract()

# 2、2跨节点获取所有<a>标签

result = data. xpath('/ /a').extract()

# 2、3选取当前节点――使用场景:需要对选取的标签的下一级标签进行多次提取

result = data.xpath('//ul')

result2 = result.xpath(' ./li').extract()  #提取当前节点下的<li>标签

result3 = result.xpath(' ./li/a').extract()  #提取当前节点下的<a>标签

# 2、4选取当前节点的父节点,获取父节点的class属性值

result = data.xpath(' //a')

result4 = result.xpath('../@class').extract()

# 2、5获取第三个<li>标签的节点（两种方法)

result = data. xpath('//li[3]').extract()

result = data. xpath(' / /1i')[2].extract()

# 2、6 通过定位属性的方法获取第四个<a>标签

result = data. xpath(' / / a [@href="link4.html"]’).extract()

#2、7用属性定位标签，获取第四个<a>标签包裹的文本内容

result = data.xpath('//a[@href="link4.html"]/text()' ). extract()

#2、8获取第五个<a>标签的href属性值

result = data. xpath(' / /1i[5]/a/@href').extract(#了解模糊查询

result = data.xpath('//li[contains(@class,"it")]’).extract ()

#同时获取<li>标签的属性以及<a>标签的文本

# result = data.xpath('//li/@class|//a/text()').extract()

print (result)

如何选取多个标签?

通过在路径表达式中使用“”运算符，您可以选取若干个路径。(逻辑运算符)

小结

xpath的概述XPath (XML Path Language),解析查找提取信息的语言
xpath的节点关系:根节点,子节点,同级节点
xpath的重点语法获取任意节点://
xpath的重点语法根据属性获取节点:标签[@属性=’值’]
xpath中获取节点的文本:text )
xpath的获取节点属性值:@属性名

Python爬虫基础讲解（七）：xpath的语法的更多相关文章

python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
Python爬虫之lxml-etree和xpath的结合使用
本篇文章给大家介绍的是Python爬虫之lxml-etree和xpath的结合使用(附案例),内容很详细,希望可以帮助到大家. lxml:python的HTML / XML的解析器官网文档:http ...
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂: XPath:语法简单,可以满足绝大部分的需求: 所以,如果你可以根据自己的需要进行选择. 一.首先,我们需要为 ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...

随机推荐

Codeforces Round #533 C. Ayoub and Lost Array
题面: 传送门题目描述: 题意很简单:1.数组中的所有整数都在区间[l, r],2.所有元素之和能被3整除.现在知道这个数组的大小,l和r,问:按照题目的要求组成的数组一共有多少种可能. 题目分 ...
Go语言中利用append巧妙的删除slice切片中的元素
package main import ( "fmt" ) //删除函数 func remove(s []string, i int) []string { return appe ...
GUI编程学习笔记——day01
GUI编程前言:告诉大家应该怎么学? 这是什么? 它怎么玩? 该如何在我们平时运用? 组件窗口弹窗面板文本框列表框按钮图片监听事件鼠标键盘事件破解工具一.是什么 GUI是图形 ...
python-3-3 字典
一元组(tuple) 1.元组也是一个list,他和list的区别是元组里面的数据无法修改元祖用()小括号表示,如果元祖里面只有一个元素的话,必须在这个元素的后面添加一个逗号,不然就不是元祖了 ...
Excel模板导出之动态导出
说明目前Magicodes.IE已支持Excel模板导出时使用JObject.Dictionary和ExpandoObject来进行动态导出,具体使用请看本篇教程. 本功能的想法.部分实现初步源于a ...
在ASP.NET Core中用HttpClient（六）——ASP.NET Core中使用HttpClientFactory
到目前为止,我们一直直接使用HttpClient.在每个服务中,我们都创建了一个HttpClient实例和所有必需的配置.这会导致了重复代码.在这篇文章中,我们将学习如何通过使用HttpClient ...
OpenCV图像处理中的“机器学习"技术的使用
注意,本文中所指"机器学习"(ML)技术,特指SVM.随机森林等"传统"技术. 一.应用场景相比较当下发展迅速的各路"端到端" ...
将Java编译为本地代码
将Java编译为本地代码通常Java程序的执行流程为:将Java代码编译为Byte Code(字节码),然后JVM执行引擎执行编译好的Byte Code.这是一种中间语言的特性,它的好处就是可以做到 ...
机器学习--如何理解Accuracy, Precision, Recall, F1 score
当我们在谈论一个模型好坏的时候,我们常常会听到准确率(Accuracy)这个词,我们也会听到＂如何才能使模型的Accurcy更高＂．那么是不是准确率最高的模型就一定是最好的模型? 这篇博文会向大家解释 ...
重磅:谷歌强势回归！ google大会报名
google退出中国已经很久了,有关google回归的消息也流传了很久,今天,我们迎来了回归的开幕式. 1.中国区开发者网站不需要梯子,赶紧取感受下吧: https://developers.goo ...

Python爬虫基础讲解（七）：xpath的语法

Python爬虫基础讲解（七）：xpath的语法的更多相关文章

随机推荐

热门专题