Xpath

文章参考：https://www.cnblogs.com/mxjhaima/p/13775844.html#案例

安装

pip install lxml

引用

from lxml import etree

获取文档树对象

通过Xpath 获取文档的对象，获取到对象后，可以通过文档的对象去去获取到树中的元素。

文本转化文档树对象

def strToEleObj():

    doc = '''

          <div>

              <ul>

                   <li class="item-0"><a href="link1.html">first item</a></li>

                   <li class="item-1"><a href="link2.html">second item</a></li>

                   <li class="item-inactive"><a href="link3.html">third item</a></li>

                   <li class="item-1"><a href="link4.html">fourth item</a></li>

                   <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

               </ul>

           </div>

          '''

    # 把文本转换成一个文档树对象

    html = etree.HTML(doc)

    result = etree.tostring(html)

    print(str(result, 'utf-8'))

文件转化文档树对象

def fileToEleObj():

    # 读取外部文件 index.html

    html = etree.parse('./index.html')

    # pretty_print=True 会格式化输出

    result = etree.tostring(html, pretty_print=True)  # pretty_print=True 会格式化输出

    print(result)

节点、元素、属性、内容

xpath 的思想是通过路径表达去寻找节点。节点包括元素，属性，和内容

路径表达式

/   根节点，节点分隔符，

//  任意位置

.   当前节点

..  父级节点

@   属性

示例

from lxml import etree

'''

    路径表达式

'''

def get_el_list():

    doc = '''

              <div>

                  <ul>

                       <li class="item-0"><a href="link1.html">first item</a></li>

                       <li class="item-1"><a href="link2.html">second item</a></li>

                       <li class="item-inactive"><a href="link3.html">third item</a></li>

                       <li class="item-1"><a href="link4.html">fourth item</a></li>

                       <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

                   </ul>

               </div>

              '''

    # 把文本转换成一个文档树对象

    html = etree.HTML(doc)

    # 获取当前节点

    print('获取当前节点---> ', html.xpath('.'))

    # 获取 根节点 标签 ,当前元素无根节点 通过 打印 etree.tostring(html) ,会发现根节点为 <html> </html> 包裹的内容 ，上一行获取的当前节点为 html

    print('获取 根节点 标签---> ', html.xpath('/'))

    # 获取 li 标签

    print('获取 li 标签---> ', html.xpath('//li'))

    # 获取 li 下的 a 标签属性

    print('获取li下的 a 标签属性----> ', html.xpath('//li/a/@href'))

    # 获取 p 标签 ,此标签不存在 返回结果为空数组

    print('获取 p 标签----> ', html.xpath('//p '))

输出结果

获取当前节点--->  [<Element html at 0x2a989854200>]

获取 根节点 标签--->  []

获取 li 标签--->  [<Element li at 0x2a9898ece40>, <Element li at 0x2a9899240c0>, <Element li at 0x2a989924180>, <Element li at 0x2a9899241c0>, <Element li at 0x2a989924200>]

获取li下的 a 标签属性---->  ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

获取 p 标签---->  []

说明

将doc 转换成文档对象后，为包裹的内容；故获取到的当前的节点对象为HTML；
当前节点为HTML，无根节点故返回为空数组即：[]；
查询不存在的节点时，返回空数组即：[]

通配符

*   任意元素

@*  任意属性

node()  任意子节点（元素，属性，内容)

示例



'''

    通配符

'''

from lxml import etree

def get_el_by_anyChar():

    doc = '''

              <div>

                  <ul class="ul" >

                       <li class="item-0"><a href="link1.html">first item</a></li>

                       <li class="item-1"><a href="link2.html">second item</a></li>

                       <li class="item-inactive"><a href="link3.html">third item</a></li>

                       <li class="item-1"><a href="link4.html">fourth item</a></li>

                       <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

                   </ul>

               </div>

              '''

    # 把文本转换成一个文档树对象

    html = etree.HTML(doc)

    # 获取 ul 下的所有子节点

    print('获取 ul 下的所有子节点---> ', html.xpath('//ul/node()'))

    # 获取 任意元素[所有的]

    print('获取 ul 下 任意元素[所有的]---> ', html.xpath('//ul/*'))

    # 获取 任意属性 [所有的]

    print('获取 ul 下 任意属性[所有的]---> ', html.xpath('//ul/@*'))

输出结果

获取 ul 下的所有子节点--->  ['\n                       ', <Element li at 0x1d4792b5e80>, '\n                       ', <Element li at 0x1d4792b5e00>, '\n                       ', <Element li at 0x1d4792b5f00>, '\n                       ', <Element li at 0x1d4792b5f40>, '\n                       ', <Element li at 0x1d4792b5ec0>, ' 闭合标签\n                   ']

获取 任意元素--->  [<Element li at 0x1d47928dd80>, <Element li at 0x1d4792b5e80>, <Element li at 0x1d4792b5fc0>, <Element li at 0x1d4792b5e00>, <Element li at 0x1d4792b5f00>]

获取 任意属性--->  ['ul']

谓语

//a[n] n为大于零的整数，代表子元素排在第n个位置的<a>元素

//a[last()]   last()  代表子元素排在最后个位置的<a>元素

//a[last()-]  和上面同理，代表倒数第二个

//a[position()<3] 位置序号小于3，也就是前两个，这里我们可以看出xpath中的序列是从1开始

//a[@href]    拥有href的<a>元素

//a[@href='www.baidu.com']    href属性值为'www.baidu.com'的<a>元素

//book[@price>2]   price值大于2的<book>元素

示例

from lxml import etree

def get_el_by_wei():

    doc = '''

                  <div>

                      <ul class="ul" >

                           <li class="item-0"><a href="link1.html">first item</a></li>

                           <li class="item-1"><a href="link2.html">second item</a></li>

                           <li class="item-inactive"><a href="link3.html">third item</a></li>

                           <li class="item-1"><a href="link4.html">fourth item</a></li>

                           <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

                       </ul>

                   </div>

                  '''

    # 把文本转换成一个文档树对象

    html = etree.HTML(doc)

    # 获取第一个 li / a 元素 里面的文本

    print('获取第一个 ---> ', html.xpath('//li[1]/a/text()'))

    # 获取最后一个 li / a 元素 里面的文本

    print('获取最后一个 ---> ', html.xpath('//li[last()]/a/text()'))

    # 获取倒数第二个 li / a元素 里面的文本

    print('获取 倒数第二个---> ', html.xpath('//li[last()-1]/a/text()'))

    # 获取位置序号小于3，也就是前两个 li / a元素 里面的文本

    print('获取位置序号小于3 ---> ', html.xpath('//li[position()<3]/a/text()'))

    # 获取拥有href的<a>元素下的文本

    print('获取第一个 ---> ', html.xpath('//a[@href]/text()'))

    # 获取 a 标签下 href = link3.html的a元素下的文本 注意 不是 == 而是 =

    print('获取 a 标签下 href = link3.html的<a>元素---> ', html.xpath('//a[@href="link3.html"]/text()'))

    # 获取 ul class == ul 的

    print('获取 ul class == ul  ---> ', html.xpath('//ul[@class="ul"]'))

多个路径

用| 连接两个表达式，可以进行或匹配

//book/title | //book/price

示例

from lxml import etree

def get_el_mutil_path():

    doc = '''

                  <div>

                      <ul class="ul" >

                           <li class="item-0"><a href="link1.html">first item</a></li>

                           <li class="item-1"><a href="link2.html">second item</a></li>

                           <li class="item-inactive"><a href="link3.html">third item</a></li>

                           <li class="item-1"><a href="link4.html">fourth item</a></li>

                           <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

                       </ul>

                   </div>

                  '''

    # 把文本转换成一个文档树对象

    html = etree.HTML(doc)

    # 获取li 下 class = item-inactive 或者 item-1

    print('获取li 下 class = item-inactive 或者 item-1 ---> ', html.xpath('//li[@class="item-inactive"] | //li[@class="item-1"] '))

输出结果

获取li 下 class = item-inactive 或者 item-1 --->  [<Element li at 0x1b490955f40>, <Element li at 0x1b490966200>, <Element li at 0x1b490966180>]

函数

更多函数查看https://www.w3school.com.cn/xpath/xpath_functions.asp

contains(string1,string2)

starts-with(string1,string2)

# 文本

text()

# 最后一个

last()

# 位置

position()

# 回去所有节点

node()

'''

    函数

'''

from lxml import etree

def get_el_func():

    doc = '''

                     <div>

                         <ul class="ul" >

                              <li class="item-0 active"><a href="link1.html">first item</a></li>

                              <li class="item-1"><a href="link2.html">second item</a></li>

                              <li class="item-inactive"><a href="link3.html">third item</a></li>

                              <li class="item-1"><a href="link4.html">fourth item</a></li>

                              <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

                          </ul>

                      </div>

                     '''

    # 把文本转换成一个文档树对象

    html = etree.HTML(doc)

    # 匹配 class 包含 active 的 元素

    print(html.xpath("//*[contains(@class,'active')]"))

    # 获取所有 li / a 文本

    print(html.xpath("//li/a/text()"))

    # 获取最后一个 li / a 文本

    print(html.xpath("//li[last()]/text()"))

    # 获取位置为1的li /a 文本 ，节点时从1开始 而不是0

    print(html.xpath("//li[position()=1]/a/text()"))

输出结果

[<Element li at 0x23ea36d0400>, <Element li at 0x23ea36d0180>]

['first item', 'second item', 'third item', 'fourth item', 'fifth item']

[' # 注意，此处缺少一个 ']

['first item']

实战信息

获取某电影网站电影名称、简单描述、图片

import requests

from lxml import etree

'''

     获取电影信息列表

'''

def get_moive_info_list(url):

        # 定义头部信息

        headers = {

                'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

        }

        res = requests.get(url, headers=headers)

        # res.text 返回的是 文本

        html = res.text

        print('输出响应信息->',html)

        # 将文本转换成文档对象

        selector = etree.HTML(html)

        # 返回是电影名列表

        title_list = selector.xpath('//a[@class="pic-pack-outer"]/h3/text()')

        print('电影名称列表:',title_list)

        # 获取简单描述

        desc_list = selector.xpath('//a[@class="pic-pack-outer"]/p/text()')

        print('电影名称简单描述:', desc_list)

        # 图片

        img_list = selector.xpath('//a[@class="pic-pack-outer"]/img/@src')

        print('图片列表:', img_list)

if __name__ == '__main__':

        url = 'https://xxxxxxx/vod/list/n_1_t_25/o1p1.html'

        get_moive_info_list(url)

输出结果

输出响应信息-> <!DOCTYPE html>

·······

</body>

</html>

电影名称列表: ['辣妈犟爸', '五月梨花香', '岁岁平安',.....]

电影名称简单描述: ['年轻村官奋斗历程', '脱贫致富振兴家乡', .....]

图片列表: ['https://image11.m1905.cn/uploadfile/2022/0804/thumb_1_150_203_20220804094442559303.jpg',  .... 'https://image11.m1905.cn/uploadfile/2016/0926/thumb_1_150_85_20160926105222739343.jpg']

【Python】爬虫-Xpath的更多相关文章

python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
python爬虫----XPath
1.知道本节点元素,如何定位到兄弟元素详情见博客 XML代码见下 bt1在文档中只出现一次,所以很容易获取到bt1中内容,那怎么根据<td class='bt1'>来获取bt2中的内容 ...
Python爬虫 | xpath的安装
错误信息:程序包无效.详细信息:“Cannot load extension with file or directory name . Filenames starting with "& ...
python爬虫前提技术
1.BeautifulSoup 解析html如何使用转自:http://blog.csdn.net/u013372487/article/details/51734047 #!/usr/bin/py ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
小白学 Python 爬虫（19）：Xpath 基操
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

CommunityToolkit.Mvvm8.1 IOC依赖注入控制反转(5)
本系列文章导航 https://www.cnblogs.com/aierong/p/17300066.html https://github.com/aierong/WpfDemo (自我Demo地址 ...
Mapstruct使用报java: Couldn't retrieve @Mapper annotation
检查代码报错 java: Couldn't retrieve @Mapper annotation jar包冲突,去掉一个Mapstructjar包.
Python LOG-日志
LOG https://www.cnblogs.com/yyds/p/6901864.html logging logging模块提供模块级别的函数记录日志包括四大组件 1. 日志相关概念日志日 ...
[C++提高编程] 3.5 stack容器
文章目录 3.5 stack容器 3.5.1 stack 基本概念 3.5.2 stack 常用接口 3.5 stack容器 3.5.1 stack 基本概念概念:stack是一种先进后出(Firs ...
Django笔记三十七之多数据库操作(补充版)
本文首发于公众号:Hunter后端原文链接:Django笔记三十七之多数据库操作(补充版) 这一篇笔记介绍一下 Django 里使用多数据库操作. 在第二十二篇笔记中只介绍了多数据库的定义.同步命令 ...
当Serverless遇到Regionless：现状与挑战
摘要:本文尝试基于分析现有的学术文章,剖析Serverless与Regionless并存时,在性能提升和成本控制两个方向的现状与挑战本文分享自华为云社区<当Serverless遇到Region ...
latex-作业模板（自用，因为记不住语法55）
\documentclass[12pt, a4paper, oneside]{ctexart} \usepackage{amsmath, amsthm, amssymb, bm, graphicx, ...
2022-09-26：以下go语言代码输出什么？A：{“Time“: “2020-12-20T00:00:00Z“, “N“: 5 }；B：“2020-12-20T00:00:00Z“；C：{“N“:
2022-09-26:以下go语言代码输出什么?A:{"Time": "2020-12-20T00:00:00Z", "N": 5 }:B: ...
2020-11-04：java里，总体说一下集合框架。
福哥答案2020-11-04: 福哥口诀法:收马李色坤(Collection.Map.List.Set.Queue).李矢数链写(List:Vector矢量.ArrayList数组.LinkedLis ...
2021-11-21：map[i][j] == 0，代表(i,j)是海洋，渡过的话代价是2， map[i][j] == 1，代表(i,j)是陆地，渡过的话代价是1， map[i][j] == 2，代表
2021-11-21:map[i][j] == 0,代表(i,j)是海洋,渡过的话代价是2, map[i][j] == 1,代表(i,j)是陆地,渡过的话代价是1, map[i][j] == 2,代表 ...

【Python】爬虫-Xpath

Xpath

获取文档树对象

文本转化文档树对象

文件转化文档树对象

节点、元素、属性、内容

路径表达式

通配符

谓语

多个路径

函数

实战信息

【Python】爬虫-Xpath的更多相关文章

随机推荐

热门专题