1. XPath

1.1 什么是XPath

XPath（XML Path Language) 是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

1.2 XPath开发工具

1.2.1 Chrome插件XPath Helper

https://jingyan.baidu.com/article/1e5468f94694ac484861b77d.html

1.2.2 Firefox插件XPath Checker

https://blog.csdn.net/menofgod/article/details/75646443

1.3 Xpath语法

这个就要看我写的selenium基础中的文章了。

https://www.cnblogs.com/liuhui0308/p/11937139.html

2. lxml模块

lxml是一个HTML/XML的解析库，主要功能是如何解析和提取HTML/XML数据。

lxml和正则是一样，也是用C语言实现的，是一款高性能的Python HTML/XML解析器，可以利用之前学习的XPath语法，来快速定位特定元素以及节点信息。

可通过 pip 安装：

pip install lxml -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

2.1 基本使用

我们可以利用它来解析HTML 代码，且在解析 HTML 代码的时候，如果 HTML 代码不规范，他会自动进行补全。

from lxml.html import etree

htmlText = '''

<div>

    <ul>

        <li class="item-0"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

# 利用 etree.HTML，将字符串解析为 HTML 文档

html = etree.HTML(htmlText)

# 按字符串序列化 HTML 文档

result = etree.tostring(html, encoding='utf-8', pretty_print=True).decode('utf-8')

print(result)

2.2 在文件中读取html代码

除了直接使用字符串进行解析，lxml 还支持从文件中读取内容。

html代码：

<!DOCTYPE html>

<html lang="zh-CN">

<head>

    <meta charset="utf-8">

    <title></title>

</head>

<body>

    <div>

    <ul>

        <li class="item-0"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

</body>

</html>

然后利用etree.parse()方法来读取文件。

from lxml.html import etree

html = etree.parse('./hello.html')

result = etree.tostring(html, encoding='utf-8', pretty_print=True).decode('utf-8')

print(result)

结果：

我们看到居然报错了，为什么呢？

之所以使用etree.parse()方法解析 html 内容时，会报lxml.etree.XMLSyntaxError的错，是因为etree.parse()默认使用的是XML的解析器，所以当html内容不规范，比如出现某个标签缺少闭合标签时，就会报这个错误。这时，可使用etree.HTMLParser()创建一个HTML的解析器，然后作为etree.parse()方法的参数即可。

from lxml.html import etree

htmlParser = etree.HTMLParser(encoding='utf-8')

html = etree.parse('./hello.html', parser=htmlParser)

result = etree.tostring(html, encoding='utf-8', pretty_print=True).decode('utf-8')

print(result)

2.3 在lxml中使用XPath语法

使用XPath语法，应该使用Element.xpath语法，来执行XPath的选择。

xpath函数返回的永远是一个列表。

我们先来匹配下li标签和a标签

from lxml.html import etree

htmlParser = etree.HTMLParser(encoding='utf-8')

html = etree.parse('./hello.html', parser=htmlParser)

lis = html.xpath('//li')

for li in lis:

    print(etree.tostring(li, encoding='utf-8', pretty_print=True).decode('utf-8'), end='')

aList = html.xpath('//a/@href')

for a in aList:

    print(a)

获得li标签下a标签的href属性和内容：

from lxml.html import etree

htmlParser = etree.HTMLParser(encoding='utf-8')

html = etree.parse('./hello.html', parser=htmlParser)

lis = html.xpath('//li')

for li in lis:

    # . 号表示在当前的 li 元素下去匹配

    href = li.xpath('.//a/@href')[0]   #获取 a 标签的 href 属性

    txt = li.xpath('.//a/text()')[0]   #获取 a 标签的文本

    print(href, txt)

爬虫(六)：XPath、lxml模块的更多相关文章

洗礼灵魂，修炼python（71）--爬虫篇—【转载】xpath/lxml模块，爬虫精髓讲解
Xpath,lxml模块用法转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的原帖链接:传送门以下为转载内容: --------------------- ...
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂: XPath:语法简单,可以满足绝大部分的需求: 所以,如果你可以根据自己的需要进行选择. 一.首先,我们需要为 ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
lxml模块(应用xpath技术)
一.lxml介绍第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0.XSLT1.0.定制元素类,甚至python风格的数据绑定接口.lxml是通过Cpytho ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...
XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
爬虫学习笔记（六）PyQuery模块
PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了. Pyquer ...
python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...

随机推荐

java中大整型BigInteger及setBit和testBit方法
最近在修改公司之前的项目,在项目中遇到了权限校验的问题,代码中出现了BigInteger的setBit()testBit()方法,之前未接触过,所以了解了下BigInteger. 在Java中,由CP ...
scrapy结合selenium抓取武汉市环保局空气质量日报
1.前言目标网站:武汉市环境保护局(http://hbj.wuhan.gov.cn/viewAirDarlyForestWaterInfo.jspx).scrapy对接selenium模块抓取空气质 ...
requests请求库练习--GitHub登录
# coding = utf-8 """ 结合抓包工具,采用两种方法模拟登录github直接利用session登录和利用requests登录 ""&q ...
sed和awk的简单使用
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换.删除.新增.选取等特定工作,下面先了解一下sed的用法. 语法: sed [-nefri] ‘ ...
vue e.path 移动端兼容
作用 e.path 用来获取点击元素及以上所有父元素的一个数组问题当在移动端会有获取不到e.path的问题不兼容解决 let path = event.path || (event.compo ...
mysql的事物，外键，与常用引擎
### part1 时间类型 date YYYY-MM-DD 年月日 (出现日期) time HH:MM:SS 时分秒 (竞赛时间) year YYYY 年份值 (红酒年份 82年矿泉水) datet ...
如何在导航条的button点击变换时，切换对应的控制器
1.导航条内的button被点击切换对应的控制器让控制器作为调航条的代理 1.定义代理 2.遵循代理协议 3.实现代理 4.在合适的地方调用代理当按钮被点击的时候切换控制器
Python小数据保存，有多少中分类？不妨看看他们的类比与推荐方案...
小数据存储我们在编写代码的时候,经常会涉及到数据存储的情况,如果是爬虫得到的大数据,我们会选择使用数据库,或者excel存储.但如果只是一些小数据,或者说关联性较强且存在存储后复用的数据,我们该如何 ...
KETTLE多表关联的同步一张表的两种实现方式
以下操作都在5.0.1版本下进行开发,其余版本可以进行自动比对在平时工作当中,会遇到这种情况,而且很常见.比如:读取对方的多个视图或者表,写入目标库的一张表中,就涉及到多表的同步. 多表同步可以有以 ...
Android 中的Activity、Window、View之间的关系
一.概述 Activity 可以说是应用程序的载体(也可以理解为界面的载体,但是不界面),用户能够在上面绘制界面(Activity本身不绘制界面),并提供用户处理事件的API,维护应用程序的生命周 ...

爬虫(六)：XPath、lxml模块