python3学习-lxml模块

在爬虫的学习中，我们爬取网页信息之后就是对信息项匹配，这个时候一般是使用正则。但是在使用中发现正则写的不好的时候不能精确匹配（这其实是自己的问题！）所以就找啊找。想到了可以通过标签来进行精确匹配岂不是比正则要快。所以找到了lxml。

因为lxml是对xml格式的解析，支持html格式，而对于xml格式的解析有一门专用的语言，XPath。XPath用于在xml文档中通过元素和属性进行导航。lxml库也是解析xml文件，所以也应用了XPath语法。我们先学习一下XPath 的标准语法，然后将这些语法知识应用到lxml之中。

大家应该对xml或者是html都不陌生，默认大家都知道，所以就简单介绍。

节点关系

父子节点(Parent children)

<div class="all">

    <div class="sub"></div>

</div>

无需解释。

兄弟节点(sibling)

<div class="all">

    <div class="sibling"></div>

    <div class="sibling"></div>

</div>

无需解释。

先辈(Ancestor)后代(Descendant)

<div class="grandpa">

    <div class="all">

        <div class="sibling"></div>

        <div class="sibling"></div>

    </div>

</div>

节点选择

表达式	描述
nodename	选取此节点的所有子节点
/	此路径运算符出现在模式开头时，表示应从根节点选择
//	从当前节点开始递归下降，此路径运算符出现在模式开头时，表示应从根节点递归下降。
.	选取当前节点
..	选取当前节点的父节点
@	选取属性
*	通配符.选择所有元素节点与元素名无关
@	选取属性
@*	选取所有属性
:	命名空间分隔符；将命名空间前缀与元素名或属性名分隔
()	括号运算符(优先级最高)，强制运算优先级
[]	应用筛选模式（即谓词，包括”过滤表达式”和”轴（向前/向后）”）
\|	两个节点集合的联合,eg:/div/a \| //div/span
@	选取属性

匹配未知节点

通配符	描述
*	匹配任何节点
@*	匹配任何属性节点
node()	匹配任何类型的节点

实例

下面我们通过一些例子看一下谓词+表达式的综合：

路径表达式	结果
/node()	根元素下所有的节点（包括文本节点，注释节点等）
/text()	查找文档根节点下的所有文本节点
/div/a[1]	选取属于div的第一个a元素
/div/a[1]	选取属于div的第一个a元素
/div/a[last()]	选取属于div的子元素中倒数第一个a元素
/div/a[last()-1]	选取属于div的子元素中倒数第二个a元素
/div/a[position()

python3学习-lxml模块的更多相关文章

python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
python3学习-Queue模块
python标准库中带有一个Queue模块,顾名思义,队列.该模块也衍生出一些基本队列不具有的功能. 我们先看一下队列的方法: put 存数据 get 取数据 empty 判断队列是否为空 qsize ...
python3学习-logging模块
1.logging模块的使用非常简单,引入模块就可以使用. import logging logging.debug('This is debug message') logging.info('Th ...
python3学习-pickle模块
pickle提供了一个简单的持久化功能.可以将对象以文件的形式存放在磁盘上. 基本接口: pickle.dump(obj, file, [,protocol]) 注解:将对象obj保存到文件file中 ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂: XPath:语法简单,可以满足绝大部分的需求: 所以,如果你可以根据自己的需要进行选择. 一.首先,我们需要为 ...
洗礼灵魂，修炼python（71）--爬虫篇—【转载】xpath/lxml模块，爬虫精髓讲解
Xpath,lxml模块用法转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的原帖链接:传送门以下为转载内容: --------------------- ...
Python3学习(2)-中级篇
Python3学习(1)-基础篇 Python3学习(2)-中级篇 Python3学习(3)-高级篇切片:取数组.元组中的部分元素 L=['Jack','Mick','Leon','Jane','A ...
Python3学习之路~0 目录
目录 Python3学习之路~2.1 列表.元组操作 Python3学习之路~2.2 简单的购物车程序 Python3学习之路~2.3 字符串操作 Python3学习之路~2.4 字典操作 Pytho ...

随机推荐

HDU 5791：Two（DP）
http://acm.hdu.edu.cn/showproblem.php?pid=5791 Two Problem Description Alice gets two sequences A ...
VS2013日常使用若干技巧+快捷键
1.注释的方法 1)sqlserver中,单行注释:— — 多行注释:/* 代码 */ 2)C#中,单行注释:// 多行注释:/* 代码 */ 3)C#中多行注释的快捷方式:先选中你要注 ...
c++简单桶排序
c++简单桶排序题目一样,还是排序桶排序是排序算法里比较快的代码 + 注释 #include <bits/stdc++.h> using namespace std; int mai ...
Flask-登录练习
基于蓝图CBV模式的登录使用蓝图并用cbv模式完成登录功能登录成功后跳转到首页将session保存在liunx上的redis数据库使用before_request验证是否是登陆用户蓝图 fr ...
嵊州D3T2 福尔贝斯太太的快乐夏日 summer
宗教,或是无节制的自由主义,是致人腐化的毒剂. 现在,一个人要经历 n 个事件,编号为 1 ∼ n. 经历 x 号事件,他的危险值就会增加 x. 一开始他的危险值是 0. 当一个人的危险值大于 0 且 ...
Yii basic 模板支持连接多数据库
1.首先修改db配置文件,修改格式如下: return [ 'db' => [ 'class' => 'yii\db\Connection', 'dsn' => 'mysql:hos ...
组件--button详解
一.wxss尺寸单位rpx rpx(responsive pixel): 可以根据屏幕宽度进行自适应.规定屏幕宽为750rpx. 严格按照XML语法. 二.icon 图标组件 <!--index ...
SSAS Tabular 表格模型建模（关系）及部署
一.表格建模(SSAS 表格) 表格模型是 Analysis Services 中的内存中数据库. 使用最先进的压缩算法和多线程查询处理器,xVelocity 内存中分析引擎 (VertiPaq) ...
Your project specifies TypeScriptToolsVersion 2.3, but a matching compiler ...... 出现这种警告解决方式
UVA663 Sorting Slides（烦人的幻灯片）
UVA663 Sorting Slides(烦人的幻灯片) 第一次做到这么玄学的题,在<信息学奥赛一本通>拓扑排序一章找到这个习题(却发现标程都是错的),结果用二分图匹配做了出来蒟蒻感觉 ...

python3学习-lxml模块

python3学习-lxml模块的更多相关文章

随机推荐

热门专题