12.Python爬虫利器三之Xpath语法与lxml库的用法

LXML解析库使用的是Xpath语法：

XPath 是一门语言

XPath可以在XML文档中查找信息

XPath支持HTML

XPath通过元素和属性进行导航

XPath可以用来提取信息

XPath比正则表达式厉害

XPath比正则表达式简单

lxml使用方法：

from lxml import etree

text = '''

<div>

    <ul>

         <li class="item-0"><a href="link1.html">first item</a></li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-inactive"><a href="link3.html">third item</a></li>

         <li class="item-1"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a>

     </ul>

 </div>

'''

html = etree.HTML(text)  #使用etree.HTML初始化

result = etree.tostring(html) #将初始化的HTML转化成string

print result

首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。

其中，这里体现了 lxml 的一个非常实用的功能就是自动修正 html 代码，大家应该注意到了，最后一个 li 标签，其实我把尾标签删掉了，是不闭合的。不过，lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能。

所以输出结果是这样的

<html><body><div>

    <ul>

         <li class="item-0"><a href="link1.html">first item</a></li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-inactive"><a href="link3.html">third item</a></li>

         <li class="item-1"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a>

     </li></ul>

 </div>

</body></html>
#不仅补全了 li 标签，还添加了 body，html 标签。

如何使用XPATH：

安装lxml库

from lxml import etree

Selector = etree.HTML(网页源代码)

Selector.xpath(一段神奇的符号)

XPath与HTML结构

获取网页元素的Xpath

应用XPath提取内容

案例1：

html = '''<!DOCTYPE html>

<html>

<head lang="en">

    <meta charset="UTF-8">

    <title>测试-常规用法</title>

</head>

<body>

<div id="content">

    <ul id="useful">

        <li>这是第一条信息</li>

        <li>这是第二条信息</li>

        <li>这是第三条信息</li>

    </ul>

    <ul id="useless">

        <li>不需要的信息1</li>

        <li>不需要的信息2</li>

        <li>不需要的信息3</li>

    </ul>

    <div id="url">

        <a href="http://jikexueyuan.com">极客学院</a>

        <a href="http://jikexueyuan.com/course/" title="极客学院课程库">点我打开课程库</a>

    </div>

</div>

</body>

</html>

'''

selector = etree.HTML(html)

#提取文本  提取文本内容：/text()

content= selector.xpath('//ul[@id="useless"]/li/text()') #提取id属性为useless下面li标签的文本信息

content1 = selector.xpath('//ul/li/text()') #提取所有li标签的文本信息

content2 = selector.xpath('//div[@id="content"]/ul[@id="useful"]/li/text()') #提取id属性为useful下面li标签的文本信息

for each in content2:

    print each

#提取属性

link = selector.xpath('//a/@href')  #提取属性内容: /@xxxx

for each in link:

    print each

title = selector.xpath('//a/@title')  #提取属性内容: /@xxxx

print title[0]

xpath基本语法

//定位根节点

/往下层寻找

提取文本内容：/text()

提取属性内容: /@xxxx

===================

xpath的特殊用法

1.以相同的字符开头

2.标签套标签

案例1

html1 = '''

<!DOCTYPE html>

<html>

<head lang="en">

    <meta charset="UTF-8">

    <title>测试-特殊用法</title>

</head>

<body>

    <div id="test-1">需要的内容1</div>

    <div id="test-2">需要的内容2</div>

    <div id="testfault">需要的内容3</div>

</body>

</html>

'''

selector = etree.HTML(html1)

content = selector.xpath('//div[starts-with(@id,"test")]/text()')

for each in content:

    print each

案例2：

html2 = '''

<!DOCTYPE html>

<html>

<head lang="en">

    <meta charset="UTF-8">

    <title></title>

</head>

<body>

    <div id="test3">

        我左青龙，

        <span id="tiger">

            右白虎，

            <ul>上朱雀，

                <li>下玄武。</li>

            </ul>老牛在当中，

        </span>龙头在胸口。

    </div>

</body>

</html>

'''

selector1=etree.HTML(html2)

content1 = selector1.xpath('//div[@id="test3"]/text()')

for each in content1:

    print  each

data = selector1.xpath('//div[@id="test3"]')[0]

info = data.xpath('string(.)')

print info

12.Python爬虫利器三之Xpath语法与lxml库的用法的更多相关文章

Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
python爬虫（8）--Xpath语法与lxml库
1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...
Xpath语法与lxml库的用法
BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法. 1.安装 pip install lxml 2 ...
Xpath语法与lxml库
1. Xpath 1 )什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 2) X ...
请求数据分析 xpath语法与lxml库
前情提要: 上节学过从网上获取请求,获取返回内容,带理获取内容之后,第二部就是获取请求的数据分析一:xpath 语法浏览器一般会自带xpatn 解析这里大概讲述一下xpath 的基本操作二: ...
Python爬虫利器六之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...

随机推荐

Stark组件（一）
Stark组件构建 1.启动所有app下的stark.py文件,的配置实现步骤 1.创建一个Django项目crm,并创建 app1 ,app2, stark 三个app 2.在crm 项目的set ...
poj 1080 基因组（LCS）
Human Gene Functions Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 19376 Accepted: ...
WDA基础九：BusinessGraphics
好像很少有人用这玩意...好难玩,好废...和ABAP的那个图一样废.... 很多报表都是用BO,BI什么做的,不仅废,而且很多BO顾问不懂代码,写出来的报表挫的要死.... WDA的网页图形报表分析 ...
判断runtime是否运行在docker中及从docker中获取宿主机的ip信息
1.判断运行时环境是否运行在docker中参考:How to determine if a process runs inside lxc/Docker? 确定进程是否在LXC/Docker中运行? ...
zzw原创_根据某一文件复制出大量固定位数后缀名的递增的文件
1.trre.sh :根据某一文件复制出大量固定位数后后缀递增的文件. 如将 SPINFO_190516_20170109.001 复制成SPINFO_190516_20170109.002 ...
Ubuntu 系统优化(不定时更新)
系统美化 1. 为Ubuntu安装Numix主题和图标 sudo add-apt-repository ppa:numix/ppa sudo apt-get update sudo apt-get i ...
time_wait 和 close_wait
tcp 四次握手状态图: 使用以下命令统计 tcp 连接信息: netstat -n |awk '/^tcp/ {++S[$NF]} END {for (a in S) print a, S[a]}' ...
Auto Encoder用于异常检测
对基于深度神经网络的Auto Encoder用于异常检测的一些思考 from:https://my.oschina.net/u/1778239/blog/1861724 一.前言现实中,大部分数据都 ...
SpringBoot与Web开发
web开发1).创建SpringBoot应用,选中我们需要的模块:2).SpringBoot已经默认将这些场景已经配置好了,只需要在配置文件中指定少量配置就可以运行起来3).自己编写业务代码: 自动配 ...
ubuntu 挂载虚拟机vdi文件
sudo apt-get install nbd-server nbd-client qemu-kvm # rmmod nbd # modprobe nbd max_part=8 # qemu- ...

12.Python爬虫利器三之Xpath语法与lxml库的用法

12.Python爬虫利器三之Xpath语法与lxml库的用法的更多相关文章

随机推荐

热门专题