爬虫-lxml用法

安装

pip install lxml

用法

# coding=utf-8

from lxml import etree

text = ''' <div> <ul>

        <li class="item-1"><a>first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </ul> </div> '''

html = etree.HTML(text)

print(html)

#查看element对象中包含的字符串

# print(etree.tostring(html).decode())

#获取class为item-1 li下的a的herf

ret1 = html.xpath("//li[@class='item-1']/a/@href")

print(ret1)

#获取class含有item-1 li下的a的文本  contains包含

ret2 = html.xpath("//li[contains(@class,'item-1')]/a/text()")

print(ret2)

#每个li是一条新闻，把url和文本组成字典

for href in ret1:

    item = {}

    item["href"] = href

    item["title"] = ret2[ret1.index(href)]

    print(item)

print("*"*100)

#分组，根据li标签进行分组，对每一组继续写xpath

ret3 = html.xpath("//li[@class='item-1']")

print(ret3)

for i in ret3:

    item=  {}

    item["title"] = i.xpath("a/text()")[0] if len(i.xpath("./a/text()"))>0 else None

    item["href"] = i.xpath("./a/@href")[0] if len( i.xpath("./a/@href"))>0 else None

    print(item)

爬虫-lxml用法的更多相关文章

爬虫---lxml爬取博客文章
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地爬取博客园博客爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...
爬虫---lxml简单操作
前几篇写了一些Beautiful Soup的一些简单操作,也拿出来了一些实例进行实践,今天引入一个新的python库lxmt,lxmt也可以完成数据的爬取哦什么是lxml lxml是python的一 ...
爬虫 lxml 模块
Xpath 在 XML 文档中查找信息的语言, 同样适用于 HTML 辅助工具 Xpath Helper Chrome插件快捷键 Ctrl + shift + x XML Quire xpath ...
python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
爬虫-retrying用法
文档:https://pypi.org/project/retrying/ 安装 pip install retrying 设置最大重试次数 # coding=utf-8 import request ...
爬虫-requests用法
中文文档 API: http://requests.kennethreitz.org/zh_CN/latest/ 安装 pip install requests 获取网页 # coding=utf-8 ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...
洗礼灵魂，修炼python（71）--爬虫篇—【转载】xpath/lxml模块，爬虫精髓讲解
Xpath,lxml模块用法转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的原帖链接:传送门以下为转载内容: --------------------- ...

随机推荐

LoadRunner名词解释
Transactions(用户事务分析):用户事务分析是站在用户角度进行的基础性能分析. 1.Transation Sunmmary(事务综述) 对事务进行综合分析是性能分析的第一步,通过分析测试时间 ...
GreenPlum 大数据平台--segment 失效问题恢复
1,问题检查 [gpadmin@greenplum01 conf]$ psql -c "select * from gp_segment_configuration where status ...
R语言学习基础一
笔者使用Rstudio编写R程序,本文主要总结在编写过程中遇到的一些实际问题与学习配套的的code上传到我的github,网址: https://github.com/LIU-HONGYANG/S ...
Kubernetes ingress 上传文件大小限制
1.文件太大 413:Request Entity Too Large 创建 ingress 时添加 annotations(注释) metadata: annotations: nginx.ingr ...
转《深入理解 Java 内存模型》读书笔记
转:https://mp.weixin.qq.com/s/2hA6u4hLEPWlTPdD-XB-bg 前提 <深入理解 Java 内存模型>程晓明著,该书在以前看过一遍,现在学的东西越多 ...
python调用MySQL数据库
在Python中访问mysql数据库中的数据需要三步骤: 1,建立连接 2,操作数据库 3,连接关闭
【BZOJ5104】Fib数列（BSGS，二次剩余）
[BZOJ5104]Fib数列(BSGS,二次剩余) 题面 BZOJ 题解首先求出斐波那契数列的通项: 令\(A=\frac{1+\sqrt 5}{2},B=\frac{1-\sqrt 5}{2}\ ...
Java 8——日期时间工具库（java.time）
一.前言在介绍Java SE 8中新的日期时间库前,先了解下Java 8之前的日期时间工具的诟病. 在Java SE 8前,日期时间工具库在java.util包中,包括: java.util.Dat ...
IC卡、ID卡、M1卡、射频卡的区别是什么（射频卡是种通信技术）
IC卡.ID卡.M1卡.射频卡都是我们常见的一种智能卡,但是很多的顾客还是不清楚IC卡.ID卡.M1卡.射频卡的区别是什么,下面我们一起来看看吧. 所谓的IC卡就是集成电路卡,是继磁卡之后出现的又一种 ...
记录一次OracleJDK开发的项目发部到Linux中使用OpenJDK启动后失败的错误的解决方案
一.现象基于JAVA SpringBoot2.0.4的项目,发部后项目发部后,放到OpenJDK环境中运行时,提示下列错误: 2019-10-22 10:03:55 [main] WARN o.s ...

爬虫-lxml用法

爬虫-lxml用法的更多相关文章

随机推荐

热门专题