lxml etree xpath

from lxml import etree

#####################
基本用法：

#####################

html = '''

<h1 class="header">登录</h1>

<form action="/login" method="post">

    <label for="username">用户: </label><input type="text" name="username" />

    <label for="password">密码：</label><input type="password" name="password" />

    <input type="submit" value="Submit" />

</form>'''

# 生成DOM

dom = etree.HTML(html)

# 取内容 /text()

contents = dom.xpath('//h1[@class="header"]/text()')

print(contents)

# 取属性 /@attrib

attribs = dom.xpath('//form/label[@for="username"]/@for')

print(attribs)

#####################
复杂用法：

#####################

html2 = ''' 
<div class="content"> 
    ==> 有相同字符开头的属性的标签: 
    <p id="test-1">需要的内容1</p> 
    <p id="test-2">需要的内容2</p> 
    <p id="test-default">需要的内容3</p> 
</div> 
<div class="question">
    ==> 签嵌套标签: 
    <p id="class3">美女，
　　　　　　<font color="red">你的微信号是多少？</font> 
    </p> 
</div> '''

 dom = etree.HTML(html2) 

# 取有相同字符开头的属性的标签的内容 starts-with(@attrib, "abcd") 
contents2 = dom.xpath('//p[starts-with(@id, "test")]/text()') 
print(contents2) 

# 取标签嵌套标签的所有内容 xpath('string(.)') 
contents3 = dom.xpath('//div[@class="question"]/p')[0].xpath('string(.)') 
contents3 = contents3.replace('\n', '').replace(' ', '') 
print(contents3)

lxml etree xpath的更多相关文章

爬虫之lxml - etree - xpath的使用
# 解析原理: # - 获取页面源码数据 # - 实例化一个etree对象,并且将页面源码数据加载到该对象中 # - 调用该对象的xpath方法进行指定标签定位 # - xpath函数必须结合着xpa ...
lxml etree的一个问题
<div> <a href="xxxx">123</a> <a href="xxxx">45</a> ...
【译】：lxml.etree官方文档
本文翻译自:http://lxml.de/tutorial.html, 作者:Stefan Behnel 这是一个关于使用lxml.etree进行XML处理的教程.它简要介绍了ElementTree ...
如何使用lxml的XPath功能
用python写爬虫呢,最常见的过滤方式有BeautifulSoup, css selector, XPath, 如果使用前两个,BeautifulSoup包就能解决,然而使用XPath,就要引入lx ...
lxml.etree.HTML(text) 解析HTML文档
0.参考 http://lxml.de/tutorial.html#the-xml-function There is also a corresponding function HTML() for ...
python3.7 lxml4.2.5 etree xpath 的使用
#2019年10月14日11:08:49 from lxml import html etree = html.etree html = etree.HTML(response_dl.content) ...
lxml的XPath解析
BeautifulSoup 可以将lxml作为默认的解析器使用,同样lxml可以单独使用.下面比较这两者之间优缺点: BeautifulSoup和lxml原理不一样,BeautifulSoup是基于D ...
lxml.etree去除子节点
去除etree中的某个子节点有两种方法: 1.parentnode.remove(node) 2.etree.strip_elements(html, 'element_name', with_tag ...
lxml etree对存在的xml添加新节点，新节点没有排版格式化
新添加的时候如果不做处理,是这个样子要在解析xml加上 parser = etree.XMLParser(remove_blank_text=True)xml = etree.parse(major ...

随机推荐

AIX常用命令学习（一）
1.prtconf命令查看AIX主机的结构特征状态语法: prtconf [ -c ] [ -k ] [ -L ] [ -m ] [ -s ] [ -v ] Flags: -c Displays ...
JBoss服务器优化
JBOSS参数调优配置deploy/jboss-web.deployer/server.xml文件 . <Connector port="8080" address=&qu ...
ASP.NET MVC实现通用设置
网站中的设置实现方式有好几种,其中有将设置类序列化然后保存到文件中(例如使用XML序列化然后以XML形式保存在文件中),或者将设置信息保存到数据库中. 保存到数据库中的方式就是将设置的项作为key,设 ...
安装 jemalloc for mysql
参考: MySQL bug:https://bugs.mysql.com/bug.php?id=83047&tdsourcetag=s_pcqq_aiomsg https://github.c ...
17 汽车服务工程李腾飞 Excel 课程表
Crond定时任务
crond简介 crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond ...
【笔记】JS脚本为什么要放在body最后面以及async和defer的异同点
1.没有defer或async 浏览器遇到脚本的时候会暂停渲染并立即加载执行脚本(外部脚本),"立即"指的是在渲染该 script 标签之下的文档元素之前,也就是说不等待后续载入的 ...
EclEmma安装与使用
安装 EclEmma 插件的过程和大部分 Eclipse 插件相同,我们既可以通过 Eclipse 标准的 Update 机制来远程安装 EclEmma 插件(图 1),也可以从站点(参阅参考资源)下 ...
JAVA 泛型通配符 ? EXTENDS SUPER 的用法
1. <? extends Hero> ArrayList heroList<? extends Hero> 表示这是一个Hero泛型或者其子类泛型heroList 的泛型可能 ...
BZOJ1022:[SHOI2008]小约翰的游戏John(博弈论)
Description 小约翰经常和他的哥哥玩一个非常有趣的游戏:桌子上有n堆石子,小约翰和他的哥哥轮流取石子,每个人取的时候,可以随意选择一堆石子,在这堆石子中取走任意多的石子,但不能一粒石子也不取 ...

lxml etree xpath

lxml etree xpath的更多相关文章

随机推荐

热门专题