使用 lxml 中的 xpath 高效提取文本与标签属性值

以下代码在 python 3.5 + jupyter notebook 中运行测试无误！

# 我们爬取网页的目的，无非是先定位到DOM树的节点，然后取其文本或属性值

myPage = '''<html>

        <title>TITLE</title>

        <body>

        <h1>我的博客</h1>

        <div>我的文章</div>

        <div id="photos">

         <img src="pic1.jpeg"/><span id="pic1">PIC1 is beautiful!</span>

         <img src="pic2.jpeg"/><span id="pic2">PIC2 is beautiful!</span>

         <p><a href="http://www.example.com/more_pic.html">更多美图</a></p>

         <a href="http://www.baidu.com">去往百度</a>

         <a href="http://www.163.com">去往网易</a>

         <a href="http://www.sohu.com">去往搜狐</a>

        </div>

        <p class="myclassname">Hello,\nworld!<br/>-- by Adam</p>

        <div class="foot">放在尾部的其他一些说明</div>

        </body>

        </html>'''

html = etree.fromstring(myPage)

# 一、定位

divs1 = html.xpath('//div')

divs2 = html.xpath('//div[@id]')

divs3 = html.xpath('//div[@class="foot"]')

divs4 = html.xpath('//div[@*]')

divs5 = html.xpath('//div[1]')

divs6 = html.xpath('//div[last()-1]')

divs7 = html.xpath('//div[position()<3]')

divs8 = html.xpath('//div|//h1')

divs9 = html.xpath('//div[not(@*)]')

# 二、取文本 text() 区别 html.xpath('string()')

text1 = html.xpath('//div/text()')

text2 = html.xpath('//div[@id]/text()')

text3 = html.xpath('//div[@class="foot"]/text()')

text4 = html.xpath('//div[@*]/text()')

text5 = html.xpath('//div[1]/text()')

text6 = html.xpath('//div[last()-1]/text()')

text7 = html.xpath('//div[position()<3]/text()')

text8 = html.xpath('//div/text()|//h1/text()')

# 三、取属性 @

value1 = html.xpath('//a/@href')

value2 = html.xpath('//img/@src')

value3 = html.xpath('//div[2]/span/@id')

# 四、定位（进阶）

# 1.文档(DOM)元素(Element)的find，findall方法

divs = html.xpath('//div[position()<3]')

for div in divs:

    ass = div.findall('a')  # 这里只能找到:div->a, 找不到:div->p->a

    for a in ass:

        if a is not None:

            #print(dir(a))

            print(a.text, a.attrib.get('href')) #文档(DOM)元素(Element)的属性：text, attrib

# 2.与1等价

a_href = html.xpath('//div[position()<3]/a/@href')

print(a_href)

# 3.注意与1、2的区别

a_href = html.xpath('//div[position()<3]//a/@href')

print(a_href)

使用 lxml 中的 xpath 高效提取文本与标签属性值的更多相关文章

python在lxml中使用XPath语法进行#数据解析
在lxml中使用XPath语法: 获取所有li标签: from lxml import etree html = etree.parse('hello.html') print type(html) ...
CSS中隐藏内容的3种方法及属性值
CSS中隐藏内容的3种方法及属性值 (2011-02-11 13:33:59) 在制作网页时,隐藏内容也是一种比较常用的手法,它的作用一般有:隐藏文本/图片.隐藏链接.隐藏超出范围的内容.隐藏弹出 ...
eclipse 中main()函数中的String[] args如何使用？通过String[] args验证账号密码的登录类？静态的主方法怎样才能调用非static的方法——通过生成对象？在类中制作一个方法——能够修改对象的属性值？
eclipse 中main()函数中的String[] args如何使用? 右击你的项目,选择run as中选择 run configuration,选择arguments总的program argu ...
class属性中为什会添加非样式的属性值？
来由在一些插件中经常看到, 在class属性中出现一些跟样式无关的属性值, 这些值在css样式中没有对应定义, 但是在js中会根据这个值来给dom对象添加特殊的行为, 例如: jquery vali ...
python中使用XPath
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
python中使用XPath笔记
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
在Java中使用xpath对xml解析
xpath是一门在xml文档中查找信息的语言.xpath用于在XML文档中通过元素和属性进行导航.它的返回值可能是节点,节点集合,文本,以及节点和文本的混合等.在学习本文档之前应该对XML的节点,元素 ...
PHP如何提取img标签属性
extract_attrib是一个提取的图像标签属性的PHP脚本函数,使用正则表达式方法提取. 当你想在HTML的img标签中提取图像数据,这非常有用. 如果你知道如何修改正则表达式,那么同样的功能进 ...
如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...

随机推荐

ActionContext和ServletActionContext小结（转）
ActionContext和ServletActionContext小结 1. ActionContext 在Struts2开发中,除了将请求参数自动设置到Action的字段中,我们往往也需要在Act ...
Linux 加载卷组
root 用户下执行: vgchange -ay vgdatamount /u01 vgdisplay 查看卷组
Eclipse 控制台视图和服务器视图中停止Web服务器的差别
Eclipse 控制台视图和服务器视图中停止Web服务器的差别 (1)console视图里面, "红色方形图标" 是terminate, 也会关闭web服务器!!!!!!!!这个, ...
产生渐变色的view
产生渐变色的view 效果源码 https://github.com/YouXianMing/UI-Component-Collection // // GradientColorView.h // ...
cxfreeze打包python程序的方法说明（生成安装包，实现桌面快捷方式、删除快捷方式）
一.cxfreeze基础 1.cxfreeze功能 python代码文件转exe方法有三种,分别是cx_freeze,py2exe,PyInstaller,这三种方式各有千秋,本人只用过py2exe和 ...
Linux 系统的/usr目录
/usr不是user的缩写,其实usr是Unix Software Resource的缩写, 也就是Unix操作系统软件资源所放置的目录,而不是用户的数据:所有系统默认的软件都会放置到/usr, 系统 ...
C盘下出现msdia80.dll文件
删除方法 https://jingyan.baidu.com/article/63acb44acef55661fdc17e56.html 或者 https://www.cnblogs.com/ggll ...
layer的alert图
layer.alert("xxx",1); 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 及以后
ubuntu 12.04配置mac的Lion主题的风格
1.下载mac壁纸 http://drive.noobslab.com/data/wallpapers/Mac-os-x-Wallpapers%28NoobsLab.com%29.zip 根据自己喜好 ...
BZOJ4259:残缺的字符串(FFT)
Description 很久很久以前,在你刚刚学习字符串匹配的时候,有两个仅包含小写字母的字符串A和B,其中A串长度为m,B串长度为n.可当你现在再次碰到这两个串时,这两个串已经老化了,每个串都有不同 ...

使用 lxml 中的 xpath 高效提取文本与标签属性值

使用 lxml 中的 xpath 高效提取文本与标签属性值的更多相关文章

随机推荐

热门专题