xpath教程 3 - xpath的小结

一、xpath提取内容

1、提取节点中最表层的文本

htmlobj.xpath("./text()")

在scrapy中用extract()[0]方法抽取文本。如：

temp['title'] = node.xpath('./text()').extract()[0].strip()
temp['title_url'] = node.xpath('./@href').extract()[0]

python中用到extract一般会是scrapy中获取meta内容。

2、提取节点中多嵌套的文本

htmlobj.xpath("string(.)").strip()

from lxml import etree

# 获取全部有意义正文文本

html_str="""<div>hah<a>六六六</a>cccc收拾收拾</div>"""

html_etree = etree.HTML(html_str)  # 获取element 类型的html

all_content = html_etree.xpath('string(.)').strip()

print(all_content)

遇到gbk编码问题解决方案：

print(all_content.encode('gbk', 'ignore').decode('gbk'))

原文：https://www.jb51.net/article/143722.htm

输出：

hah六六六cccc收拾收拾

3、提取节点中属性的值

htmlobj.xpath("./@href")

html_str = response.content.decode()

html_etree = etree.HTML(html_str) # 获取element 类型的html

all_content = html_etree.xpath("//div[@class='item item-btn']//input[@name='type']/@value")

print(all_content)

输出：

['PL', 'ML']

二、xpath谓语的其他使用

xpath定位中starts-with、contains和text()的用法

1、starts-with

顾名思义，匹配一个属性开始位置的关键字

//input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字的页面元素

2、contains

匹配一个属性值中包含的字符串

//input[contains(@name,'na')] 查找name属性中包含na关键字的页面元素

3、text（）

匹配的是显示文本信息，此处也可以用来做定位用

xpath写法为 //a[text()='百度搜索']

或者 //a[contains(text(),"百度搜索")]

参考：

http://blog.csdn.net/zhouxuan623/article/details/43935039

3、注意
如果有tbody标签，要省去tbody及之前的路径，写成相对路径

xpath教程 3 - xpath的小结的更多相关文章

xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
xpath教程 1 - 什么是XPath
xpath教程 1 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历. W3School官方 ...
雷林鹏分享：Ruby XML, XSLT 和 XPath 教程
Ruby XML, XSLT 和 XPath 教程什么是 XML ? XML 指可扩展标记语言(eXtensible Markup Language). 可扩展标记语言,标准通用标记语言的子集,一种 ...
xpath教程三---逐层检索和全局检索
本节主要介绍用xpath来描述html的层级关系主要使用到的知识点如下: 单独的一个点 .,表示当前位置两个点 ..,表示上一级父标签的位置单独的一个斜杠 /,表示只检索下面一级单独的两个斜杠 ...
xpath教程二 ---- 通过ID和Class检索
必备知识点在html中,id是唯一的在html中,class是可以多处引用的工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自己杜撰一个] requests ...
xpath教程一---简单的标签搜索
工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自己杜撰一个] requests[推荐安装,从网页上获取网页代码练手,再好不过了] 讲解网页代码都是成对的标签, ...
XPath教程
XPath 简介 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历. XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...
jsoup、xpath教程
一.jsoup 1.使用JSOUP处理HTML文档 2.使用 jsoup 对 HTML 文档进行解析和操作 3.jsoup开发指南,jsoup中文使用手册,jsoup中文文档二.xpath 1.XP ...
Spider-Python爬虫之XPath 教程
原文链接:https://www.runoob.com/xpath/xpath-syntax.html XPath 术语 XPath 节点七种类型:在 XPath 中,有七种类型的节点:元素.属性. ...

随机推荐

com.baidu.mapapi.CoordType
2.2.2升级到3.0.1百度报错了, 一:请检查.jar,.so是否是最新的二:clear
在taro中跳转页面的时候执行两遍componentDidMount周期的原因和解决方法
在做taro跳转的时候,发现在跳转后的页面会走两遍componentDidMount周期,查看了github上的issues,发现是跳转路由带参为中文引起的,只要把中文参数进行urlencode解决 ...
【Spring源码分析系列】bean的加载
前言以 BeanFactory bf = new XmlBeanFactory(new ClassPathResource("beans.xml"));为例查看bean的加载过 ...
Linux（Ubuntu）下如何解压 .tar.gz 文件
在终端输入以下命令即可解压: tar -zxvf YOUR_FILE_NAME.tar.gz 如果出现“权限不够”的错误提示,在命令前加上 sudo ,即 sudo tar -zxvf YOUR_FI ...
如何使用 Flexbox 和 CSS Grid，实现高效布局
CSS 浮动属性一直是网站上排列元素的主要方法之一,但是当实现复杂布局时,这种方法不总是那么理想.幸运的是,在现代网页设计时代,使用 Flexbox 和 CSS Grid 来对齐元素,变得相对容易起来 ...
ARC下带CF前缀的类型与OC类型转换
在对钥匙串操作时这个函数 OSStatus SecItemCopyMatching(CFDictionaryRef query, CFTypeRef * __nullable CF_RETURNS_R ...
LeetCode 77 Combinations(排列组合)
题目链接:https://leetcode.com/problems/combinations/#/description Problem:给两个正数分别为n和k,求出从1,2.......n这 ...
JUnit（>4.0）@BeforeClass、@Before、@Test、@After、@AfterClass、@Ignore
JUnit 4 开始使用 Java 5 中的注解(annotation),常用的几个 annotation 介绍: @BeforeClass:针对所有测试,只执行一次,且必须为static void ...
【CF878C】Tournament set+并查集+链表
[CF878C]Tournament 题意:有k个项目,n个运动员,第i个运动员的第j个项目的能力值为aij.一场比赛可以通过如下方式进行: 每次选出2个人和一个项目,该项目能力值高者获胜,败者被淘汰 ...
Xcode快速排错
EXTENDS:http://blog.csdn.net/guo_hongjun1611/article/details/8063009 1,模拟器运行完全没问题,真机运行失败. 有时候我们在模拟器上 ...

xpath教程 3 - xpath的小结

xpath教程 3 - xpath的小结的更多相关文章

随机推荐

热门专题