scrapy_xpath
什么是xpath?
- 路径表达式 在xml和html中进行导航
- 包含标准函数库
- 遵循w3c标准
xpth节点关系是什么?
- 父节点
- 子节点
- 兄弟节点
- 先辈节点
- 后代节点
xpth语法
- a 找所有a标签
- / article 找根元素article标签
- article/a 找所有属于article子标签的a标签
- //div 找根层级 下 所有div标签
- article//div 找article标签 下 所有div标签
- //@class 去所有标签中class属性值,src,href,id等属性
- a/@href 取所有a标签中href属性
xpath-谓法
- /article/div[1] 找article 子标签 的第一个div标签
- /article/div[last()] 找article目录下倒数一个div标签
- /article/div[last()-1] 找article目录下倒数第二个div标签
- //div[@lang] 找所有拥有lang属性的div标签
- //div[@lang=’eng’] 找所有lang=’eng 的div标签
- /div/* div标签下所有子标签
- //* 提取所有元素
- //div[@*] 提取div中有属性的标签
- /div/a | /div/p 提取div下所有a和p标签
如何获取抓取节点的值?
/text() 获得文本值
a['href'] 获取一个a节点的href属性值
xpath返回的对象可以继续xpath进行筛选
.extract() 返回data对应的数组值列表
对有多个属性的标签如何抓取?
[contains(@属性,属性值) ]
scrapy_xpath的更多相关文章
随机推荐
- webapi 异步返回
两年前我遇到一个难题: https://q.cnblogs.com/q/78177 WebAPI中使用socket如果在server端回复了再返回值? 现在终于做出一种实现了: [HttpGet] ...
- JDK1.8中的线程池
上面这段代码一直在用,面试的时候也经常被问到,却从未深究过,不知道线程池到底是怎么回事,今天看看源代码,一探其究竟 线程池主要控制的状态是ctl,它是一个原子的整数,其包含两个概念字段: worker ...
- flask-日料网站搭建
引言:想使用python的flask框架搭建一个日料网站,主要包含web架构,静态页面,后台系统,交互. 本节知识:搭建web目录,目前正在copy网站. python环境:python2.7,fla ...
- 原生js选项卡
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Video Target Tracking Based on Online Learning—TLD单目标跟踪算法详解
视频目标跟踪问题分析 视频跟踪技术的主要目的是从复杂多变的的背景环境中准确提取相关的目标特征,准确地识别出跟踪目标,并且对目标的位置和姿态等信息精确地定位,为后续目标物体行为分析提供足 ...
- mxnet框架样本,使用C++接口
哇塞,好久么有跟进mxnet啦,python改版了好多好多啊,突然发现C++用起来才是最爽的. 贴一个mxnet中的C++Example中的mlp网络和实现,感觉和python对接毫无违和感.真是一级 ...
- UVA 10382 - Watering Grass【贪心+区间覆盖问题+高精度】
UVa 10382 - Watering Grass n sprinklers are installed in a horizontal strip of grass l meters long a ...
- Codeforces Round #416 (Div. 2)(A,思维题,暴力,B,思维题,暴力)
A. Vladik and Courtesy time limit per test:2 seconds memory limit per test:256 megabytes input:stand ...
- Codeforces Round #415(Div. 2)-810A.。。。 810B.。。。 810C.。。。不会
CodeForces - 810A A. Straight «A» time limit per test 1 second memory limit per test 256 megabytes i ...
- Codeforces780C
题解:n个气球 从1到n染色,如果a.b和c是不同的正方形,a和b在它们之间有一条直接的路径,b和c之间有一条直接的路径,然后在这三个方块上的气球颜色是不同的. AC代码 #include <s ...