python 爬虫： srcrapy框架xpath和css选择器语法

Xpath基本语法

一、常用的路径表达式：

表达式	描述	实例
nodename	选取nodename节点的所有子节点	//div
/	从根节点选取	/div
//	选取所有的节点，不考虑他们的位置	//div
.	选取当前节点	./div
..	选取当前节点的父节点	..
@	选取属性	//@class

举例元素标签为artical标签

语法	说明
artical	选取所有artical元素的子节点
/artical	选取根元素artical
./artical	选取当前元素下的artical
../artical	选取父元素下的artical
artical/a	选取所有属于artical的子元素a元素
//div	选取所有div 子元素，无论div在任何地方
artical//div	选取所有属于artical的div 元素,无论div元素在artical的任何位置
//@class	选取所有名为class 的属性的
a/@href	选取a标签的href属性
a/text()	选取a标签下的文本
string(.)	解析出当前节点下所有文字
string(..)	解析出父节点下所有文字

二、谓语

谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点

语法	说明
/artical/div[1]	选取所有属于artical 子元素的第一个div元素
/artical/div[last()]	选取所有属于artical子元素的最后一个div元素
/artical/div[last()-1]	选取所有属于artical子元素的倒数第2个div元素
/artical/div[position()<3]	选取所有属于artical子元素的前2个div元素
//div[@class]	选取所有拥有属性为class的div节点
//div[@class="main"]	选取所有div下class属性为main的div节点
//div[price>3.5]	选取所有div下元素值price大于3.5的节点

三、通配符

Xpath通过通配符来选取未知的XML元素

表达式| 结果//* |选取所有元素//div/* |选取所有属于div元素的所有子节点//div[@*] |选取所有带属性的元素

四、取多个路径

使用“|”运算符可以选取多个路径

表达式	结果
//div \| //table	选取文档中所有的div和table节点
//div/a \| //div/p	选取所有div元素的a和p 元素
artical/div/pl \| //span	选取所有div下的pl和文档中所有span

五、Xpath轴

轴可以定义相对于当前节点的节点集

轴名称	表达式	描述
ancestor	./ancestor::*	选取当前节点的所有先辈节点（父、祖父）
ancestor-or-self	./ancestor-or-self::*	选取当前节点的所有先辈节点以及节点本身
descendant	./descendant::*	返回当前节点的所有后代节点（子节点、孙节点）
child	./child::*	返回当前节点的所有子节点
parent	./parent::*	选取当前节点的父节点
following	./following::*	选取文档中当前节点结束标签后的所有节点
following-sibling	./following-sibling::*	选取当前节点之后的兄弟节点
preceding	./preceding::*	选取文档中当前节点开始标签前的所有节点
preceding-sibling	./preceding-sibling::*	选取当前节点之前的兄弟节点
self	./self::*	选取当前节点
attribute	./attribute::*	选取当前节点的所有属性

六、功能函数

使用功能函数能够更好的进行模糊搜索

函数	用法	解释
starts-with	//div[starts-with(@id,"ma")]	选取id值以ma开头的div节点
contains	//div[contains(@id,"ma")]	选取所有id值包含ma的div节点
and	//div[contains(@id,"ma") and contains(@id,"in")]	选取id值包含ma和in的div节点
text()	//div[contains(text(),"ma")]	选取节点文本包含ma的div节点

CSS选择器语法

语法	说明
*	选择所有节点
#container	选择id为container的节点
.container	选择所有class包含container的节点
div,p	选择所有 div 元素和所有 p 元素
li a	选取所有li 下所有a节点
ul + p	选取ul后面的第一个p元素
div#container > ul	选取id为container的div的第一个ul子元素
ul ~p	选取与ul相邻的所有p元素
a[title]	选取所有有title属性的a元素
a[href="http://baidu.com"]	选取所有href属性为http://baidu.com的a元素
a[href*="baidu"]	选取所有href属性值中包含baidu的a元素
a[href^="http"]	选取所有href属性值中以http开头的a元素
a[href$=".jpg"]	选取所有href属性值中以.jpg结尾的a元素
input[type=radio]:checked	选择选中的radio的元素
div:not(#container)	选取所有id为非container 的div属性
li:nth-child(3)	选取第三个li元素
li:nth-child(2n)	选取第偶数个li元素
a::attr(href)	选取a标签的href属性
a::text	选取a标签下的文本

scrapy选择器归纳的更多相关文章

JQuery总结：选择器归纳、DOM遍历和事件处理、DOM完全操作和动画（转）
JQuery总结:选择器归纳.DOM遍历和事件处理.DOM完全操作和动画转至元数据结尾我们后台可能用到的页面一般都是用jquery取值赋值的,发现一片不错的文章目录 JQuery总结一:选择器归 ...
scrapy选择器主要用法
# 命令行输入:scrapy shell +链接,会自动请求url,得到的相应默认为response,开启命令行交互模式 scrapy shell http://doc.scrapy.org/en/l ...
CSS层叠样式选择器归纳
常用选择器 1.1 类型选择器:用来寻找特定类型的元素标签 { 声明 } p { color:black; } h1 { font-weight:bold; } 1.2 后代选择器: 选择一个元 ...
Scrapy选择器的用法
1.构造选择器: >>> response = HtmlResponse(url='http://example.com', body=body) >>> Sele ...
使用scrapy选择器selector解析获取百度结果
0x00 概述需要成功安装scrapy,安装方法与本文无关,不在这多说. 0x01 配置settings 由于百度对于user-agent进行验证,所以需要添加. settings.py中找到DEF ...
scrapy 选择器
1.lxml(转自简书) from lxml import etree2 import requests3 45 url = " "6 html = requests.get(ur ...
Scrapy学习篇（六）之Selector选择器
当我们取得了网页的response之后,最关键的就是如何从繁杂的网页中把我们需要的数据提取出来,python从网页中提取数据的包很多,常用的有下面的几个: BeautifulSoup它基于HTML代码 ...
scrapy框架之Selectors选择器
Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据.有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HT ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

.NET Windows API库（Cjwdev.WindowsApi）版本2.2发布
https://blog.cjwdev.co.uk/2011/06/12/net-windows-api-library-cjwdev-windowsapi-vesion-2-2-released/# ...
SQLServer 2014 本地机房HA+灾备机房DR解决方案
SQLServer 2014 主数据中心HA+灾备机房DR解决方案 SQLServer 2008 的时候使用 local WSFC+DR Mirror方式,对象是单数据库两个单独的 WSFC 上使用 ...
Confluence 6 那些文件需要备份
备份整个 home 目录是最安全的选项.但是,有很多目录是在 Confluence 启动的时候创建的并且也是可以忽略的.不管那些文件夹可以忽略,下面的文件夹必须进行备份才能回复: <conf-h ...
洛谷 P3627 [APIO2009]抢掠计划
这题一看就是缩点,但是缩完点怎么办呢?首先我们把所有的包含酒吧的缩点找出来,打上标记,然后建立一张新图, 每个缩点上的点权就是他所包含的所有点的点权和.但是建图的时候要注意,每一对缩点之间可能有多条边 ...
分布式Dubbo快速入门
目录 Dubbo入门背景 zookeeper安装发布Dubbo服务 Dubbo Admin管理消费Dubbo服务抽取与依赖版本管理 Dubbo入门 Editor:SimpleWu Dubbo是 ...
Let the Balloon Rise <map>的应用
Contest time again! How excited it is to see balloons floating around. But to tell you a secret, the ...
python基础之迭代器与生成器
一.什么是迭代器: 迭代是Python最强大的功能之一,是访问集合元素的一种方式. 迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束. 迭代器是一个可以记住遍历的位置的对象. 迭代器的 ...
php 统计某个目录中所有文件的大小
/** * @Purpose : 利用递归的方式统计目录的大小 * @Author : chrdai * @Method Name : dirSize() * @parameter : string ...
Win#password;;processon #clone;;disassemble;;source find
1.密码学思维导图源地址:https://www.processon.com/view/5a61d825e4b0c090524f5b8b 在这之前给大家分享如何在 processon上搜索公开克隆 ...
cf自训6
cf946D 背包+区间dp 好题 /* 先预处理出每行消去i个1后可以的到的最小时间: 先求每行的前缀和,枚举左端点和右端点,消去的1 cost=tot-sum[r]+sum[l-1],区间长度=r ...

scrapy选择器归纳

python 爬虫： srcrapy框架xpath和css选择器语法

Xpath基本语法

CSS选择器语法

scrapy选择器归纳的更多相关文章

随机推荐

热门专题