python应用:爬虫框架Scrapy系统学习第一篇——xpath详解
HTML的三大概念:标签、元素以及属性
标签:尖括号中的文本 例:<head>……</head> 标签通常成对出现
元素:标签中的所有内容 元素中可包含元素
属性:标签的特殊标注等 例:<a href="http:\\www.baidu.com">……</a> 其中,href部分称为属性
使用XPath选择HTML元素
使用‘/’+标签名定位
例: /html/body 将定位到body部分
当某便签下出现多个同标签元素时,使用类似数组的方式定位到最准确的位置
切记:此处下标从1开始,而不是编程中常见的从0开始
例:/html/body/div/p[1] 返回相应位置的第一个p元素
/html/body/div/p 返回相应位置的所有p元素
对于大型文档,精确定位往往需要一个非常大的XPath表达式,为避免这种问题,我们可以使用‘//’语法
例://p 将会选择HTML中所有的p元素
//a 将会选择HTML中所有的链接
同时,//语法可用于层次结构中
例://div//a 得到div元素下所有链接
//div/a 得到div元素直接下级的所有链接
注意:元素下与元素直接下级的区别
此外,可通过符号@来直接定位标签属性
例://a/@href 得到所有链接中的href属性
使用text()函数,只选取文本
例://a/text() 得到所有链接中的文本信息
使用符号*选择指定层级的所有元素
//*[@itemprop="name"] 得到包含itemprop="name"的所有元素
选择包含某个特定属性或特定属性值的标签时使用如下结构
例://a[@href] 得到包含href属性的所有链接
//a[@href="http://www.baidu.com"] 得到href值为“http://www.baidu.com”的所有链接
此外,还可以使用以特定子字符起始或包含的能力
例://a[starts-with(@href, "http://")] 得到href属性以http://为起始的所有链接
//a[contains(@href, "baidu")] 得到href属性包含baidu的所有链接
//a[not (contains(@href, "baidu"))] 得到所有href属性不包含baidu的链接
更多类似函数,参照http://www.w3schools.com/xsl/xsl_functions.asp
在使用XPath时,应尽量
避免使用数组索引;
避免使用与数据关系不密切的类名;
使用面向数据的类名;
ID通常都比较可靠(例外情况:以编程方式生成的包含唯一标记的ID 如“order-F5568”;此外,还需注意部分HTML中ID不唯一的情况)
python应用:爬虫框架Scrapy系统学习第一篇——xpath详解的更多相关文章
- python应用:爬虫框架Scrapy系统学习第二篇——windows下安装scrapy
windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visu ...
- python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
- python应用:爬虫框架Scrapy系统学习第三篇——初识scrapy
scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行: ...
- 《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料 百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
- 学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳
学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 JERRY_Z. ~ 2020 / 9 / 25 转载请注明出处!️ 目录 学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 ...
- python 网络爬虫框架scrapy使用说明
1 创建项目scrapy startproject tutorial 2 定义Itemimport scrapyclass DmozItem(scrapy.Item): title = scra ...
- python网络爬虫(7)爬取静态数据详解
目的 爬取http://seputu.com/数据并存储csv文件 导入库 lxml用于解析解析网页HTML等源码,提取数据.一些参考:https://www.cnblogs.com/zhangxin ...
- 系统学习前端之FormData详解
FormData 1. 概述 FormData类型其实是在XMLHttpRequest 2级定义的,它是为序列化表以及创建与表单格式相同的数据(当然是用于XHR传输)提供便利. 2. 构造函数 创建一 ...
- Flask第一篇——URL详解
原创 2018-02-14 孟船长 自动化测试实战 URL是Uniform Resource Locator的缩写,即统一资源定位符. 一个URL通常由一下几个部分组成: scheme://host: ...
随机推荐
- 微软操作系统 Windows Server 2012 R2 官方原版镜像
微软操作系统 Windows Server 2012 R2 官方原版镜像 Windows Server 2012 R2 是由微软公司(Microsoft)设计开发的新一代的服务器专属操作系统,其核心版 ...
- Java日志系统
前言 各组件之间的关系: slf4j是The Simple Logging Facade for Java的简称,是一个简单日志门面抽象框架,它本身只提供了日志Facade API和一个简单的日志类实 ...
- 玩转Metasploit系列(第一集)
"如果我有七个小时的时间来砍树,那么我一定会花6个小时来磨我的斧头." –Abraham Lincoln ??这句话一直引导着我做事的思路,而且从未改变过.这篇文章翻译自Offen ...
- codeforces 814 C. An impassioned circulation of affection 【尺取法 or DP】
//yy:因为这题多组数据,DP预处理存储状态比每次尺取快多了,但是我更喜欢这个尺取的思想. 题目链接:codeforces 814 C. An impassioned circulation of ...
- Unity3D十款最火的的插件推荐
作为当前最主流的3D游戏引擎之中的一个.Unity拥有大量第三方插件和工具帮助开发人员提升工作效率. 我们摘选了十款最受欢迎的工具推荐给大家.类别包括2D开发.UI设计.原型制作.着色.特效等,涉及了 ...
- luogu P3950 部落冲突
嘟嘟嘟 树剖板子题. #include<cstdio> #include<iostream> #include<algorithm> #include<cma ...
- 转:git 的常用命令
转自:阮一峰 常用git命令清单 一般来说,日常使用只要记住下图6个命令,就可以了.但是熟练使用,恐怕要记住60-100个命令. 下面是我整理的常用 Git 命令清单.几个专用名词的译名如下. Wor ...
- 10.spring:常用的数据库代码.....(不长使用了解即可)
测试代码: ApplicationContext ctx = new ClassPathXmlApplicationContext("JDBC.xml"); DataSource ...
- torch.backend.cudnn.benchmark
大部分情况下,设置这个 flag 可以让内置的 cuDNN 的 auto-tuner 自动寻找最适合当前配置的高效算法,来达到优化运行效率的问题. 一般来讲,应该遵循以下准则: 如果网络的输入数据维度 ...
- 【luogu P2279 [HNOI2003]消防局的设立】 题解
题目链接:https://www.luogu.org/problemnew/show/P2279 想怎么贪怎么贪 #include <queue> #include <cstdio& ...