爬虫学习之-xpath

1、XPATH使用方法

使用XPATH有如下几种方法定位元素（相比CSS选择器，方法稍微多一点）：

a、通过绝对路径定位元素（不推荐！）

WebElement ele = driver.findElement(By.xpath("html/body/div/form/input"));

b、通过相对路径定位元素

WebElement ele = driver.findElement(By.xpath("//input"));

c、使用索引定位元素

WebElement ele = driver.findElement(By.xpath("//input[4]"));

d、使用XPATH及属性值定位元素

WebElement ele = driver.findElement(By.xpath("//input[@id='fuck']"));

//其他方法(看字面意思应该能理解吧)

WebElement ele = driver.findElement(By.xpath("//input[@type='submit'][@name='fuck']"));

WebElement ele = driver.findElement(By.xpath("//input[@type='submit' and @name='fuck']"));

WebElement ele = driver.findElement(By.xpath("//input[@type='submit' or @name='fuck']"));

e、使用XPATH及属性名称定位元素
   元素属性类型：@id 、@name、@type、@class、@tittle

//查找所有input标签中含有type属性的元素

WebElement ele = driver.findElement(By.xpath("//input[@type]"));

f、部分属性值匹配

WebElement ele = driver.findElement(By.xpath("//input[start-with(@id,'fuck')]"));//匹配id以fuck开头的元素，id='fuckyou'

WebElement ele = driver.findElement(By.xpath("//input[ends-with(@id,'fuck')]"));//匹配id以fuck结尾的元素，id='youfuck'

WebElement ele = driver.findElement(By.xpath("//input[contains(@id,'fuck')]"));//匹配id中含有fuck的元素，id='youfuckyou'

g、使用任意值来匹配属性及元素

WebElement ele = driver.findElement(By.xpath("//input[@*='fuck']"));//匹配所有input元素中含有属性的值为fuck的元素

元素定位总结

//注：本专题只介绍java版

//By id

WebElement ele = driver.findElement(By.id());

//By Name

WebElement ele = driver.findElement(By.id());

//By className

WebElement ele = driver.findElement(By.className());

//By tabName

WebElement ele = driver.findElement(By.tagName());

//By linkText

WebElement ele = driver.findElement(By.linkText());

//By partialLinkText

WebElement ele = driver.findElement(By.partialLinkText());//通过部分文本定位连接

//By cssSelector

WebElement ele = driver.findElement(By.cssSelector());

//By XPATH

WebElement ele = driver.findElement(By.xpath());

=================================栗子=====================================

1、id 获取id 的属性值

2、starts-with 顾名思义，匹配一个属性开始位置的关键字 -- 模糊定位

3、contains 匹配一个属性值中包含的字符串 -- 模糊定位

4、text() 函数文本定位

5、last() 函数位置定位

<input id="su" class="bg s_btn btnhover" value="百度一下" type="submit"/>

//*[@id='su']      获取id 的属性为'su' 的值
或
//input[contains(@class,'bg s_btn')]

<a class="lb" href="https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F" name="tj_login" onclick="return false;">登录</a>

//a[starts-with(@name,'tj_lo')]     属性模糊定位
//a[contains(@name,'tj_lo')]     属性模糊定位

<a href="http://www.baidu.com">百度搜索</a>

//a[text()='百度搜索']

或

//a[contains(text(),"搜索")]    --文本模糊定位

<a id="setf" href="//www.baidu.com/cache/sethelp/help.html" onmousedown="return ns_c({'fm':'behs','tab':'favorites','pos':0})" target="_blank">把百度设为主页</a>

//a[text()='把百度设为主页']

/A/B/C[last()]   表示A元素→B元素→C元素的最后一个子元素，得到id值为e2的E元素

爬虫学习之-xpath的更多相关文章

python爬虫学习之XPath基本语法
XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径(path)或者步(steps)来选取的. XML实例文档我们将在下面的例子中使用这个XML文档. <?xml ...
爬虫学习之基于Scrapy的爬虫自动登录
###概述在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...
爬虫学习之基于Scrapy的网络爬虫
###概述在上一篇文章<爬虫学习之一个简单的网络爬虫>中我们对爬虫的概念有了一个初步的认识,并且通过Python的一些第三方库很方便的提取了我们想要的内容,但是通常面对工作当作复杂的需求 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
爬虫之BS&Xpath
BeautifulSoup 一简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
爬虫——BeautifulSoup和Xpath
爬虫我们大概可以分为三部分:爬取——>解析——>存储一 Beautiful Soup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功 ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
python爬虫学习05-爬取图片
python爬虫学习05-爬取图片确定要爬取的网址:https://shenan.tuchong.com/20903415/#image309854686 要爬取的内容:使用浏览器插件xpath对图 ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

基于STM32F103ZET6 HC_SR501人体红外感应
这是最后的实验现象,有人走过会一直输出有人,离开范围时则输出没人开发板 PZ6086L ,HC_SR501模块这是HC_SR501的示意图,,VCC和GND不再多做介绍,5V供电就行, OUT接口 ...
xshell sftp可用命令,sftp: cannot open d: to write![解决]
sftp可用命令: cd 路径更改远程目录到“路径” lcd 路径更改本地目录到“路径” chgrp group path 将文件“path”的组更改为“group” chmod mode pat ...
【Loj10222】佳佳的Fibonacci
题面题解可以发现\(T(n)\)无法用递推式表示. 于是我们做如下变形: \[ T(n) = \sum _ {i = 1} ^ n i \times f_i \\ S(n) = \sum _ {i ...
【LG5022】[NOIP2018]旅行
[LG5022][NOIP2018]旅行题面洛谷题解首先考虑一棵树的部分分怎么打直接从根节点开始\(dfs\),依次选择编号最小的儿子即可而此题是一个基环树怎么办呢? 可以断掉环上的一条 ...
python爬虫-爬取盗墓笔记
本来今天要继续更新 scrapy爬取美女图片系列文章,可是发现使用免费的代理ip都非常不稳定,有时候连接上,有时候连接不上,所以我想找到稳定的代理ip,下次再更新 scrapy爬取美女图片之应对反 ...
180730-Spring之RequestBody的使用姿势小结
Spring之RequestBody的使用姿势小结 SpringMVC中处理请求参数有好几种不同的方式,如我们常见的下面几种根据 HttpServletRequest 对象获取根据 @PathVa ...
Java EE JSP内置对象及表达式语言
一.JSP内置对象 JSP根据Servlet API规范提供了一些内置对象,开发者不用事先声明就可使用标准变量来访问这些对象. JSP提供了9种内置对象: (一).request 简述: JSP编程中 ...
【第二章】MySQL数据库基于Centos7.3-部署
一.MySQL数据库的官方网址: https://www.mysql.com/ https://www.oracle.com/ http://dev.mysql.com/doc/refman/5.7/ ...
leetcode个人题解——#56 Merge Intervals
思路,先按照结构体中start进行排序,然后遍历比较前后项是否有重合. 第一次用到三参数形式的sort(),第三个参数的bool函数要写到类外才通过. /** * Definition for an ...
市场营销的4c原则
市场营销的4c原则随着市场竞争日趋激烈,媒介传播速度越来越快,4Ps理论越来越受到挑战.到80年代,美国劳特朋针对4P存在的问题提出了4Cs营销理论: 4C分别指代Customer(顾客).Cost( ...

爬虫学习之-xpath

爬虫学习之-xpath的更多相关文章

随机推荐

热门专题