一、Selector选择器介绍

python从网页中提取数据常用以下两种方法:

  • lxml:基于ElementTree的XML解析库(也可以解析HTML),不是python的标准库
  • BeautifulSoup:基于HTML代码的解析库, 对不良标记的处理非常合理,速度上有所欠缺

在scrapy中可以使用上述两种方法进行网页解析,但是scrapy本身也提供了一套提取数据的机制,即selector选择器,它通过特定的xpath或者CSS表达式来选择网页中的某个部分,Scrapy选择器构建 lxml 库之上。

在scrapy中内置了一个选择器类Selector,可以自己构建Selector对象,然后通过对象的xpath方法或css方法进行选择。

  • from scrapy.selector import Selector
  • s = Selector(text = doc)   #创建Selector对象
>>> from scrapy.selector import Selector
>>> p = '<p>I am a para</p>'
>>> s = Selector(text = p)
>>> s
<Selector xpath=None data='<html><body><p>I am a para</p></body>...'>
>>> s.xpath('//p')
[<Selector xpath='//p' data='<p>I am a para</p>'>]
>>> s.css('p::text')
[<Selector xpath='descendant-or-self::p/text()' data='I am a para'>]

但是实际爬虫工作中并不需要自己创建Selector对象,因为scrapy的爬取结果response中内置了Selector对象,可通过response.selector.xpath()和response.selector.css()进行选择。同时response也内置了xpath()方法和css()方法,因此可直接通过response.xpath()和response.css()进行选择。

从上述示例可以看出,通过xpath和css返回的直接结果为选择器列表,每个选择器都包含使用该语法的格式,因此需要在选择后再使用extract()和extract_first()去掉格式提取实际的网页内容,extract_first()相当于[0].extract()或者extract()[0]。

>>> s.xpath('//p').extract()
['<p>I am a para</p>']
>>> s.css('p::text').extract()
['I am a para']
>>> s.css('p::text').extract_first()
'I am a para'

二、通过xpath选择

xpath四种基本用法

response.xpath("//标签[@属性='属性值']").extract()    #返回匹配到的元素节点,结果为列表
response.xpath('//标签/text()').extract()                       #返回匹配到的元素节点的文本,结果为列表
response.xpath('//标签/@属性').extract()                    #返回匹配到的元素节点的属性值,结果为列表
response.xpath('//标签').re('匹配规则')         #对返回的结果通过正则表达式进行提取

以scrapy shell https://docs.scrapy.org/en/latest/_static/selectors-sample1.html进入shell进行演示。

1.选择标签

In [8]: response.xpath("//title")
Out[8]: [<Selector xpath='//title' data='<title>Example website</title>'>] In [9]: response.xpath("//a[@href='image2.html']")
Out[9]: [<Selector xpath="//a[@href='image2.html']" data='<a href="image2.html">Name: My image ...'>] In [10]: response.xpath("//a[@href='image2.html']").extract()
Out[10]: ['<a href="image2.html">Name: My image 2 <br><img src="data:image2_thumb.jpg"></a>']

不论匹配的结果有几个,使用extract()得到的都是一个列表,而使用extract_first()会将匹配到的第一个元素提取出来。由于extract()得到的结果为列表,因此可在xpath后的结果通过[0]选择第一个元素再extract()提取,也可以在extract()提取后再通过[0]选择第一个元素。

In [11]: response.xpath("//a").extract_first()
Out[11]: '<a href="image1.html">Name: My image 1 <br><img src="data:image1_thumb.jpg"></a>'
In [12]: response.xpath("//a")[0].extract()
Out[12]: '<a href="image1.html">Name: My image 1 <br><img src="data:image1_thumb.jpg"></a>'
In [13]: response.xpath("//a").extract()[0]
Out[13]: '<a href="image1.html">Name: My image 1 <br><img src="data:image1_thumb.jpg"></a>'

extract()和extract_first()还可以使用参数default='***',表示结果为空时的返回值

In [20]: response.xpath("//titll").extract_first(default='None return')
Out[20]: 'None return'

2.选择标签的文本

In [23]: response.xpath("//title/text()").extract_first()
Out[23]: 'Example website'

3.选择标签的属性值

In [25]: response.xpath("//a[@href='image3.html']/img/@src").extract_first()
Out[25]: 'image3_thumb.jpg'

4.xpath选择后的正则匹配

In [92]: response.xpath('//a/text()').re('Name:(.*)')
Out[92]:
[' My image 1 ',
' My image 2 ',
' My image 3 ',
' My image 4 ',
' My image 5 ']

三、通过css选择

css四种基本用法

response.css("标签[属性='属性值']").extract() #返回匹配到的元素节点,结果为列表
response.css("标签::text").extract() #返回匹配到的元素节点的文本,结果为列表
response.css("标签::attr(属性)") .extract() #返回匹配到的元素节点的属性值,结果为列表
response.css("标签").re('匹配规则') #对返回的结果通过正则表达式进行提取

1.选择标签

In [26]: response.css('title')
Out[26]: [<Selector xpath='descendant-or-self::title' data='<title>Example website</title>'>]
In [27]: response.css("a[href='image2.html']")
Out[27]: [<Selector xpath="descendant-or-self::a[@href = 'image2.html']" data='<a href="image2.html">Name: My image ...'>]
In [28]: response.css("a[href='image2.html']").extract_first()
Out[28]: '<a href="image2.html">Name: My image 2 <br><img src="data:image2_thumb.jpg"></a>'

2.选择标签的文本

In [51]: response.css("title::text").extract_first()
Out[51]: 'Example website'

3.选择标签的属性值

In [52]: response.css("a[href='image3.html']").css("img::attr(src)").extract_first()
Out[52]: 'image3_thumb.jpg'

4.css选择后的正则匹配

In [93]: response.css('a::attr(href)').re('(.*).html')
Out[93]: ['image1', 'image2', 'image3', 'image4', 'image5']

scrapy中选择器用法的更多相关文章

  1. 三、Scrapy中选择器用法

    官方示例源码<html> <head>  <base href='http://example.com/' />  <title>Example web ...

  2. Scrapy中选择器的用法

    官方文档:https://doc.scrapy.org/en/latest/topics/selectors.html Using selectors Constructing selectors R ...

  3. Scrapy框架中选择器的用法【转】

    Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法 请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...

  4. scrapy框架中选择器的用法

    scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...

  5. 使用scrapy中xpath选择器的一个坑点

    情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...

  6. 不可不看!CSS3中三十一种选择器用法

    原文 The 30 CSS Selectors you Must Memorize 由 Jeffrey Way 发表于 2012 年 6 月,介绍了 30 种最常用的 CSS 选择器用法,多加了一种, ...

  7. scrapy框架中Spiders用法

    scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据 总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以 ...

  8. 在Scrapy中如何利用Xpath选择器从HTML中提取目标信息(两种方式)

    前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...

  9. Scrapy Selectors 选择器

    0. 1.参考 <用Python写网络爬虫>——2.2 三种网页抓取方法  re / lxml / BeautifulSoup 需要注意的是,lxml在内部实现中,实际上是将CSS选择器转 ...

随机推荐

  1. 堆、栈、数据区、bss、代码段

    一个程序的运行是需要内存的,那么我们平常写的程序的内存都是怎么分配的呢 (1)首先我们要知道,内存是真实存在的,内存是一个物理器件.它时由操作系统管理的,我们平常只要使用它就行了,为了方便管理.操作系 ...

  2. 简述vue的双向绑定原理

    一.前言 在vue的视图层与modal层进行数据交互的时,视图层的数据传入到modal层,modal层通过defineProperty来劫持每个元素,并绑定监听事件进行监听,一旦监听到数据变化,就通过 ...

  3. 【XJOI】NOIP2020模拟训练题2 总结

    得分情况: 估分: 30(T1)+100(T2)+0(T3)=130; 实际: 30(T1)+60(T2)+10(T3)=100;   QAQ 是我高看自己了   T1  友好数对: 题意: 如果一个 ...

  4. Netty 源码解析(九): connect 过程和 bind 过程分析

    原创申明:本文由公众号[猿灯塔]原创,转载请说明出处标注 今天是猿灯塔“365篇原创计划”第九篇. 接下来的时间灯塔君持续更新Netty系列一共九篇 Netty 源码解析(一): 开始 Netty 源 ...

  5. Linux高并发网络编程开发——10-Linux系统编程-第10天(网络编程基础-socket)

    在学习Linux高并发网络编程开发总结了笔记,并分享出来.有问题请及时联系博主:Alliswell_WP,转载请注明出处. 10-Linux系统编程-第10天(网络编程基础-socket) 在学习Li ...

  6. vue页面数据强制更新渲染

        vue数据更新会出现缓存的情况,几种方式可以让数据实时渲染到页面: 1.简单粗暴的方式 this.$forceUpdate();//强制更新 2.增减元素 splice() push() 3. ...

  7. Codeforces 1292C Xenon's Attack on the Gangs 题解

    题目 On another floor of the A.R.C. Markland-N, the young man Simon "Xenon" Jackson, takes a ...

  8. 04 Django模型层: Django-model进阶

    一 QuerySet对象 1.1可切片 使用Python 的切片语法来限制查询集记录的数目 .它等同于SQL 的LIMIT 和OFFSET 子句. Entry.objects.all()[:5] # ...

  9. 龙芯开源社区上线.NET主页

    龙芯团队从2019年7 月份开始着手.NET Core的MIPS64支持研发,经过将近一年的研发,在2020年6月18日完成了里程碑性的工作,在github CoreCLR 仓库:https://gi ...

  10. pigctf期末测评

    pigctf期末测评 MISC 1 拿到图片,先binwalk一下,如下图 果然发现png图片后面跟了个ZIP,然后提取出来打开发现了一个flag.png,然后查看16进制文件没有发现什么问题,之后查 ...