scrapy选择器主要用法

# 命令行输入:scrapy shell +链接,会自动请求url,得到的相应默认为response,开启命令行交互模式

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

In [1]: response#response为默认相应

Out[1]: <200 https://doc.scrapy.org/en/latest/_static/selectors-sample1.html>

In [2]: response.text#response.text相应的源代码

# 标准结构图如下:

response.text = '''

<html>

 <head>

  <base href='http://example.com/' />

  <title>Example website</title>

 </head>

 <body>

  <div id='images'>

   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

  </div>

 </body>

</html>

'''

# 1:使用选择器response.selector.xpath()/response.selector.css()

In [5]: response.selector.xpath('//title/text()').extract_first()

Out[5]: 'Example website'

In [6]: response.selector.css('title::text').extract_first()

Out[6]: 'Example website'

# 2:使用选择器也可以简写为:response.xpath() / response.css()

In [9]: response.css('title::text')

Out[9]: [<Selector xpath='descendant-or-self::title/text()' data='Example website'>]

In [10]: response.xpath('//title/text()')

Out[10]: [<Selector xpath='//title/text()' data='Example website'>]

# 3:以上可知使用.xpath() .css()返回仍然是一个选择器,若要提取里面的数据,可以用extract()提取全部,extract_first提取首个

In [7]: response.xpath('//title/text()').extract_first()

Out[7]: 'Example website'

In [8]: response.css('title::text').extract_first()

Out[8]: 'Example website'

# 4:可以循环进行选择

# 获取div标签里面,id = 'images'的元素, 然后继续查找img标签属性为src的内容,最终提取出来

# 就是说,包含关系用中括号[],从属关系用斜杠 /

In [14]: response.xpath("//div[@id='images']").css('img::attr(src)').extract()

Out[14]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

# extract_first还有default属性,如果查找不到对应的元素即返回default指定的值

In [16]: response.xpath("//div[@id='images']").css('img::attr(src)').extract_first(default='')

Out[16]: 'image1_thumb.jpg'

# 查找a标签下,属性为href的元素,提取出来

In [18]: response.xpath('//a/@href').extract()

Out[18]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [19]: response.css('a::attr(href)').extract()

Out[19]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

# 5:查找标签的文本

In [20]: response.xpath('//a/text()').extract()

Out[20]:

['Name: My image 1 ',

 'Name: My image 2 ',

 'Name: My image 3 ',

 'Name: My image 4 ',

 'Name: My image 5 ']

In [21]: response.css('a::text').extract()

Out[21]:

['Name: My image 1 ',

 'Name: My image 2 ',

 'Name: My image 3 ',

 'Name: My image 4 ',

 'Name: My image 5 ']

# 6:选取标签的属性

In [34]: response.css('a::attr(href)').extract()

Out[34]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [39]: response.xpath('//a/@href').extract()

Out[39]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

# 查找属性名称为href 包含image的标签的属性

In [24]: response.xpath('//a[contains(@href,"image")]/@href').extract()

Out[24]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [25]: response.css('a[href*=image]::attr(href)').extract()

Out[25]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

# 查找a标签里面属性名为href,包含image,包含img,属性为src的属性

In [27]: response.xpath('//a[contains(@href,"image")]/img/@src').extract()

Out[27]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

In [28]: response.css('a[href*=image] img::attr(src)').extract()

Out[28]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

# 7:可配合正则表达式,re_first表示取第一个满足正则表达式的

In [30]: response.css('a::text').re('Name\:(.*)')

Out[30]:

[' My image 1 ',

 ' My image 2 ',

 ' My image 3 ',

 ' My image 4 ',

 ' My image 5 ']

In [31]: response.css('a::text').re_first('Name\:(.*)')

Out[31]: ' My image 1 '

In [32]: response.css('a::text').re_first('Name\:(.*)').strip()#去除空格

Out[32]: 'My image 1'

scrapy选择器主要用法的更多相关文章

Scrapy选择器的用法
1.构造选择器: >>> response = HtmlResponse(url='http://example.com', body=body) >>> Sele ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
CSS中:before和:after选择器的用法
在线演示这次给大家带来的是对话气泡效果,主要是演示了 :before / :after 和 border 的用法,赶快来围观吧. 阅读原文:CSS中:before和:after选择器的用法
Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Python之爬虫（十六） Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Scrapy中选择器的用法
官方文档:https://doc.scrapy.org/en/latest/topics/selectors.html Using selectors Constructing selectors R ...
4-----Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
scrapy选择器归纳
python 爬虫: srcrapy框架xpath和css选择器语法 Xpath基本语法一.常用的路径表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 //div ...

随机推荐

java报错排解
1.eclipse新安装第一次启动报错: Javawas started but returned exit code=13-- 这是由于JDK和eclipse和电脑的位数不一致所致,要么都为32位, ...
Redis数据过期策略
1.Redis中key的的过期时间通过EXPIRE key seconds命令来设置数据的过期时间.返回1表明设置成功,返回0表明key不存在或者不能成功设置过期时间.在key上设置了过期时间后ke ...
【XML】 XML格式一些记录
XML XML格式常用于网络通讯,本身不会有作为而是作为纯文本传输,可以说它是一种独立于应用和硬件的数据传输工具.虽然看起来XML比HTML要更加简单,也知道的更加晚一点,但是需要知道的是,XML才是 ...
Java注解(2)-注解处理器(运行时|RetentionPolicy.RUNTIME)
如果没有用来读取注解的工具,那注解将基本没有任何作用,它也不会比注释更有用.读取注解的工具叫作注解处理器.Java提供了两种方式来处理注解:第一种是利用运行时反射机制:另一种是使用Java提供的API ...
js面向对象的理解
ECMAScript 有两种开发模式:1.函数式(过程化),2.面向对象(OOP).面向对象的语言有一个标志,那就是类的概念,而通过类可以创建任意多个具有相同属性和方法的对象.但是,ECMAScrip ...
微信公众平台开发，图文回复、access_token生成调用、以及微信SDK的实现（2）
上一节课,我给大家分享了微信API接入以及事件推送的回复,这是微信开发的第二节课,重点给说一说单图文回复,多图文回复,access_token,微信SDK. 公众号消息回复很多种形式,常见的形式有,文 ...
打印十字图 JAVA 递归实现
这个是我自己想的,头疼了一个下午,不过还好.做出来了.在网上找这道题但没有找到用递归的做法. /*递归思想实现 * 标题:打印十字图小明为某机构设计了一个十字型的徽标(并非红十字会啊),如下所示(可 ...
[日常] NOIP 2017滚粗记
突然挑了这么个滑稽的时间补了游记... (成绩日常延时再加上人太菜估计基本上就是颓废记录) 然而文化课太废可能会被强制退役QAQ所以先补了再说吧 day0 一大早被老姚交代了个开十一机房门的任务... ...
js如何获取隐藏的元素的高度
首先,正常情况下,确保div是有高度的. <!DOCTYPE html> <html lang="en"> <head> <meta ch ...
Java基础学习笔记十四常用API之基本类型包装类
基本类型包装类 Java中有8种基本的数据类型,可是这些数据是基本数据,想对其进行复杂操作,变的很难.怎么办呢?在实际程序使用中,程序界面上用户输入的数据都是以字符串类型进行存储的.而程序开发中,我们 ...

scrapy选择器主要用法

scrapy选择器主要用法的更多相关文章

随机推荐

热门专题