scrapy实战2，使用内置的xpath，re和css提取值

以伯乐在线文章为爬取目标blog.jobbole.com，发现在"最新文章"选项中可看到所有文章

一般来说，可以用scrapy中自带的xpath或者css来提取数据，定义在spiders/jobbole.py中的def parse(self, response)

import scrapy

class JobboleSpider(scrapy.Spider):

    name = 'jobbole'

    allowed_domains = ['blog.jobbole.com']

    start_urls = ['http://blog.jobbole.com/']

    def parse(self, response):

        re_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1/text()')

注意：因为jqury会生成额外的代码，我们在源码看到的代码和页面加载之后显示的代码可能不同，所以不要按层级一步步找，最好找到id，或者class来定位

小技巧：

1）当我们使用class来定位标签时，可以在F12中用ctrl+F 查看这个class名字是否唯一

2）Xpath路径可右键直接复制

一. Xpath常用方法

1. 常用规则如下

// 从当前节点选取子孙节点，如果符号前面没路径，表示整个文档

/ 从当前节点选取直接子节点

. 选取当前节点

.. 选取当前节点父节点

@ 选取属性

//* 整个HTML文本中的所有节点

例子1

<html><body><div>

<ul>

<li class="item-0"><a href="link1.html"><span>first item</span></a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

</ul>

</div></body></html>

1. 获取父节点属性

首先选中href属性为link4.html的a节点，然后再获取其父节点，然后再获取其class属性

result1 = response.xpath('//a[@href="link4.html"]/../@class')

我们也可以通过parent::来获取父节点

result2 = response.xpath('//a[@href="link4.html"]/parent::*/@class')

注意：

//a表示html中的所有a节点，他们的href属性有多个，这里[]的作用是属性匹配，找到a的href属性为link4.html的节点

2. 获取节点内部文本

获取class为item-1的li节点文本，

result3 = response.xpath('//li[@class="item-0"]/a/text()')

返回结果为['first item', 'fifth item']

3. 属性获取

获取所有li节点下的所有a节点的href属性

result4 = response.xpath('//li/a/@href')

返回结果为['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

4. 按序选择

result = response.xpath('//li[1]/a/text()')   #选取第一个li节点

result = response.xpath('//li[last()]/a/text()')   #选取最后一个li节点

result = response.xpath('//li[position()<3]/a/text()')   #选取位置小于3的li节点，也就是1和2的节点

result = response.xpath('//li[last()-2]/a/text()')  #选取倒数第三个节点

5. 节点轴选择

）返回第一个li节点的所有祖先节点，包括html,body,div和ul

result = response.xpath('//li[1]/ancestor::*')

）返回第一个li节点的<div>祖先节点

result = response.xpath('//li[1]/ancestor::div')

）返回第一个li节点的所有属性值

result = response.xpath('//li[1]/attribute::*')

）首先返回第一个li节点的所有子节点，然后加上限定条件，选组href属性为link1.html的a节点

result = response.xpath('//li[1]/child::a[@href="link1.html"]')

）返回第一个li节点的所有子孙节点，然后加上只要span节点的条件

result = response.xpath('//li[1]/descendant::span')

）following轴可获得当前节点之后的所有节点，虽然使用了*匹配，但是又加了索引选择，所以只获取第2个后续节点，也就是第2个<li>节点中的<a>节点

result = response.xpath('//li[1]/following::*[2]')

）following-sibling可获取当前节点之后的所有同级节点，也就是后面所有的<li>节点

result = response.xpath('//li[1]/following-sibling::*')

6. 属性多值匹配

<li class="li li-first"><a href="link.html">first item</a></li>

result5 = response.xpath('//li[@class="li"]/a/text()')

返回值为空，因为这里HTML文本中li节点为class属性有2个值li和li-first，如果还用之前的属性匹配就不行了，需要用contain()函数

正确方法如下

result5 = response.xpath('//li[contains(@class, "li")]/a/text()')

contains()方法中，第一个参数为属性名，第二个参数传入属性值，只要此属性名包含所传入的属性值就可完成匹配

7. 多属性匹配，这里说一下不用框架的时候，xpath的常规用法

有时候我们需要多个属性来确定一个节点，那么就需要同时匹配多个属性，可用and来连接

from lxml import etree

text = '''

<li class = "li li-first" name="item"><a href="link.html">first item</a></li>

'''

html = etree.HTML(text)

result6 = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')

print(result)

这里的li节点有class和name两个属性，需要用and操作符相连，然后置于中括号内进行条件筛选

二. 调试命令

cmd中执行如下代码，即可进入调试命令行，这个命令已经取得了页面中的原代码，命令测试成功后即可放在def parse函数中

scrapy shell http://blog.jobbole.com/110287

开始调试，

1. 取得文章标题

>>> title = response.xpath('//div[@class="entry-header"]/h1/text()')

>>> title

[<Selector xpath='//div[@class="entry-header"]/h1/text()' data='2016 腾讯软件开发面试题（部分）'>]

>>> title.extract()

['2016 腾讯软件开发面试题（部分）']

>>> title.extract()[]

'2016 腾讯软件开发面试题（部分）'

>>> title.extract_first()

'2016 腾讯软件开发面试题（部分）'

说明

1）extract()方法会把原数据的selector类型转变为列表类型

2）extract()会得到多个值，extract()[1]取第2个值

3）extract_first()得到第一个值，类型为字符串。extract_first(default='')如果没取到返回默认值

2. 取得发表日期

>>> response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[].strip().replace("·","").strip()

'2017/02/18'

3. 点赞数，span标签里有很多class名，选一个看起来像唯一的，测试一下，然后用contains()函数简化操作

>>> response.xpath("//span[contains(@class, 'vote-post-up')]/h10/text()").extract()

['']

>>> response.xpath("//span[contains(@class, 'vote-post-up')]/h10/text()").extract()[]

''

>>> int(response.xpath("//span[contains(@class, 'vote-post-up')]/h10/text()").extract()[])

4. 收藏数，要用正则，re模块也是scrapy的内置模块，注意要用非贪婪匹配，否则只会取到8

>>> response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").extract()[]

' 28 收藏'

>>> string = response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").extract()[]

>>> import re

>>> pattern = re.match(".*?(\d+).*", string)

>>> pattern.group()

''

可以简写为

>>> response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").re('.*?(\d+).*')

['']

>>> response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").re('.*?(\d+).*')[0]

''

5. 使用列表推导式取得一个标签中的部分元素，如下取得职场和面试字样。适用于有些文章没评论标签的情况

aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAMQAAAAhCAYAAACGLwRaAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsMAAA7DAcdvqGQAAASXSURBVHhe7Zc9UiRJDEb3/jfAxsbFxeYAHIETQOBBb7zZeRPfqpVVXd3Lzhh6ERlVnaWUPiml+fnrNAzDL2YghiGYgRiGYAZiGIIZiGEIZiCGIZiBGIZgBmIYghmIYQhmIG7k6enpdHd396/1+Ph4ur+/P9t/eXn5eer04zs8Pz+f2bm+C/S9vr7+eN+KnxpZFc9eS423tahd6q5wD97FLbQDkZf58PDwc/cfsgHqN7BIKVz7umpy+NYnBUjbpDZhVyTPJ/zmbMLZ9JVNeyk2Dr7U755wmd1AVMyty2mPmsuWD75XUn8FvenPWOitNb0WatQNXrLKCw2cpcarHC7hbCBwXC/OhAmYF5nfLBBJ7V0GZ7Cr4I/Y+tIHtibJXp7FV2oSbNTGWbW5J5z1EoiN3VGMj7a9geBJDFc2gBqvhfPeXb2rilqwyzvMZsrz9VvGYt/3IxDbOmytrAlx0NvZ5bpGD+z+k4ngCiLxvMBV0RFkM1fY53uFBPSVMcEznc+Vv84en3Ugqt0qzhbo5hxrbyAkv/ONs7fAXWTDAjEuaQzOkTNLH2jKuxZs0Fr9stfZb4G991HjWR/2+LYHfo7G79gdCAqk6Fpgi1Nhb9VUJFebEnK/s1ldLkXI5gL2anNA5zf3Li1+xfjZUFUTfruBICb16tYRLV3O/GY/QYP+1cOTWOr3t9+0p048V5BTjbcFtnnnxmFlfayd3zrS1y1sDgRC8mJ5t4hwdCBW9pBniFuTq7HBItX9rhGg84sdPlyronK2NpxYIxsK2Eu/rNSZdQV/Y0MsG6Gy0mFtjWFtujqAjZ+k/kraq1Hq78pKB3s5EGljPWod3K/1xeZbB8IgCSKyiKsGZ8/mTlaiSTovorOrsbHpYq80QfWLv6qV3xlHOLtqlrwcbbw44Xz6ze/sew59NkpXqy0d5qMOVpcL8I042q+WGtIXT3SAuXdahe/Z7GKegL+0sT7sGQtWdUtNt3A2EDZUV0iLKLwrKOF8NxCr/eqXImVytcmxXyVfzybs58V1+qvNJXhJ6Ozq0UE+LDRw3nqbJxqO6qhkzSrorHe8pT/teaZ+OJK7cNYcqbs+WXsDwTl0ZMwclms5G4ithvDyhHcLkpBQbXzEd4K7fQdAH2iyKCs/0sWWmpsXm/b8Zv8I6uHJeWO4z6VZJzSkDd98T31V61H2ztvg2Al1WDV12tdz0O3tUQcie8nasZd+2VcLK/XyjRzw2fXlJZwNBAG4sFyKA8S5vyo432pTYtsVjL3ODwkZJ5PO/VwUh29pW+liVX9HC5n1yAviyW/xspLUw3tq5/2oFmKoBX9b4F/NsjcQ2rOqf/Lo7nGL1V3WlbHI0TjoSBs18J55HWHzP9X/ByRTG+Varmmi/xIbqtPBt/yDJeESbcRs6u+kq/vWQFQ9asx1FGq0N0TYOBCpzzrVOvP9Gi3yWwciG+FW/NNiGG7ht/8NMQx/EjMQwxDMQAxDMAMxDMEMxDAEMxDDEMxADEMwAzEMwQzEMARnA/H29jbPK57v7++nr6+veR58fnx8nD4/P/+Y5/wNMQzBDMQw/OJ0+hsJCgRPORKLUQAAAABJRU5ErkJggg==" alt="" />

找到不是以"评论"结尾的元素

>>> response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()

['职场', ' 9 评论 ', '面试']

>>> tag_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()

>>> [element for element in tag_list if not element.strip().endswith("评论")]

['职场', '面试']

>>> tag_choose=[element for element in tag_list if not element.strip().endswith("评论")]

>>> tags=",".join(tag_choose)

>>> tags

'职场,面试'

join()函数基本语法： 'sep'.join(seq)。表示以sep为分隔符，将seq中所有的元素合并成一个新的字符串

sep表示分隔符，可以为空；

seq表示要连接的数据，数据类型可以是列表，字符串，元组或者字典

三. css提取方式

1. css的几个选择器

li a	选取所有li下的所有a节点
ul + p	选择ul后面的第一个p元素，ul和p是兄弟节点
div#container>ul	选取id为container的div标签，下边的第一个ul子元素
ul ~ p	选取与ul相邻的所有p元素
a[title]	选取所有含有title属性的a元素
a::attr(href)	获取所有a元素的href属性值
a[href="http://jobbole.com"]	选取所有href属性为http://jobbole.com值的a元素
a[href*="jobble"]	选取所有href属性包含jobbole的a元素
a[href^="http"]	选取所有href属性值以http开头的a元素
a[href$=".jpg"]	选取所有href属性值以.jpg结尾的a元素
input[type=radio]:checked	选择选中的radio的元素
div:not(#container)	选取所有id不等于container的div元素
li:nth-child(3)	选取第三个li元素
tr:nth-child(2n)	选取偶数位的tr元素

2. scrapy shell中使用css来提取数据

scrapy shell http://blog.jobbole.com/110287

1）提取标题，需要用到css的伪类 ::text

>>> response.css(".entry-header h1").extract()

['<h1>2016 腾讯软件开发面试题（部分）</h1>']

>>> response.css(".entry-header h1::text").extract()[]

'2016 腾讯软件开发面试题（部分）'

2）文章创建时间

>>> response.css("p.entry-meta-hide-on-mobile::text").extract()[].strip().replace(" ·","")

'2017/02/18'

注意:这里p和类名之间没空格，表示类名为entry-meta-hide-on-mobile的p元素

3）点赞数，对于属性多值匹配用css会很方便

>>> response.css(".vote-post-up h10::text").extract()[]

''

4）收藏数，注意转义字符的方向

>>> response.css(".bookmark-btn::text").extract()[]

' 28 收藏'

>>> string = response.css(".bookmark-btn::text").extract()[]

>>> tag=re.match(".*?(\d+).*", string)

>>> tag.group()

''

其实正则re也是scrapy的内置模块，可以简写为如下

>>> response.css(".bookmark-btn::text").re('.*?(\d+).*')

['']

>>> response.css(".bookmark-btn::text").re('.*?(\d+).*')[0]

''

5）提取正文内容，一般把格式也取出来

response.css("div.entry").extract()[]

6）取得职场，评论，面试字样

>>> response.css("p.entry-meta-hide-on-mobile a::text").extract()

['职场', ' 9 评论 ', '面试']

scrapy实战2，使用内置的xpath，re和css提取值的更多相关文章

《Python高效开发实战》实战演练——内置Web服务器4
<Python高效开发实战>实战演练——开发Django站点1 <Python高效开发实战>实战演练——建立应用2 <Python高效开发实战>实战演练——基本视图 ...
Spring Cloud Gateway实战之五：内置filter
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Scrapy框架学习 - 使用内置的ImagesPipeline下载图片
需求分析需求:爬取斗鱼主播图片,并下载到本地思路: 使用Fiddler抓包工具,抓取斗鱼手机APP中的接口使用Scrapy框架的ImagesPipeline实现图片下载ImagesPipeline实 ...
Scrapy爬虫框架(2)--内置py文件
Scrapy概念图这里有很多py文件,分别与Scrapy的各个模块对应 superspider是一个爬虫项目 spider1.py则是一个创建好的爬虫文件,爬取资源返回url和数据 items.py ...
Spring Cloud Gateway实战之四：内置predicate小结
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Jmeter学习笔记（二十）——后置处理器XPath Extractor使用
一.背景在使用过程某些操作步骤与其相邻步骤存在一定的依赖关系,需要需要将上一个请求的响应结果作为下一个请求的参数. Jmeter中后置处理器正则表达式提取器和XPath Extractor都可以将页 ...
Python第八天模块包全局变量和内置变量__name__ Python path
Python第八天模块包全局变量和内置变量__name__ Python path 目录 Pycharm使用技巧(转载) Python第一天安装 shell 文件 Pyt ...
python 数据类型元组与字典内置方法
1.元组 (1)元组是不可变的列表,能存多个值:如果多个值只有取得需求,没有改的需求,用元组最合理 (2)定义:在()内用逗号隔开,可以存任意类型的值注意:当元组只有一个元素时,要在后面加逗号 # ...
python成长之路八 -- 内置函数
1,python内置函数内置函数 abs() dict() help() min() setattr() all() dir() hex() next() slice() a ...

随机推荐

LevelDb日知录之五：MemTable详解
[LevelDb日知录之五:MemTable详解] LevelDb日知录前述小节大致讲述了磁盘文件相关的重要静态结构,本小节讲述内存中的数据结构Memtable,Memtable在整个体系中的重要地位 ...
WSAEvent
[WSAEvent] 1.WSACreateEvent.创建WSA事件. 2.WSAEventSelect. lNetworkEvents [in] A bitmask that specifies ...
Node.js的优点和缺点(转载)
著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:FengqiAsia链接:http://www.zhihu.com/question/19653241/answer/1599 ...
CentOS6，7不同
centos6与centos7,防火墙,开机自启不同 6用iptables,7用firewall-cmd http://www.cnblogs.com/liyuanhong/articles/7064 ...
光源材质简析——基于《real time rendering》第三版第五章
对于真是世界的渲染,有三个重要的组成部分,光源,材质,以及摄像机.下面,我们一个一个来简单介绍一下. 光源:方向光,点光源,聚光灯.但是,在和物体表面交互的时候,光源对物体表面的影响是依赖光的辐照度( ...
gnuc与ansic
GNU c与标准c的区别 1) 零长度数组 struct var_data { int len; char data[0]; }test: int a; test.data -->a 2)cas ...
python 多线程简介
Thread类定义了以下常用方法与属性: Thread.getName() \Thread.setName():老方式用于获取和设置线程的名称,官方建议用Thread.name替代 Thread.id ...
Windows下安装Redis及php的redis拓展教程
一.安装前必读 Windows 64位操作系统 Redis 安装包(版本3.0.5,截止2017-05-29最新redis版本为3.2.9) 注意事项: 1.在window下如果你还需安装php的re ...
B-spline Curves 学习之B样条曲线性质（5）
B-spline Curves: Important Properties 本博客转自前人的博客的翻译版本,前几章节是原来博主的翻译内容,但是后续章节博主不在提供翻译,后续章节我在完成相关的翻译学习. ...
java中父类的静态方法不能被重写
Java中父类的静态方法确实不能被重写的,但是有的人可能去做实验发现在子类中去重写父类static方法时,并没什么问题.这里我来具体解释下. public class Parent { public ...

scrapy实战2，使用内置的xpath，re和css提取值

scrapy实战2，使用内置的xpath，re和css提取值的更多相关文章

随机推荐

热门专题