scrapy CrawlSpider解析

CrawlSpider继承自Spider, CrawlSpider主要用于有规则的url进行爬取。

先来说说它们的设计区别：

SpiderSpider 类的设计原则是只爬取 start_urls 中的url，而 CrawlSpider 类定义了一些规则 rules 来提供跟进链接 link 的方便机制，从爬取的网页中获取link并继续跟进的工作。

先来看看刚创建一个crawlSpider的爬虫 -t 指定模板为crawlSpider

scrapy genspider -t crawl cf circ.gov.cn

LinkExtractor 的源码：

from scrapy.linkextractors import LinkExtractor

allow ：满足括号中”正则表达式”的值会被提取，如果为空，则全部匹配。

deny ：与这个正则表达式(或正则表达式列表)不匹配的url一定不提取

allow_domain：会被提取的连接的domains

deny_domains ：一定不会被提取链接的domains。

restrict_xpaths ：使用xpath表达式，和allow共同作用过滤链接。
restrict_css ：使用css选择器

在CrawlSpider源码中最先定义的是类Rule：Rule对象是一个爬取规则的类

link_extractor ：是一个Link Extractor对象。其定义了如何从爬取到的页面提取链接。

callback ：是一个callable或string（该Spider中同名的函数将会被调用）。从link_extractor中每获取到链接时将会调用该函数。该回调函数接收一个response作为其第一个参数，并返回一个包含Item以及Request对象(或者这两者的子类)的列表。

cb_kwargs ：包含传递给回调函数的参数（keyword argument）的字典。

follow ：是一个boolean值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow默认设置True，否则默认False。

process_links ：是一个callable或string（该Spider中同名的函数将会被调用）。从link_extrator中获取到链接列表时将会调用该函数。该方法主要是用来过滤。

process_request ：是一个callable或string（该spider中同名的函数都将会被调用）。该规则提取到的每个request时都会调用该函数。该函数必须返回一个request或者None。用来过滤request

CrawlSpider类的源码：

rules ：

　　是一个列表，存储的元素是Rule类的实例，其中每一个实例都定义了一种采集站点的行为。如果有多个rule都匹配同一个链接，那么位置下标最小的一个rule将会被使用。

__init__ ：

　　它主要就是执行了_compile_rules方法

parse ：

　　默认回调方法。源码进行了重写，所以我们自定义的函数，不可以使用这个名，这里直接调用方法 _parse_response ，并把 parse_start_url 方法作为处理response的方法。

parse_start_url ：

　　它的主要作用就是处理parse返回的response，比如提取出需要的数据等，该方法也需要返回item、request或者他们的可迭代对象。它就是一个回调方法，和rule.callback用法一样。

_requests_to_follow ：

　　它的作用就是从response中解析出目标url，并将其包装成request请求。该请求的回调方法是_response_downloaded，这里为request的meta值添加了rule参数，该参数的值是这个url对应rule在rules中的下标。

_response_downloaded ：

　　该方法是方法 _requests_to_follow 的回调方法，作用就是调用 _parse_response 方法，处理下载器返回的 response ，设置 response 的处理方法为 rule.callback 方法。

_parse_response ：

　　该方法将 resposne 交给参数callback代表的方法去处理，然后处理callback方法的requests_or_item。再根据rule.follow and spider._follow_links来判断是否继续采集，如果继续那么就将response交给_requests_to_follow方法，根据规则提取相关的链接。spider._follow_links的值是从settings的CRAWLSPIDER_FOLLOW_LINKS值获取到的。

_compile_rules ：

　　作用就是将rule中的字符串表示的方法改成实际的方法，方便以后使用。

from_crawler ：

　　用于创建，在scrapy源码中这种创建方式比较多

整个数据的流向如下图所示：

示例：

1.创建项目

scrapy startproject circ

2. 创建crawl爬虫

cd circ

scrapy genspider -t crawl cf circ.gov.cn

3.编写cf.py

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

import re

class CfSpider(CrawlSpider):

    name = 'cf'

    allowed_domains = ['circ.gov.cn']

    start_urls = ['http://www.circ.gov.cn/web/site0/tab5240/module14430/page1.htm']

    #定义提取url地址规则

    rules = (

        #LinkExtractor 连接提取器，提取url地址

        #callback 提取出来的url地址的response会交给callback处理

        #follow 当前url地址的响应是够重新进过rules来提取url地址，

        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),

        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'),follow=True),

    )

    #parse函数有特殊功能，不能定义

    def parse_item(self, response):

        item = {}

        item["title"] = re.findall("<!--TitleStart-->(.*?)<!--TitleEnd-->",response.body.decode())[0]

        item["publish_date"] = re.findall("发布时间：(20\d{2}-\d{2}-\d{2})",response.body.decode())[0]

        print(item)

scrapy CrawlSpider解析的更多相关文章

scrapy -->CrawlSpider 介绍
scrapy -->CrawlSpider 介绍 1.首先,通过crawl 模板新建爬虫: scrapy genspider -t crawl lagou www.lagou.com 创建出来的 ...
scrapy初步解析源码即深度使用
scrapy深度爬虫 ——编辑:大牧莫邪本章内容深度爬虫概述 scrapy Spider实现的深度爬虫 scrapy CrawlSpdier实现的深度爬虫案例操作课程内容 1. 深度爬虫概述 ...
scrapy系列（四）——CrawlSpider解析
CrawlSpider也继承自Spider,所以具备它的所有特性,这些特性上章已经讲过了,就再在赘述了,这章就讲点它本身所独有的. 参与过网站后台开发的应该会知道,网站的url都是有一定规则的.像dj ...
Scrapy - CrawlSpider爬虫
crawlSpider 爬虫思路: 从response中提取满足某个条件的url地址,发送给引擎,同时能够指定callback函数. 1. 创建项目 scrapy startproject mysp ...
Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...
scrapy递归解析和post请求
递归解析递归爬取解析多页页面数据每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析. 实现方案: 1.将每一个页码 ...
Scrapy CrawlSpider源码分析
crawl.py中主要包含两个类: 1. CrawlSpider 2. Rule link_extractor:传LinkExtractor实例对象 callback:传”func_name“ cb_ ...
别再滥用scrapy CrawlSpider中的follow=True
对于刚接触scrapy的同学来说, crawlspider中的rule是比较难理解的, 很可能驾驭不住. 而且笔者在YouTube中看到许多公开的演讲都都错用了follow这一选项, 所以今天就来仔细 ...
scrapy架构解析

随机推荐

《SQL CookBook 》笔记-第二章-查询结果排序
目录第二章查询结果排序 2.1 以指定顺序返回查询结果 2.2 依据子串排序 2.3 排序时对 Null 值的处理 2.4 依据条件逻辑动态调整排序项第二章 shanzm 第二章查询结果排序 ...
shell脚本获取进程ID并杀死的实现及问题解析
经常需要杀死某个进程,操作了几次之后,对一个熟练的码农来说,就要制作自己的工具了.有些工具虽然很小,但是却能节省一大部分的时间. 输入某个进程的ID并杀死的方法.这种事情,一般是先搜索再进行优化,这种 ...
从壹开始前后端分离 [ Vue2.0+.NetCore2.1] 二十六║Client渲染、Server渲染知多少{补充}
前言书接上文,昨天简单的说到了 SSR 服务端渲染的相关内容<二十五║初探SSR服务端渲染>,主要说明了相关概念,以及为什么使用等,昨天的一个小栗子因为时间问题,没有好好的给大家铺开来讲 ...
三分钟学会.NET微服务之Polly
熔断降级是一个非常重要的概念,我们先说一下什么是熔断降级,咱们都知道服务发现,一个有问题的服务器没来得急注销过一会就崩溃掉了,那么我们的请求就有可能访问一个已经崩溃的服务器,那么就会请求失败,因为已经 ...
C#版 - Leetcode49 - 字母异位词分组 - 题解
C#版 - Leetcode49 - 字母异位词分组 - 题解 Leetcode49.Group Anagrams 在线提交: https://leetcode.com/problems/group- ...
C++STL之Vector向量详解,用法和例子一起学习一起加油
C++ STL之vector用法总结 1 ...
@vue-cli3创建项目报错：ERROR command failed: npm install --loglevel error --registry=https://registry.npm.taobao.org --di
使用@vue-cli3时在你感觉所以配置都搞好开始创建项目时,不停的报错,就是创建不成功清npm缓存也不行改淘宝镜像也不行就快奔溃了,最后最终(其实我在凑150字,为了能发到首页给更多采坑的兄 ...
[翻译] 使用 Python 创建你自己的 Shell：Part II
目录使用 Python 创建你自己的 Shell:Part II 原文链接与说明步骤 4:内置命令最后的想法使用 Python 创建你自己的 Shell:Part II 原文链接与说明 htt ...
内核中 EXPORT_SYMBOL 标志分析
内核版本:Linux-4.19 1. EXPORT_SYMBOL 的作用: EXPORT_SYMBOL 定义的函数或者符号对全部内核代码公开,不用修改内核代码就可以在其它内核模块中直接调用,即使用 E ...
NTP服务和DNS服务（week3_day3）--技术流ken
NTP时间服务器作用:ntp主要是用于对计算机的时间同步管理操作. 时间是对服务器来说是很重要的,一般很多网站都需要读取服务器时间来记录相关信息,如果时间不准,则可能造成很大的影响. 部署安装NTP ...

scrapy CrawlSpider解析

scrapy CrawlSpider解析的更多相关文章

随机推荐

热门专题