Scrapy CrawlSpider源码分析

crawl.py中主要包含两个类：

1. CrawlSpider

2. Rule

　　link_extractor：传LinkExtractor实例对象

　　callback：传”func_name“

　　cb_kwargs=None

　　follow=None 跟配置文件中CRAWLSPIDER_FOLLOW_LINKS做and，都为True才有效

　　process_links=None 用于预处理url

　　process_request=identity 默认调用process_request时返回process_request的参数

CrawlSpider：继承Spider类

1）入口：调用Spider类的start_requests，默认使用parse处理

2）CrawlSpider重写了Spider类的parse方法：返回调用_parse_response方法（*自定义时不能重载parse函数处理response）

3）_parse_response方法：scrapy预留了parse_start_url、process_results方法供我们自定义逻辑处理response，最后遍历process_results结果，yield（如果没重写上面的函数相当于之前什么都没执行），判断配置文件（CRAWLSPIDER_FOLLOW_LINKS=True），调用_requests_to_follow，遍历结果，yield

4）_requests_to_follow方法：调用rules中Rule的LinkExtractor的extract_links方法，抽取每一个link，并且放到集合中做了一个去重，调用_build_request创建request对象，yield Rule实例的process_request方法，传入reuqest对象作为参数（默认相当于yield Request对象）

5）_build_request方法：实例化Request（callback通过_response_downloaded获取），返回Request实例对象

6）_response_downloaded方法：拿到Rule中rule，返回_parse_response函数

7）_parse_response方法：调用rule.callback

重点：

1. 重写预留函数：parse_start_url、process_results方法

2. 自定义Rule中参数配置：process_links（预处理url）

Scrapy CrawlSpider源码分析的更多相关文章

ABP源码分析一：整体项目结构及目录
ABP是一套非常优秀的web应用程序架构,适合用来搭建集中式架构的web应用程序. 整个Abp的Infrastructure是以Abp这个package为核心模块(core)+15个模块(module ...
HashMap与TreeMap源码分析
1. 引言在红黑树--算法导论(15)中学习了红黑树的原理.本来打算自己来试着实现一下,然而在看了JDK(1.8.0)TreeMap的源码后恍然发现原来它就是利用红黑树实现的(很惭愧学了Ja ...
nginx源码分析之网络初始化
nginx作为一个高性能的HTTP服务器,网络的处理是其核心,了解网络的初始化有助于加深对nginx网络处理的了解,本文主要通过nginx的源代码来分析其网络初始化. 从配置文件中读取初始化信息与网 ...
zookeeper源码分析之五服务端(集群leader)处理请求流程
leader的实现类为LeaderZooKeeperServer,它间接继承自标准ZookeeperServer.它规定了请求到达leader时需要经历的路径: PrepRequestProcesso ...
zookeeper源码分析之四服务端(单机)处理请求流程
上文: zookeeper源码分析之一服务端启动过程中,我们介绍了zookeeper服务器的启动过程,其中单机是ZookeeperServer启动,集群使用QuorumPeer启动,那么这次我们分析 ...
zookeeper源码分析之三客户端发送请求流程
znode 可以被监控,包括这个目录节点中存储的数据的修改,子节点目录的变化等,一旦变化可以通知设置监控的客户端,这个功能是zookeeper对于应用最重要的特性,通过这个特性可以实现的功能包括配置的 ...
java使用websocket，并且获取HttpSession，源码分析
转载请在页首注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/6238826.html 一:本文使用范围此文不仅仅局限于spring boot,普通的sprin ...
ABP源码分析二：ABP中配置的注册和初始化
一般来说,ASP.NET Web应用程序的第一个执行的方法是Global.asax下定义的Start方法.执行这个方法前HttpApplication 实例必须存在,也就是说其构造函数的执行必然是完成 ...
ABP源码分析三：ABP Module
Abp是一种基于模块化设计的思想构建的.开发人员可以将自定义的功能以模块(module)的形式集成到ABP中.具体的功能都可以设计成一个单独的Module.Abp底层框架提供便捷的方法集成每个Modu ...

随机推荐

转 Postman访问Webapi的Get/Post/Put/Delte请求
Postman访问Webapi的Get/Post/Put/Delte请求 2018年07月26日 15:04:46 DoNotWorkOvertime 阅读数:348 标签: WebApiPostma ...
ckeditor_配置修改工具栏段落的标签和在文中的格式
在默认的工具栏中自带一个格式的选项,可以编辑文字的段落属性,将文字转换为标题.ckeditor中提供了方法可以对这个标签进行修改. 正在做的项目中不叫标题1标题2,叫章.节.条... . 需要进行配置 ...
AndroidStudio3.0 修改项目包名
进入 Androidmanifest.xml,找到 package 名称,选中需要修改的部分. 如原包名为com.demo.musicplayer,如果改为com.musicplayer.那么选中当前 ...
org.springframework.transaction.CannotCreateTransactionException: Could not open Hibernate Session for transaction; nested exception is org.hibernate.exception.JDBCConnectionException: Cannot open con
org.springframework.transaction.CannotCreateTransactionException: Could not open Hibernate Session f ...
Java基于opencv—矫正图像
更多的时候,我们得到的图像不可能是正的,多少都会有一定的倾斜,就比如下面的我们要做的就是把它们变成下面这样的我们采用的是寻找轮廓的思路,来矫正图片:只要有明显的轮廓都可以采用这种思路具体思路: ...
windows下用XShell远程控制ubuntu时连接失败
主机和Ubuntu可以相互Ping通,但是XShell远程控制失败. 查看Ip地址方法:ifconfig 解决方案: 1.查看,关闭防火墙状态:sudo ufw disable 2.开放22端口:su ...
PA教材提纲 TAW10-1
Unit1 SAP systems(SAP系统) 1.1 Explain the Key Capabilities of SAP NetWeaver(解释SAP NetWeaver的关键能力) Rep ...
cocos creator
动画效果: 如图在场景中创建一个空节点,点击添加Animatiion 选中要改变的属性.(以spriteFrame为例) 将选中的图片拖动到所示位置,此时点击播放按钮即可预览. 保存之后将层级管理器中 ...
memcached命令行、Memcached数据导出和导入、php连接memcache、php的session存储到memcached
1.memcached命令行 telnet 127.0.0.1 11211set key2 0 30 2abSTOREDget key2VALUE key2 0 2abEND 如: set key3 ...
java学习之路重新出发
一.Java发展史: 1995年由詹姆斯高斯林带领团队开发 java问世 2004 jdk1.5版本更名jdk5.0 2010 sun公司被oracle公司收购二.java三大体系: java ...

Scrapy CrawlSpider源码分析

Scrapy CrawlSpider源码分析的更多相关文章

随机推荐

热门专题