scrapy 爬虫中间件 deepth深度

源码

class DepthMiddleware(object):

    def __init__(self, maxdepth, stats, verbose_stats=False, prio=1):

        self.maxdepth = maxdepth

        self.stats = stats

        self.verbose_stats = verbose_stats

        self.prio = prio

    @classmethod

    def from_crawler(cls, crawler):

        settings = crawler.settings

        maxdepth = settings.getint('DEPTH_LIMIT')

        verbose = settings.getbool('DEPTH_STATS_VERBOSE')

        prio = settings.getint('DEPTH_PRIORITY')

        return cls(maxdepth, crawler.stats, verbose, prio)

    def process_spider_output(self, response, result, spider):

        def _filter(request):

            if isinstance(request, Request):

                depth = response.meta['depth'] + 1

                request.meta['depth'] = depth

                if self.prio:

                    request.priority -= depth * self.prio

                if self.maxdepth and depth > self.maxdepth:

                    logger.debug(

                        "Ignoring link (depth > %(maxdepth)d): %(requrl)s ",

                        {'maxdepth': self.maxdepth, 'requrl': request.url},

                        extra={'spider': spider}

                    )

                    return False

                else:

                    if self.verbose_stats:

                        self.stats.inc_value('request_depth_count/%s' % depth,

                                             spider=spider)

                    self.stats.max_value('request_depth_max', depth,

                                         spider=spider)

            return True

        # base case (depth=0)

        if 'depth' not in response.meta:

            response.meta['depth'] = 0

            if self.verbose_stats:

                self.stats.inc_value('request_depth_count/0', spider=spider)

        return (r for r in result or () if _filter(r))

配置

DEPTH_LIMIT = 2 深度限制 
开启后 有输出 request_depth_0 1 2 3 4 分别收集了多少个

DEPTH_STATS_VERBOSE = True 深度状态收集

DEPTH_PRIORITY = 5  int 涉及到广度优先还是深度优先
深度优先会先爬取2 3 4 深度的
广度优先会先爬取完1的 再爬取2 
正数广度优先 优先级越高 越先请求，因为

request.priority -= depth * self.prio 所以 设置为正数的时候，每次优先级减少，越往后面再请求 就变成先请求前面所有的再请求后面的，广度了

负数 深度优先

scrapy 爬虫中间件 deepth深度的更多相关文章

scrapy 爬虫中间件-offsite和refer中间件
环境使用anaconda 创建的pyithon3.6环境 mac下 source activate python36 mac@macdeMacBook-Pro:~$ source activate p ...
scrapy 爬虫中间件 httperror中间件
源码 class HttpErrorMiddleware(object): @classmethod def from_crawler(cls, crawler): return cls(crawle ...
scrapy爬虫中间件-urlLength
浏览器里面能输入的最大url是有限制的 safari 最多一万多 ie最少 2083 urllength中间件源码谷歌和火狐正常八千多 """ Url Lengt ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
scrapy 基础组件专题（三）：爬虫中间件
一.爬虫中间件简介图 1-1 图 1-2 开始这一张之前需要先梳理一下这张图, 需要明白下载器中间件和爬虫中间件所在的位置下载器中间件是在引擎(ENGINE)将请求推送给下载器(DOWNLOADE ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
scrapy爬虫框架setting模块解析
平时写爬虫的时候并不需要设置setting里所有的参数,今天心血来潮,花了点时间查了一下setting模块创建后自动写入的所有参数的含义,记录一下. 模块相关说明信息 # -*- coding: ut ...
Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
scrapy爬虫框架介绍
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...

随机推荐

(转) centos7 RPM包之rpm命令
原文:https://blog.csdn.net/capecape/article/details/78529159 RPM包与源码包的区别1.软件包分类源码包:C源代码包 rpm包:编译之后的二进 ...
NLP基本模型
textcnn: 加载预训练词典:https://blog.csdn.net/nlpuser/article/details/83627709 构建textcnn网络:https://blog.csd ...
wms证书异常问题
目前我司已定位到两个原因,详细如下, 1. 快速生成的证书存在问题,导致APACHE和NGINX显示的时间都是4号凌晨 2. 贵司在配置完成162和163两台应用的APACHE证书,以及其中10. ...
docker 安装jenkins 发布 asp.net core 2.0
安装Docker 其实安装Docker的过程,大家可以到Docker官网找到自己相对应的安装文档进行安装,Docker区分CE和EE的两个版本,具体这两个版本有什么区别,大家自行查阅相关资料,这里不再 ...
PHP 指定时间/时间戳+某天/某月/某年
PHP指定时间戳加上1天,1周,1月,一年其实是不需要用上什么函数的!指定时间戳本身就是数字整型,我们只需要再计算1天,1周它的秒数相加即可! 博主搜索php指定时间戳加一天一年,结果许多的文章给出来 ...
aps.net StateServer设置
1.在 system.web节点加 <sessionState mode="StateServer" stateConnectionString="tcpip=1 ...
ThinkPHP 中入口文件中的APP_DEBUG为TRUE时不报错,改为FALSE时报错
今天好不容易将一个新闻网做好了(ThinkPHP框架做的),但是,当我将入口文件中定义调试模式设为FALSE,即define('APP_DEBUG',False),然后再刷新网站的时候,就提示报错,报 ...
.NET 小程序微信用户支付
微信支付有两种模式:微信用户主动发起的支付.签约委托支付协议后自动支付. 自动支付又分为两种:首次支付时签约.纯签约. 首次支付时签约和纯签约在后续周期若需要发起自动扣款时,需要在应用服务中发起申请扣 ...
关于C#编写x86与x64程序的分析
电脑硬件CPU可以分为x86与x64, x86的机器只能安装32位的操作系统,如XP, WIN7_86, x64的机器既可以安装32位的系统,又可以安装64位的系统,只是在x64的机器上安装32位的系 ...
django数据库配置，即数据库分库分表
一 Django的数据库配置 (一)修改settings.py文件关于数据库的配置: Django默认使用sqlite: DATABASES = { 'default': { 'ENGINE': ...

scrapy 爬虫中间件 deepth深度

scrapy 爬虫中间件 deepth深度的更多相关文章

随机推荐

热门专题