scrapy extention实战

1.      空闲-关闭

使用扩展+spider_idle信号关闭爬虫。

启用扩展:settings.py

EXTENSIONS = {
    #'scrapy.extensions.telnet.TelnetConsole':
None,
   
'extention_my.RedisSpiderSmartIdleClosedExensions': 300,
}

额外配置参数:conf.py

MYEXT_ENABLED = True
IDLE_NUMBER = 5

扩展类:

extention_my.py

#coding:utf-8

"""
----------------------------------------
description:

author: sss

date:
----------------------------------------
change:
   
----------------------------------------

"""
__author__ = 'sss'

import time
from scrapy import signals
from scrapy.exceptions import NotConfigured

from utils.mylogger import mylogger

logger_c = mylogger(__name__)
logger_m = logger_c.logger

class RedisSpiderSmartIdleClosedExensions(object):

def __init__(self,
idle_number, crawler):
        self.crawler
= crawler
        self.idle_number
= idle_number
        self.idle_list
= []
        self.idle_count
= 0

@classmethod
    def from_crawler(cls,
crawler):
        # 首先检查是否应该启用和提高扩展
        # 否则不配置
       
from conf import MYEXT_ENABLED
        if not MYEXT_ENABLED:
            raise NotConfigured

# 获取配置中的时间片个数,默认为360个,30分钟
       
from conf import IDLE_NUMBER
as idle_number

# 实例化扩展对象
       
ext = cls(idle_number,
crawler)

# 将扩展对象连接到信号, 将signals.spider_idle 与 spider_idle() 方法关联起来。
       
crawler.signals.connect(ext.spider_opened,
signal=signals.spider_opened)
       
crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.spider_idle,
signal=signals.spider_idle)

# return the
extension object
       
return ext

def spider_opened(self,
spider):
        logger_m.info("opened
spider %s redis spider Idle, Continuous idle limit

%d"
, spider.name, self.idle_number)

def spider_closed(self,
spider):
        logger_m.info("closed
spider %s, idle count %d , Continuous idle count %d"
,
                    spider.name, self.idle_count,
len(self.idle_list))

def spider_idle(self,
spider):
        self.idle_count
+= 1  # 空闲计数
       
self.idle_list.append(time.time())  # 每次触发 spider_idle时,记录下触发时间戳
       
idle_list_len
= len(self.idle_list)  # 获取当前已经连续触发的次数
       
print(self.idle_number,
self.idle_count, self.idle_list)

# 判断 当前触发时间与上次触发时间 之间的间隔是否大于5秒,如果大于5秒,说明redis 中还有key
       
if idle_list_len
> 2 and self.idle_list[-1] - self.idle_list[-2] > 6:
            self.idle_list
= [self.idle_list[-1]]

elif idle_list_len
> self.idle_number:
            # 连续触发的次数达到配置次数后关闭爬虫
           
logger_m.info('\n continued
idle number exceed {} Times'
                        '
\n meet the
idle shutdown conditions, will close the reptile operation'
                        '
\n idle
start time: {},  close spider time: {}'
.format(self.idle_number,
                                                                                self.idle_list[0], self.idle_list[0]))
            # 执行关闭爬虫操作
           
self.crawler.engine.close_spider(spider,
'closespider_pagecount')

其它没有什么,主要是判断是否关闭条件的设计。

scrapy extention实战-空闲时关闭爬虫的更多相关文章

  1. scrapy主动触发关闭爬虫

    在spider中时在方法里直接写 self.crawler.engine.close_spider(self, 'cookie失效关闭爬虫')   在pipeline和downloaderMiddle ...

  2. Scrapy框架实战-妹子图爬虫

    Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...

  3. 执行时关闭标识位 FD_CLOEXEC 的作用

    首先先回顾 apue 中对它的描述: ① 表示描述符在通过一个 exec 时仍保持有效(书P63,3.14节 fcntl 函数,在讲 F_DUPFD 时顺便提到) ② 对打开文件的处理与每个描述符的执 ...

  4. Android退出时关闭所有Activity的方法

    Android退出时,有的Activity可能没有被关闭.为了在Android退出时关闭所有的Activity,设计了以下的类: //关闭Activity的类 public class CloseAc ...

  5. VS2015 调试中断点突然失效的解决办法、VS调试时关闭调试让浏览器继续保留页面

    VS2010 调试中断点突然失效的解决办法 问题描述:在调试前加了断点,但debug时红色的断点变成透明的圆圈加一个感叹号,执行到该处时也不会停止. 这个问题遇到过几次了,前几次都没怎么注意,有时候是 ...

  6. VC被控制时关闭极域电子教室、破解联想硬盘保护系统密码(上)

    <[原]关于VC运行时关闭极域电子教室的改进方法> 本文将讲资料和方法,具体实现和破解联想硬盘保护系统密码在(下)中,有关破解联想硬盘保护系统(删除它)的方法很简单,用硬盘保护卡克星就可以 ...

  7. jq自定义下拉菜单,当用户点击非自身元素(下拉菜单)本身时关闭下拉菜单

    jq自定义下拉菜单,当用户点击非自身元素(下拉菜单)本身时关闭下拉菜单 截图: 代码如下: //关闭用户菜单 $(document).mousedown(function(e){ var _con = ...

  8. CPU 空闲时在干嘛?

    人在空闲时会发呆会无聊,计算机呢? 假设你正在用计算机浏览网页,当网页加载完成后你开始阅读,此时你没有移动鼠标,没有敲击键盘,也没有网络通信,那么你的计算机此时在干嘛? 有的同学可能会觉得这个问题很简 ...

  9. scrapy使用response.body时编码问题

    scrapy使用response.body时编码问题 摘要:scrapy使用response.body时编码问题.如果在使用responses.body获取数据时,需要将其编码转换成unicode,即 ...

随机推荐

  1. 数星星 Stars

    问题 A: 数星星 Stars 时间限制: 1 Sec  内存限制: 128 MB[命题人:admin] 题目描述 输入 第一行一个整数 N,表示星星的数目: 接下来 N 行给出每颗星星的坐标,坐标用 ...

  2. Linux - Shell - date

    概述 date 命令 准备 OS CentOS 7.6 基本功能 显示时间 格式化时间 翻译时间 转换时间格式 切换时区 设置时间 查看文件最后使用时间 1. 显示时间 概述 基本功能 命令 # 内容 ...

  3. Ansible - playbook - 概要

    概述 简单描述 ansible playbook 1. playbook 概述 ansible 的 "脚本" 场景 ansible 单条命令, 执行一个操作 问题 如果执行多个操作 ...

  4. go基础_函数

    函数的基本写法 func add(a int, b int) int { return a + b } 如果2个参数的类型一样,可以简写为 func add(a, b int) int { retur ...

  5. VS2017新建或拷贝项目编译时出现:找不到 Windows SDK 版本8.1.请安装所需的版本的 Windows SDK

    VS2017新建或拷贝项目编译时出现:找不到 Windows SDK 版本8.1.请安装所需的版本的 Windows SDK 或者在项目属性页的问题解决方案 解决方法: 右击项目解决方案, 选择:重定 ...

  6. JS高级---实例对象使用属性和方法层层的搜索 (实例对象-->原型对象-->报错)

    实例对象使用属性和方法层层的搜索:   实例对象使用的属性或者方法, 先在实例中查找, 找到了则直接使用: 找不到则, 再去实例对象的__proto__指向的原型对象prototype中找, 找到了则 ...

  7. Plastic Sprayers Manufacturer -Plastic Spray Bottle Product Features, Nozzle Properties

    Nowadays, plastic spray bottles are widely used in the plastic packaging industry. What are the char ...

  8. PHP转换oracle数据库的date类型

    今天圣诞节啊,圣诞节快乐啊! 最近遇到一个很纠结的事,就是我在plsql里面查的是这样的,很正常, 但是我用程序查出来就是这样的,啊啊啊,真是崩溃啊 但是我传数据需要上面那种格式,而且我对oracle ...

  9. springboot @Configuration @bean注解作用

    @Configuration注解可以达到在Spring中使用xml配置文件的作用 @Bean就等同于xml配置文件中的<bean> 在spring项目中我们集成第三方的框架如shiro会在 ...

  10. Jmeter_选项_函数助手对话框_CSVRead

    1.之前有写过Jmeter_请求原件之参数化CSV 2.这次是使用函数助手 CSVRead去进行处理 3.作用注册10个账户 4.线程组设置,10个线程进行,因为是注册10个账户,如果线程设置为1,循 ...