scrapy extention实战-空闲时关闭爬虫
scrapy extention实战
1. 空闲-关闭
使用扩展+spider_idle信号关闭爬虫。
启用扩展:settings.py
EXTENSIONS = {
#'scrapy.extensions.telnet.TelnetConsole':
None,
'extention_my.RedisSpiderSmartIdleClosedExensions': 300,
}
额外配置参数:conf.py
MYEXT_ENABLED = True
IDLE_NUMBER = 5
扩展类:
extention_my.py
#coding:utf-8
"""
----------------------------------------
description:
author: sss
date:
----------------------------------------
change:
----------------------------------------
"""
__author__ = 'sss'
import time
from scrapy import signals
from scrapy.exceptions import NotConfigured
from utils.mylogger import mylogger
logger_c = mylogger(__name__)
logger_m = logger_c.logger
class RedisSpiderSmartIdleClosedExensions(object):
def __init__(self,
idle_number, crawler):
self.crawler
= crawler
self.idle_number
= idle_number
self.idle_list
= []
self.idle_count
= 0
@classmethod
def from_crawler(cls,
crawler):
# 首先检查是否应该启用和提高扩展
# 否则不配置
from conf import MYEXT_ENABLED
if not MYEXT_ENABLED:
raise NotConfigured
# 获取配置中的时间片个数,默认为360个,30分钟
from conf import IDLE_NUMBER
as idle_number
# 实例化扩展对象
ext = cls(idle_number,
crawler)
# 将扩展对象连接到信号, 将signals.spider_idle 与 spider_idle() 方法关联起来。
crawler.signals.connect(ext.spider_opened,
signal=signals.spider_opened)
crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
crawler.signals.connect(ext.spider_idle,
signal=signals.spider_idle)
# return the
extension object
return ext
def spider_opened(self,
spider):
logger_m.info("opened
spider %s redis spider Idle, Continuous idle limit:
%d", spider.name, self.idle_number)
def spider_closed(self,
spider):
logger_m.info("closed
spider %s, idle count %d , Continuous idle count %d",
spider.name, self.idle_count,
len(self.idle_list))
def spider_idle(self,
spider):
self.idle_count
+= 1 # 空闲计数
self.idle_list.append(time.time()) # 每次触发 spider_idle时,记录下触发时间戳
idle_list_len
= len(self.idle_list) # 获取当前已经连续触发的次数
print(self.idle_number,
self.idle_count, self.idle_list)
# 判断 当前触发时间与上次触发时间 之间的间隔是否大于5秒,如果大于5秒,说明redis 中还有key
if idle_list_len
> 2 and self.idle_list[-1] - self.idle_list[-2] > 6:
self.idle_list
= [self.idle_list[-1]]
elif idle_list_len
> self.idle_number:
# 连续触发的次数达到配置次数后关闭爬虫
logger_m.info('\n continued
idle number exceed {} Times'
'\n meet the
idle shutdown conditions, will close the reptile operation'
'\n idle
start time: {}, close spider time: {}'.format(self.idle_number,
self.idle_list[0], self.idle_list[0]))
# 执行关闭爬虫操作
self.crawler.engine.close_spider(spider,
'closespider_pagecount')
其它没有什么,主要是判断是否关闭条件的设计。
scrapy extention实战-空闲时关闭爬虫的更多相关文章
- scrapy主动触发关闭爬虫
在spider中时在方法里直接写 self.crawler.engine.close_spider(self, 'cookie失效关闭爬虫') 在pipeline和downloaderMiddle ...
- Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...
- 执行时关闭标识位 FD_CLOEXEC 的作用
首先先回顾 apue 中对它的描述: ① 表示描述符在通过一个 exec 时仍保持有效(书P63,3.14节 fcntl 函数,在讲 F_DUPFD 时顺便提到) ② 对打开文件的处理与每个描述符的执 ...
- Android退出时关闭所有Activity的方法
Android退出时,有的Activity可能没有被关闭.为了在Android退出时关闭所有的Activity,设计了以下的类: //关闭Activity的类 public class CloseAc ...
- VS2015 调试中断点突然失效的解决办法、VS调试时关闭调试让浏览器继续保留页面
VS2010 调试中断点突然失效的解决办法 问题描述:在调试前加了断点,但debug时红色的断点变成透明的圆圈加一个感叹号,执行到该处时也不会停止. 这个问题遇到过几次了,前几次都没怎么注意,有时候是 ...
- VC被控制时关闭极域电子教室、破解联想硬盘保护系统密码(上)
<[原]关于VC运行时关闭极域电子教室的改进方法> 本文将讲资料和方法,具体实现和破解联想硬盘保护系统密码在(下)中,有关破解联想硬盘保护系统(删除它)的方法很简单,用硬盘保护卡克星就可以 ...
- jq自定义下拉菜单,当用户点击非自身元素(下拉菜单)本身时关闭下拉菜单
jq自定义下拉菜单,当用户点击非自身元素(下拉菜单)本身时关闭下拉菜单 截图: 代码如下: //关闭用户菜单 $(document).mousedown(function(e){ var _con = ...
- CPU 空闲时在干嘛?
人在空闲时会发呆会无聊,计算机呢? 假设你正在用计算机浏览网页,当网页加载完成后你开始阅读,此时你没有移动鼠标,没有敲击键盘,也没有网络通信,那么你的计算机此时在干嘛? 有的同学可能会觉得这个问题很简 ...
- scrapy使用response.body时编码问题
scrapy使用response.body时编码问题 摘要:scrapy使用response.body时编码问题.如果在使用responses.body获取数据时,需要将其编码转换成unicode,即 ...
随机推荐
- 数星星 Stars
问题 A: 数星星 Stars 时间限制: 1 Sec 内存限制: 128 MB[命题人:admin] 题目描述 输入 第一行一个整数 N,表示星星的数目: 接下来 N 行给出每颗星星的坐标,坐标用 ...
- Linux - Shell - date
概述 date 命令 准备 OS CentOS 7.6 基本功能 显示时间 格式化时间 翻译时间 转换时间格式 切换时区 设置时间 查看文件最后使用时间 1. 显示时间 概述 基本功能 命令 # 内容 ...
- Ansible - playbook - 概要
概述 简单描述 ansible playbook 1. playbook 概述 ansible 的 "脚本" 场景 ansible 单条命令, 执行一个操作 问题 如果执行多个操作 ...
- go基础_函数
函数的基本写法 func add(a int, b int) int { return a + b } 如果2个参数的类型一样,可以简写为 func add(a, b int) int { retur ...
- VS2017新建或拷贝项目编译时出现:找不到 Windows SDK 版本8.1.请安装所需的版本的 Windows SDK
VS2017新建或拷贝项目编译时出现:找不到 Windows SDK 版本8.1.请安装所需的版本的 Windows SDK 或者在项目属性页的问题解决方案 解决方法: 右击项目解决方案, 选择:重定 ...
- JS高级---实例对象使用属性和方法层层的搜索 (实例对象-->原型对象-->报错)
实例对象使用属性和方法层层的搜索: 实例对象使用的属性或者方法, 先在实例中查找, 找到了则直接使用: 找不到则, 再去实例对象的__proto__指向的原型对象prototype中找, 找到了则 ...
- Plastic Sprayers Manufacturer -Plastic Spray Bottle Product Features, Nozzle Properties
Nowadays, plastic spray bottles are widely used in the plastic packaging industry. What are the char ...
- PHP转换oracle数据库的date类型
今天圣诞节啊,圣诞节快乐啊! 最近遇到一个很纠结的事,就是我在plsql里面查的是这样的,很正常, 但是我用程序查出来就是这样的,啊啊啊,真是崩溃啊 但是我传数据需要上面那种格式,而且我对oracle ...
- springboot @Configuration @bean注解作用
@Configuration注解可以达到在Spring中使用xml配置文件的作用 @Bean就等同于xml配置文件中的<bean> 在spring项目中我们集成第三方的框架如shiro会在 ...
- Jmeter_选项_函数助手对话框_CSVRead
1.之前有写过Jmeter_请求原件之参数化CSV 2.这次是使用函数助手 CSVRead去进行处理 3.作用注册10个账户 4.线程组设置,10个线程进行,因为是注册10个账户,如果线程设置为1,循 ...