爬虫：Scrapy12 - Stats Collection

sufei 2024-10-26 17:06:46 原文

Scrapy 提供了方便的收集数据的机制。数据以 key/value 方式存储，值大多是计数值。该机制叫做数据收集器（Stats Collector），可以通过 Crawler API 的属性 stats来使用。

无论数据收集（stats collection）开启或者关闭，数据收集器永远都是可用的。因此可以 import 进自己的模块并使用其 API（增加值或者设置新的状态键（stats keys））。该做法是为了简化数据收集的方法：不应该使用超过一行代码来收集你的 spider，Scrapy 扩展或者任何你使用数据收集器代码里头的状态。

数据收集器的另一个特性是（在启用状态下）很高效，（在关闭情况下）非常高效（几乎察觉不到）。

数据收集器对每个 spider 保持一个状态。当 spider 启动时，该表自动打开，当 spider 关闭时，自动关闭。

常见数据收集器使用方法：

通过 stats 属性来使用数据收集器。下面是在扩展中使用的例子：

class ExtensionThatAccessStats(object):

    def __init__(self, stats):

        self.stats = stats

    @classmethod

    def from_crawler(cls, crawler):

        return cls(crawler.stats)

#设置数据:

stats.set_value('hostname', socket.gethostname())

#增加数据值:

stats.inc_value('pages_crawled')

#当新的值比原来的值大时设置数据:

stats.max_value('max_items_scraped', value)

#当新的值比原来的值小时设置数据:

stats.min_value('min_free_memory_percent', value)

#获取数据:

>>> stats.get_value('pages_crawled')

8

#获取所有数据:

>>> stats.get_stats()

{'pages_crawled': 1238, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}

可用的数据收集器

除了基本的 StatsCollector ，Scrapy 也提供了基于 StatsCollector 的数据收集器。您可以通过 STATS_CLASS 设置来选择。默认使用的是 MemoryStatsCollector 。

MemoryStatsCollector

class scrapy.statscol.MemoryStatsCollector

一个简单的数据收集器。其在 spider 运行完毕后将其数据保存在内存中。数据可以通过 spider_stats 属性访问。该属性是一个以 spider 名字为键(key)的字典。

这是 Scrapy 的默认选择。

spider_stats

保存了每个 spider 最近一次爬取的状态的字典(dict)。该字典以 spider 名字为键，值也是字典。

DummyStatsCollector

class scrapy.statscol.DummyStatsCollector

该数据收集器并不做任何事情但非常高效。您可以通过设置 STATS_CLASS 启用这个收集器，来关闭数据收集，提高效率。不过，数据收集的性能负担相较于 Scrapy 其他的处理(例如分析页面)来说是非常小的。

爬虫：Scrapy12 - Stats Collection的更多相关文章

第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
scrapy反反爬虫
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
scrapy反反爬虫策略和settings配置解析
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
FAQ: Automatic Statistics Collection (文档 ID 1233203.1)
In this Document Purpose Questions and Answers What kind of statistics do the Automated tasks ...
mongodb在插入数据环节避免数据重复的方法（爬虫中的使用update）
mongo 去重 import pymongo client = pymongo.MongoClient() collection=client.t.test # collection.insert( ...
scrapy笔记集合
细读http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html 目录 Scrapy介绍安装基本命令项目结构以及爬虫应用介绍简单使用示例选 ...
Scrapy学习-22-扩展开发
开发scrapy扩展定义扩展框架提供一个机制,使得你能将自定义功能绑定到Scrapy. 扩展只是正常的类,它们在Scrapy启动时被实例化.初始化注意实际上自定义扩展和spider中间件. ...

随机推荐

[iOS]一些第三方库
BHInfiniteScrollView 地址 https://github.com/qylibohao/BHInfiniteScrollView 功能图片轮播 TZImagePickerContr ...
关于Spring配置文件提示的插件下载
1.springsource-tool-suite-update 最新各个版本下载地址第一种方式: springsource-tool-suite-3.7.3.RELEASE-e4.5.2-upda ...
select 宽度跟随option内容自适应
传统的select在没有设置固定宽度的情况,会因为自身的 option 选项的里,宽度最宽的option作为select本身的宽度例如可见效果为: select的宽度因为"宽度最宽的op ...
Ubuntu 16.04 64位安装YouCompleteMe
之前记录在OneNote上感觉有点乱,而且不适合保存shell,这次重新安装又出问题了,干脆写篇博客记录. 从零开始 1.git(用来下载vim和相关插件) sudo apt-get install ...
在UIWindow上加类似于“回到顶部”的按钮
在公司上个版本的开发中遇到了一个UI布局的小问题: 某个页面需要增加一个分享按钮,但是该页面是二级页面,导航栏右边也已经放置了2个button. 起初和老大谈论这个问题的时候想到的方法是导航栏右边加三 ...
快速认识LinkIt 7697开发板
LinkIt 7697是一款多功能且价格亲民的开发板,可用来连接网络或你的各项装置,同时提供Wi-Fi及蓝芽两种联机功能.此开发板采用MediaTek MT7697芯片,比起其他类似的Wi-Fi/蓝芽 ...
python学习之网络编程基础
引入场景:客户与银行关系银行职员负责给客户提供取钱服务,客户通过账户密码跟银行职员建立合作关系.此时银行职员就可以作为服务器,当用户A取完钱后他需要等待下一个用户的接入,用户的账号密码就是建立合作关 ...
SQL 查询某时间段的数据 datadiff 计算时间差
datediff语法格式:datediff(day,开始时间,结束时间) 一.应用举例: 上面的代码,将查询 'created_time' > '2016-09-20' 的所有记录. 如果要查 ...
cocos2d-x安装
mac 安装2.2.6为例 1.进入cocos2d-x/tools/project-creator/ 2.输入 python create_project.py -project HelloWorld ...
鼠标移动在屏幕上显示温度Tip提示功能-CToolTipCtrl类的使用
初学VC++,太多知识不懂,需要不断的查找资料,想通过记录让自己有所积累,主要是怕以后会很快忘记.最近在做一个在屏幕上显示鼠标移动位置的温度值,我利用先缓存一帧图像的温度值,然后,通过鼠标移动消息相应 ...