scrapy item处理----cooperator和parallel()函数

twisted的task之cooperator和scrapy的parallel()函数

本文是关于下载结果返回后调用item处理的过程实现研究。

从scrapy的结果处理说起

def handle_spider_output(self, result, request, response, spider):
    if not result:
        return defer_succeed(None)
    it = iter_errback(result,
self.handle_spider_error, request, response, spider)
    dfd = parallel(it,
self.concurrent_items,

self._process_spidermw_output, request, response, spider)
    return dfd

result是deferred的返回结果，它是一个生成器，实质是spider中parse方法的返回。

iter_errback是一个包装，用于迭代异常时调用错误处理函数

def iter_errback(iterable, errback, *a, **kw):
    """Wraps
an iterable calling an errback if an error is caught while
    iterating it.
    """
    it = iter(iterable)
    while True:
        try:
            yield next(it)
        except StopIteration:
            break
        except:
            errback(failure.Failure(),
*a, **kw)

回到handle_spider_output，看一下parallel

# scrapy/utils/defer.py

def parallel(iterable, count, callable, *args,
**named):
"""Execute
a callable over the objects in the given iterable, in parallel,
using no more than ``count``
concurrent calls.

Taken from:
http://jcalderone.livejournal.com/24285.html
    """
    coop =
task.Cooperator()
    work = (callable(elem, *args,
**named) for elem in iterable)
    return defer.DeferredList([coop.coiterate(work)
for _ in range(count)])

它不是很好理解，

关于cooperator()功能见其它文档

要理解的有以下几点：

coop.coiterate(work)返回的是一个deferred，如果给定的迭代器执行完成或异常，会触发这个deferred的回调；
再给这些返回的deferred加上一个包装deferredlist，意为当它们的回调都被触发后会触发deferredlist的回调；
对于deferredlist的中多个对象来说，它们意味着cooperator对象中的_task列表有多个worker，而这些worker所指向的迭代器是一致的，即传入的work，所以不存在混乱问题，但work中的每次迭代具体由哪个worker执行及执行顺序是无法保证的，所以work迭代出的执行片段应该具有原子性。

就执行结果而言，count实质上是爬虫的item并发数量限制，_process_spidermw_output实质上是调用itemmanager的process_item，也就是依次调用所有pipeline的process_item处理result迭代出的内容。

scrapy item处理----cooperator和parallel()函数的更多相关文章

第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
第十篇 scrapy item loader机制
在我们执行scrapy爬取字段中,会有大量的和下面的代码,当要爬取的网站多了,要维护起来很麻烦,为解决这类问题,我们可以根据scrapy提供的loader机制 def parse_detail(sel ...
python的scrapy框架的使用和xpath的使用 && scrapy中request和response的函数参数 && parse()函数运行机制
这篇博客主要是讲一下scrapy框架的使用,对于糗事百科爬取数据并未去专门处理最后爬取的数据保存为json格式一.先说一下pyharm怎么去看一些函数在源码中的代码实现按着ctrl然后点击函数就 ...
scrapy item
item item定义了爬取的数据的model item的使用类似于dict 定义在items.py中,继承scrapy.Item类,字段类型scrapy.Field() 实例化:(假设定义了一个名 ...
[scrapy]Item Loders
Items Items就是结构化数据的模块,相当于字典,比如定义一个{"title":"","author":""},i ...
scrapy item pipeline
item pipeline process_item(self, item, spider) #这个是所有pipeline都必须要有的方法在这个方法下再继续编辑具体怎么处理另可以添加别的方法 ope ...
使用sqlalchemy用orm方式写pipeline将scrapy item快速存入 MySQL
传统的使用scrapy爬下来的数据存入mysql,用的是在pipeline里用pymysql存入数据库, 这种方法需要写sql语句,如果item字段数量非常多的情况下,编写起来会造成很大的麻烦. 我 ...
Item 17: 理解特殊成员函数的生成规则
本文翻译自modern effective C++,由于水平有限,故无法保证翻译完全正确,欢迎指出错误.谢谢! 博客已经迁移到这里啦 C++的官方说法中,特殊成员函数是C++愿意去主动生成的.C++9 ...

随机推荐

生产环境实践：Cana实现MySQL到ES实时同步
注:由于文章篇幅有限,完整文档可扫下面二维码免费获取,更有深受好评的大数据实战精英+架构师好课等着你. 速点链接加入高手战队:http://www.dajiangtai.com/course/112. ...
python自动化测试之生成BeautifulReport可视化测试报告
用python写自动化测试时,unittest框架与BeautifulReport结合能够生成完美的可视化测试报告 [第一步]:准备好BeautifulReport,git地址: https://gi ...
为什么需要激活函数为什么需要归一化 python内置函数：enumerate用法总结
为什么需要激活函数为什么需要归一化 python内置函数:enumerate用法总结待办激活函数的用途(为什么需要激活函数)? 如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情 ...
调用 url_launcher 模块打开外部浏览器打开外部应用拨打电话发送短信
1.Flutter url_launcher 模块 Flutter url_launcher 模块可以让我们实现打开外部浏览器.打开外部应用.发送短信.拨打电话等功能. https://p ...
sqlserver数据库导入大批量数据
参考: https://www.cnblogs.com/zhangliangzlee/p/3585862.html
Go_MySQL查询插入删除
什么是预处理? 普通SQL语句执行过程: 客户端对SQL语句进行占位符替换得到完整的SQL语句. 客户端发送完整SQL语句到MySQL服务端 MySQL服务端执行完整的SQL语句并将结果返回给客户端. ...
Linux jpeglib库的安装
tar -zxvf jpegsrc.v9.tar.gz cd jpeg9 ./configure --enable-shared --enable-static 分别对动态链接库和静态链接库的支持 ...
数据存储 csv
# # 保存csv格式的数据import csv csvFile = open('test.csv','w+',newline='') #文本方式可读写 try: writer = csv.write ...
STL关联容器总结
有序的都不带unordered,即如下: set multiset map multimap 其中带multi的表示关键字可以重复无序的带unordered,如下: unordered_map un ...
同步块:synchronized(同步监视器对象){同步运行代码片段}
package seday10; import seday03.Test2; /** * @author xingsir * 同步块:synchronized(同步监视器对象){需要同步运行的代码片段 ...

scrapy item处理----cooperator和parallel()函数

scrapy item处理----cooperator和parallel()函数的更多相关文章

随机推荐

热门专题