介绍

Scrapy框架不支持分布式，所以需要将一些关键代码进行修改使之支持分布式。scrapy-redis相当于一个插件，用来替换scrapy中的一些模块，使得scrapy支持分布式。github地址： https://github.com/darkrho/scrapy-redis

redis

redis是一个可基于内存，亦可持久化的key-value数据库，特点是速度快。

原理

在scrapy框架中加入scrapy-redis模块，目的在于将scrapy中的schedule模块替换为scrapy-redis模块。在scrapy-redis中，基于redis数据库构建request队列，所有的爬虫都可以从该redis数据库中获取request，并且所有爬虫产生的request都会送入该redis中。基于此原理实现分布式爬虫功能。

改进

在scrapy-redis中有url判重功能，减少重复爬取。但是其实现比较粗糙，所以可以自定义一个url去重功能，例如使用bloom filter算法。可以基于redis实现bloom filter算法，既实现了快速判重功能，又能节省内存。此外，可以充分利用redis数据库速度快且可持久化的特点，实现item过滤等等。

Reference

【Bloom Filter原理】

http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

http://blog.csdn.net/bone_ace/article/details/53107018

【Bloom Filter python实现】

http://blog.csdn.net/bone_ace/article/details/53107018

【scrapy-redis去重优化】

http://blog.csdn.net/bone_ace/article/details/53099042

https://github.com/LiuXingMing/Scrapy_Redis_Bloomfilter

【scrapy-redis种子优化】

http://blog.csdn.net/Bone_ACE/article/details/53306629

【利用redis实现item去重】

https://www.jianshu.com/p/f03479b9222d

https://www.jianshu.com/p/7b6c1754ee73

【yinzm的个人项目：完整的分布式爬虫】

https://github.com/yinzm/XueqiuCrawler

利用scrapy_redis实现分布式爬虫的更多相关文章

scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
第三百五十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码 scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开 ...
三十六 Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开源模块 scrapy-redis的依赖 Python 2.7, 3.4 or 3.5,Python支持版本 Redis & ...
scrapy_redis分布式爬虫
文章来源:https://github.com/rmax/scrapy-redis Scrapy-Redis Documentation: https://scrapy-redis.readthedo ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫
原理:其实就是用到redis的优点及特性,好处自己查--- 1,scrapy 分布式爬虫配置: settings.py BOT_NAME = 'first' SPIDER_MODULES = ['fi ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...
python 全栈开发，Day140(RabbitMQ,基于scrapy-redis实现分布式爬虫)
一.RabbitMQ 队列在生产者消费模型中,比如去餐馆吃饭的例子.生产者相当于厨师,队列相当于服务员,消费者就是你. 我们必须通过服务员,才能吃饭! 如果队列满了,队列会一直hold住.必须让消费 ...

随机推荐

Android应用安全之数据传输安全
Android软件通常使用WIFI网络与服务器进行通信.WiFi并非总是可靠的,例如,开放式网络或弱加密网络中,接入者可以监听网络流量:攻击者可能自己设置WIFI网络钓鱼.此外,在获得root权限后 ...
20155321 《网络攻防》 Exp8 Web基础
20155321 <网络攻防> Exp8 Web基础基础问题回答什么是表单? 表单是主要负责数据采集功能.主要是以下三个部分构成: 表单标签:包含处理表单数据所用的程序的URL以及数据 ...
cli 开发记录
最近要开发一个 cli,主要作用是方便同事生成前端项目,做了一天半,基本参考的是 vue-cli. cli 要实现的功能: 用 cnpm install zt-cli -g 全局安装,这个就要将你做的 ...
对C++多态的一点理解
作为一个C++新手,我浅谈一下我对多态的一点理解. 首先,引用几句话: 1.继承是一种抽象,它允许程序员在某些时候忽略相似对象的差异,又在其他时候利用这些差异.——<C++沉思录> 2.继 ...
SQL Server 全文搜索
SQL Server 的全文搜索(Full-Text Search)是基于分词的文本检索功能,依赖于全文索引.全文索引不同于传统的平衡树(B-Tree)索引和列存储索引,它是由数据表构成的,称作倒转索 ...
关于使用单片机读取外部电压ADC阻抗匹配的问题
单片机的基准电压一般为3.3V,如果外部信号超过了AD测量范围,可以采用电阻分压的方法,但是要注意阻抗匹配问题.比如,SMT32的模数输入阻抗约为10K,如果外接的分压电阻无法远小于该阻值,则会因为信 ...
FFMpeg笔记（六）滤镜命名规则及使用libavfilter对视频尺寸进行裁切
在ffmpeg框架中,滤镜(filter)功能通过libavfilter库实现. 一个filter可以同时有多个输入和输出.以图为例: 图中的一系列操作共使用了四个filter,分别是 spli ...
Alpha 贡献分及转会人员确定
贡献分如下: 转会人员:金东禾转到队伍:bugphobia
第二个Sprint冲刺第八天（燃尽图）
因为今天停电了,所以我们也休息一天!
读C#程序最小公倍数答案就是：2123581660200
阅读下面程序,请回答如下问题: 问题1:这个程序要找的是符合什么条件的数? 问题2:这样的数存在么?符合这一条件的最小的数是什么? 问题3:在电脑上运行这一程序,你估计多长时间才能输出第一个结果?时间 ...

利用scrapy_redis实现分布式爬虫

介绍

redis

原理

改进

Reference

利用scrapy_redis实现分布式爬虫的更多相关文章

随机推荐

热门专题