Scrapy 教程(八)-分布式爬虫

努力的孔子 2024-09-24 20:38:16 原文

scrapy 本身并不是一个分布式框架，而 Scrapy-redis 库使得分布式成为可能；

Scrapy-redis 并没有重构框架，而是基于redis数据库重写了框架的某些组件。

分布式框架要解决两个问题

分配爬取任务：为每个爬虫分配不重复的任务

scrapy-redis 使用 redis 数据库存储所有请求，利用 redis 数据库实现请求队列，所有爬虫从该队列中获取任务，并将新产生的请求添加到该队列中；

汇总爬取数据：将所有爬虫的数据汇总到一处

scrapy-redis 使用 RedisPipeline 将数据存储于同一个 redis 数据库中，并用 twisted 框架实现并发存储。

具体实现参考

Scrapy-redis 源码 https://github.com/rmax/scrapy-redis/tree/master/src/scrapy_redis

环境搭建

1. 多台服务器

2. 分别配置单机爬虫所需环境

3. 选择一台服务器搭建 redis 数据库

4. 测试集群能否连接 redis

具体实施

1. 创建单机项目

2. 修改配置文件

# 必选项

# =================================================================

# 指定爬虫所使用的Redis数据库（在云服务器116.29.35.201 上）

REDIS_URL = 'redis://116.29.35.201:6379'

# 使用scrapy_redis的调度器替代Scrapy 原版调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 使用scrapy_redis的RFPDupeFilter作为去重过滤器

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 启用scrapy_redis的RedisPipeline将爬取到的数据汇总到Redis数据库

ITEM_PIPELINES = {

'scrapy_redis.pipelines.RedisPipeline': 300,

}

# 可选项

# =================================================================

#爬虫停止后，保留／清理Redis中的请求队列以及去重集合

# True：保留，False：清理，默认为False

SCHEDULER_PERSIST = True

3. 修改爬虫

from scrapy_redis.spiders import RedisSpider

# 1.更改基类

# class BooksSpider(spider.Spider):

class BooksSpider(RedisSpider):

# 2.注释 start_urls

# start_urls = ['http://books.toscrape.com/']

【如何为多个爬虫设置起始爬取点】

单机爬虫的起始爬取点由 start_urls 确定，但是分布式去掉了 start_urls，然后重写了 start_requests 方法，它尝试从 redis 数据库的某个特定列表中获取起始爬取点，构造request对象，并设置 dont_filter=False，

该列表可通过配置文件设定，REDIS_START_URLS_KEY，默认为 <spider_name>:start_urls；

在分布式爬取时，运行所有爬虫后，需要手动向该列表添加起始爬取点，之后只有其中一个爬虫获取到该起始点，避免重复。

4. 分发代码到其他机器

5. 每台机器上运行爬虫

6. 爬虫处于等待状态，在任一台机器上连接redis，设置爬取起始点

 lpush books:start_urls 'http://books.toscrape.com'

其中一个爬虫获取该url，此后整个爬虫开始运转。

参考资料：

《精通scrapy网络爬虫》 pdf

Scrapy 教程(八)-分布式爬虫的更多相关文章

基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
scrapy如何实现分布式爬虫
使用scrapy爬虫的时候,记录一下如何分布式爬虫问题: 关键在于多台主机协作的关键:共享爬虫队列主机:维护爬取队列从机:负责数据抓取,数据处理,数据存储队列如何维护:Redis队列Redis 非 ...
scrapy——7 scrapy-redis分布式爬虫，用药助手实战，Boss直聘实战，阿布云代理设置
scrapy——7 什么是scrapy-redis 怎么安装scrapy-redis scrapy-redis常用配置文件 scrapy-redis键名介绍实战-利用scrapy-redis分布式爬 ...
Scrapy+redis实现分布式爬虫
概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群,然后在每一台电脑中执行同一组程序,让其对同一网络资源进行联合且分布的数据爬取. 原生Scrapy无法实现分布式的原因原生Scrapy中调度器 ...
Python爬虫教程-新浪微博分布式爬虫分享
爬虫功能: 此项目实现将单机的新浪微博爬虫重构成分布式爬虫. Master机只管任务调度,不管爬数据:Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿 ...
基于scrapy框架的分布式爬虫
分布式概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取. 原生的scrapy是无法实现分布式调度器无法被共享管道无法被共享基于 scrapy+redi ...
Scrapy分布式爬虫，分布式队列和布隆过滤器，一分钟搞定？
使用Scrapy开发一个分布式爬虫?你知道最快的方法是什么吗?一分钟真的能开发好或者修改出一个分布式爬虫吗? 话不多说,先让我们看看怎么实践,再详细聊聊细节~ 快速上手 Step 0: 首先安装 ...
Python分布式爬虫必学框架Scrapy打造搜索引擎学习教程
Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 1.创建搜索自动补全字段suggest自动补全需要用 ...
scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...

随机推荐

UFUN函数 UF_TRNS(平移变换)( uf5943 , uf5947)
//设置class_dialog选择过滤 static int init_proc(UF_UI_selection_p_t select,void* user_data) { ; //实体片体 UF ...
SpringBoot项目中，表单的验证操作
在创建Springboot项目中,我们使用了表单验证操作,这一操作将极大地简化我们编程的开发 1.接收数据,以及验证 @PostMapping("/save") public Mo ...
[luogu]P1070 道路游戏[DP]
[luogu]P1070 道路游戏题目描述小新正在玩一个简单的电脑游戏.游戏中有一条环形马路,马路上有 n 个机器人工厂,两个相邻机器人工厂之间由一小段马路连接.小新以某个机器人工厂为起点,按顺时针 ...
【bzoj3223】Tyvj 1729 文艺平衡树
题目描述: 您需要写一种数据结构(可参考题目标题),来维护一个有序数列,其中需要提供以下操作:翻转一个区间,例如原有序序列是5 4 3 2 1,翻转区间是[2,4]的话,结果是5 2 3 4 1 输入 ...
TCP大文件上传与UDP协议
一.UCP大文件上传(解决粘包问题) ①客户端 import socket, os, json, struct client = socket.socket() client.connect(('12 ...
React 项目 ant design 的 CheckboxGroup 验证
使用 ant design 提供的 getFieldDecorator 进行验证一般开始使用默认选中 <FormItem> {getFieldDecorator('checkProtoc ...
sublime text3 - vue修改data，视图无更新
ubuntu系统使用sublime text3做vue开发的时候遇到了一个问题,就是修改vue文件并保存后视图页面并不会随之修改,只有重新run dev时修改才会生效,原因没找到猜想应该是subli ...
一款新的好用的SSH工具——FinalShell，比XShell更牛逼~
FinalShell是一体化的的服务器,网络管理软件,不仅是ssh客户端,还是功能强大的开发,运维工具,充分满足开发,运维需求.特色功能:免费海外服务器远程桌面加速,ssh加速,双边tcp加速,内网穿 ...
移动端复制当前页面链接（URL）分享
注释:在移动端想做一个复制当前URL类似于分享的功能示例: <span class="share_btn"><img src="../resource ...
微信小程序视频组件
video 组件视频组件相关的api :wx.createVideoContext 支持的格式: 支持的编码格式 video 组件的属性: src:类型字符串必填要播放视频的资源地址 (支持 ...