使用scrapy爬虫的时候,记录一下如何分布式爬虫问题: 关键在于多台主机协作的关键:共享爬虫队列 主机:维护爬取队列从机:负责数据抓取,数据处理,数据存储 队列如何维护:Redis队列Redis 非关系型数据库,key-value形式存储,结构灵活.是内存中的数据结构存储系统,处理速度快,性能好提供队列,集合等多种存储结构,方便队列维护 怎么去重Redis集合:Redis提供集合数据结构,在Redis集合中存储每个Request的指纹,在向Request队列中加入Request前首先验证这个R…