python3编写网络爬虫23-分布式爬虫

一、分布式爬虫

前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长
这就是分布式爬虫的优势

1. 分布式爬虫基本原理

1.1 分布式爬虫架构

Scrapy 单机爬虫中有一个本地爬取队列Queue 这个队列是利用 deque 模块实现的如果新的 Request 生成就会放在队列里面随后 Request被
Scheduler调度之后 Request 交给 Downloader 执行爬取简单的调度架构如图单主机爬虫架构

如果两个 Scheduler同时从队列中取 Request 每个 Scheduler 都有其对应的 Downloader 那么在带宽足够正常爬取且不考虑队列存取压力
的情况下爬取效率会翻倍

这样 Scheduler 可以拓展多个 Downloader 也可以多拓展几个而爬取队列Queue 必须始终为一也就是所谓的共享爬取队列这样才能保证
Scheduler 从队列里调度某个 Request 之后其他 Scheduler 不会重复调度此 Request 就可以多个 Scheduler 同步爬取这就是分布式爬虫的雏形
简单的调度架构如图分布式爬虫架构

需要多台主机同时运行爬虫任务协同爬取而协同爬取的前提就是共享爬取队列这样各台主机就不要各自维护爬取队列而从共享爬取队列存取
Request 但是各台主机还是与各自的 Scheduler 和 Downloader 所以调度和下载功能分别完成不考虑队列存取性能消耗爬取效率还是会成倍提高
如图主机与从机

1.2 维护爬取队列

队列用什么维护首先考虑的就是性能问题基于内存存储的Redis 支持多种数据结构例如列表集合有序集合等存取操作也相对简单

redis 支持的这几种数据结构存储各有优点

列表有 lpush() lpop() rpush() rpop() 方法我们可以用它来实现先进先出式爬取队列也可以实现先进后出栈式爬取队列

集合元素是无序不重复的可以非常方便的实现随机排序且不重复的爬取队列

有序集合带有分数标识而 Scrapy 的 Request 也有优先级的控制可以用它来实现带优先级的调度队列

需要根据具体爬虫的需求灵活选择不同队列

1.3 如何去重

scrapy 有自动去重使用了python中的集合集合记录了 Scrapy中每个 Request的指纹
其内部使用的是hashlib 的 sha1 方法计算的字段包括 Request 的 method URL Body Headers
这里面只要有一点不同那么计算的结果就不同计算得到的结果是加密后的字符串也就是指纹
每个Request 都有独有的指纹指纹就是一个字符串判断字符串是否重复比判断 Request 对象是否重复容易的多

scrapy中实现

def __init__(self):

    self.fingerprints = set()

def request_seen(self,request):

    fp = self.request_fingerprints(request)

    if fp in self.fingerprints:

        return True

    self.fingerprints.add(fp)

对于分布式爬虫肯定不能利用每个爬虫各自的集合来去重这样做还是每个主机单独维护自己的集合不能做到共享多台主机
如果生成了相同的request 只能各自去重各个主机之间就无法做到去重

redis集合

redis提供集合数据结构在redis集合中存储每个 Request的指纹

在向 Request 队列中加入 Request 前首先验证这个 Request的指纹是否已经加入集合中
如果已存在则不添加 Request到队列如果不存在则将 Request 添加入队列并将指纹加入集合
利用同样的原理不同的存储结构实现了分布式 Request的去重

1.4 防止中断

在 scrapy中爬虫运行时的Request队列放在内存中爬虫运行中断后这个队列空间就被释放了队列就被销毁了所以爬虫一旦运行中断
爬虫再次运行就相当于全新的爬取过程

要做到中断后继续爬取可以将队列保存起来下次爬取直接读取保存数据即可获取上次爬取队列在scrapy中指定爬取队列存储路径即可
路径使用JOB_DIR变量标识可以使用命令实现

scrapy crawl spider -s JOB_DIR=crawlS/spider

详细设置参考官方文档 https://doc.scrapy.org/en/latest/topics/jobs.html

在 scrapy 实际把爬取队列保存到本地第二次爬取直接读取并恢复队列分布式中爬取队列本身就是数据库保存如果中断了
数据库中request依然存在下次启动就会接着上次中断的地方继续爬取

1.5 架构实现

实现这个架构首先要实现共享的爬取队列还要实现去重重写 Scheduler 可以从共享爬取队列存储 Request

Scrapy-Redis 提供了分布式的队列调度器去重等功能 GitHub地址

https://github.com/rmax/scrapy-redis

2. Scrapy-Redis 源码解析

首先下载源代码

核心源码在

scrapy-redis/src/scrapy_redis

2.1 爬取队列

源码文件为 queue.py

父类Base 中 _encode_request 和 _decode_request 分别可以实现序列化和反序列化
原因把Request对象存储到数据库中数据库无法直接存储对象需要先将 Request 序列化转成字符串

父类中__len__ push pop 都是未实现的直接使用会报异常
源码中有三个子类实现

FifoQueue 类继承父类重写三个方法都是对server 对象的操作此爬取队列使用了Redis的列表序列化后的 Request存入列表中
push调用 lpush 从列表左侧存储数据 pop调用rpop 操作从列表右侧取出数据
Request 在列表中存取顺序是左侧进右侧出是有序的进出先进先出

LifoQueue 类与 FifoQueue相反使用lpop操作左侧出 push 依然使用lpush 左侧入先进后出后进先出存取方式类似栈

PriorityQueue 类优先级队列存储结果是有序集合

2.2 去重过滤

源码文件 dupefilter.py

使用的是redis中的集合数据结构

request_seen 和 scrapy中 request_seen 方法类似使用的是数据库存储方式

鉴别重复方式还是使用指纹依靠request_fingerprint 方法获取直接向集合添加指纹添加成功返回1 表示指纹不存在集合中
代码中最后返回结果判定添加结果是否为0 如果返回1 判定false 不重复否则判定重复

2.4 调度器

源码文件 scheduler.py

核心方法存取方法
enqueue_request向队列中添加 Request 调用 Queue 的push 操作还有统计和日志操作

next_request 从队列取出 Request 调用 Queue 的pop操作此队里中如果还有 Request 则直接取出爬取继续如果为空爬取重新开始

总结

1.爬取队列的实现提供三种队列使用redis的列表或者集合来维护

2.去重的实现使用redis集合来保存 Request 的指纹提供重复过滤

3.中断就重新爬取的实现中断后 reids的队列没有清空爬取再次启动调度器 next_request 会从队列中取到下一个 Request 爬取继续

以上就是 scrapy-redis中的源码解析 Scrapy-Redis还提供了 Spider Item Pipline 的实现不过它们并不是必须使用

3.分布式爬虫实现

利用 Scrapy-Redis 实现分布式对接

需要安装 Scrapy-Redis pip install scrapy-redis

验证 import scrapy_redis 无报错表示安装成功

3.1 搭建 Redis服务器

要实现分布式部署多台主机需要共享爬取队列和去重集合而在两部分内容都是存于 Redis数据库中的需要搭建一个公网访问的 Redis服务器

推荐使用Linux服务器可以购买阿里云腾讯云等提供的云主机一般都会配有公网IP

需要记录redis 的运行 IP 端口地址

3.2 配置 Scrapy-Redis

修改 settings 配置文件

将调度器的类和去重类替换为 Scrapy-Redis 提供的类

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

配置redis连接信息

REDIS_URL = 'redis://password@host:port'

配置调度队列 (可选)

默认使用 PriorityQueue 可在 settings中修改

SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

配置持久化（可选）

默认false 会在爬取完成后清空爬取队列和去重指纹集合

SCHEDULER_PERSIST = True (不清空)

在强制中断爬虫运行时不会自动清空

配置重爬（可选）

默认false

SCHEDULER_FLUSH_ON_START = True #每次爬取后清空队列和指纹

单机爬虫比较方便分布式不常用

Pipline配置（可选）

默认不启动 scrapy-redis 实现一个存储到 Redis 的 item pipeline 如果启用爬虫会把生成的item 存储到 redis数据库中
数据量比较大的情况下一般不这么做因为redis是基于内存的利用它是处理速度快的特性存储就太浪费了

ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipline:300',}

配置存储目标

可以在服务器搭建一个MongoDB 服务存储目标放在同一个MongoDB中

配置修改

MONGO_URL = 'mongodb://user:password@host:port'

3.3 运行
将爬虫代码部署到各台主机即可启动爬取

每台主机启动爬虫后就会配置redis数据库中调度request 做到爬取队列共享和指纹集合共享同时每台主机占用各自的带宽和处理器
不会互相影响。

拓展
scrapy-redis 的去重机制是占用内存的指纹存储到redis集合中每个指纹长度40 每一位都是16进制
每个十六进制占用4b 一个指纹占用空间20B 一亿个占用2GB 爬取数量达到上亿级别时 redis占用的内存就会变的很大仅仅只是指纹存储
还有队列存储的占用如果多个Scrapy项目同时爬取内存开销就是问题

了解 Bloom Filter 中文名布隆过滤器检测元素是否在集合中空间利用效率非常高大大节省存储空间

使用位数组表示带检测集合快速用概率算法判断一个元素是否在集合中达到去重效果

初始状态下声明一个包含m位的为数组所有位都是0
有一个待检测集合表示为 S=｛X1,X2,...Xn｝需要检测X是否已经存在集合S中在 Bloom Filter 算法中首先使用K个相互独立随机的散列函数
将集合S中的每个元素 X1,X2,...Xn 映射到长度为M的位数组上散列函数得到结果记作位置索引然后将位数组该位置索引的位置1

例如取K为3 表示三个散列函数 X1经过三个散列函数映射得到结果分别为 1，4，8， X2经过三个散列函数映射得到结果分别为 4，6，10
位数组的 1，4，6，8，10 五位就会置1

如果有新的元素X 判断X是否在S集合仍然用K个散列函数求X映射结果
如果所有结果对应的位数组位置均为1 那么X属于S集合如果有一个不为1 则X不属于S集合

M,n,K 满足关系 M>nK 位数组的长度M要比集合元素n和散列函数K的乘积还要大
判断的方法很高效可以解决Redis内存不足的问题

二、分布式爬虫的部署

将scrapy项目放到各个主机运行时可能采用文件上传或者GIT同步的方式都需要各台主机都进行操作如果有100台 1000台工作量无法预计

1. scrapyd分布式部署

是一个运行Scrapy爬虫的服务程序提供了一系列HTTP接口帮助部署启动停止删除爬虫程序支持版本管理同时可以管理多个爬虫任务
使用时需要调用接口官方文档 https://scrapyd.readthedocs.io

daemonstatus.json 查看scrapyd服务和状态

addversion.json 部署 scrapy项目 打包Egg文件 传入项目名和版本

schedule.json 负责调度 scrapy项目运行

cancel.json 取消某个爬虫任务

listprojects.json 列出部署的项目描述

listversions.json 获取某个项目的所有版本

listspiders.json 获取某个项目的最新版本

listjobs.json 获取某个项目运行的所有任务详情

delversion.json 删除某个项目版本

delproject.json 删除某个项目

1.2版本后不会自动生成配置文件需要手动添加文件名scrapy.conf
内容配置参考https://scrapyd.readthedocs.io/en/stable/config.html

2. scrapyd API的使用

对scrapyd的封装官方文档 http://python-scrapyd-api.readthedocs.io

3. Scrapy-Client的使用

使用说明 https://github.com/scrapy/scrapyd-client#scrapyd-deploy

4. 云主机部署

很多服务商都提供云主机服务例如阿里云腾讯云 Azure Amazon 等不同服务商提供了不同的批量部署云主机的方式。

python3编写网络爬虫23-分布式爬虫的更多相关文章

Java 多线程爬虫及分布式爬虫架构探索
这是 Java 爬虫系列博文的第五篇,在上一篇 Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是 IP 被封及其对应办法.前面几篇文章我们把 ...
Java 多线程爬虫及分布式爬虫架构
这是 Java 爬虫系列博文的第五篇,在上一篇 Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是 IP 被封及其对应办法.前面几篇文章我们把 ...
python3编写网络爬虫20-pyspider框架的使用
二.pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址 : https://github.com/binux/pyspider 官方文档 ...
python3编写网络爬虫21-scrapy框架的使用
一.scrapy框架的使用前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限对于一些反爬虫程度非常强的网站爬取显得力不从 ...
python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
Python3编写网络爬虫12-数据存储方式五-非关系型数据库存储
非关系型数据库存储 NoSQL 全称 Not Only SQL 意为非SQL 泛指非关系型数据库.基于键值对不需要经过SQL层解析数据之间没有耦合性性能非常高. 非关系型数据库可细分如下: 键值 ...
python3编写网络爬虫19-app爬取
一.app爬取前面都是介绍爬取Web网页的内容,随着移动互联网的发展,越来越多的企业并没有提供Web页面端的服务,而是直接开发了App,更多信息都是通过App展示的 App爬取相比Web端更加容易 ...
Python3编写网络爬虫11-数据存储方式四-关系型数据库存储
关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表保存的,所以它的存储方式就是行列组成的表.每一列是一个字段,每一行是一条记录.表可以看作某个实体的集合,而实体之间存在联系, ...
python3编写网络爬虫22-爬取知乎用户信息
思路选定起始人选一个关注数或者粉丝数多的大V作为爬虫起始点获取粉丝和关注列表通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息获取列表每个用户的详细信息获取每个用户的粉丝和关注 ...

随机推荐

Android Studio 活动启动模式
启动模式一共分4种可以再配置文件中设置 <activity android:name=".MainActivity" android:launchMode="si ...
Android开发过程中的坑及解决方法收录（一）
之前使用了Android Studio的插件直接为button绑定了监听器,并实现onClick方法(我的onClick方法无论点击哪一个都是要实现setcontentview这个方法设置layout ...
TCP连接与释放
TCP连接的建立三次握手 TCP服务器进程先创建传输控制块TCB,时刻准备接受客户进程的连接请求,此时服务器就进入了LISTEN(监听)状态. TCP客户进程也是先创建传输控制块TCB,然后向服务器 ...
1; XHTML 基本知识
万维网是我们这个时代最重要的信息传播手段.几乎任何人都可以创建自己的网站,然后把它发布在因特网上.一些网页属于企业,提供销售服务:另一些网页属于个人,用来分享信息.你可以自己决定网页的内容和风格.所有 ...
JavaScript中判断整字类型最简洁的实现方法
这篇文章主要介绍了JavaScript中判断整字类型最简洁的实现方法,本文给出多个判断整数的方法,最后总结出一个最短.最简洁的实现方法,需要的朋友可以参考下我们知道JavaScript提供了type ...
HTML5效果：Canvas 实现圆形进度条并显示数字百分比
实现效果 1.首先创建html代码 <canvas id="canvas" width="500" height="500" styl ...
ThreadLocal 类的源码解析以及使用原理
1.原理图说明首先看这一张图,我们可以看出,每一个Thread类中都存在一个属性 ThreadLocalMap 成员,该成员是一个map数据结构,map中是一个Entry的数组,存在entry实体, ...
NDK时间测量
在NDK中测量时间,有四种方法. LINUX系统方法 gettimeofday 以秒和微秒的形式返回自从Epoch(1970-01-01 00:00:00 +0000 (UTC))时间以来,系统已经经 ...
Charles 抓包手机app
最近在测为移动端提供的API, 使用mac系统, 发现fiddler在mac下无法使用, 不知道其他朋友是否遇见过, 只能找替代工具. 先去百度上搜索下载Charles 破解版, 选择Charles是 ...
Integert 与 int例子详解
public final class Integerextends Numberimplements Comparable<Integer> Integer 类在对象中包装了一个基本类型 ...

python3编写网络爬虫23-分布式爬虫

python3编写网络爬虫23-分布式爬虫的更多相关文章

随机推荐

热门专题