爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline - 数据持久化

scrapy-redis组件

1. URL去重

 定义去重规则（被调度器调用并应用）

     a. 内部会使用以下配置进行连接Redis

         # REDIS_HOST = 'localhost'                            # 主机名

         # REDIS_PORT = 6379                                   # 端口

         # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

         # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

         # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

         # REDIS_ENCODING = "utf-8"                            # redis编码类型             默认：'utf-8'

     b. 去重规则通过redis的集合完成，集合的Key为：

         key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

         默认配置：

             DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'

     c. 去重规则中将url转换成唯一标示，然后在redis中检查是否已经在集合中存在

         from scrapy.utils import request

         from scrapy.http import Request

         req = Request(url='http://www.cnblogs.com/wupeiqi.html')

         result = request.request_fingerprint(req)

         print(result) # 8ea4fd67887449313ccc12e5b6b92510cc53675c

         PS:

             - URL参数位置不同时，计算结果一致；

             - 默认请求头不在计算范围，include_headers可以设置指定请求头

             示例：

                 from scrapy.utils import request

                 from scrapy.http import Request

                 req = Request(url='http://www.baidu.com?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

                 req = Request(url='http://www.baidu.com?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

 """

 # Ensure all spiders share same duplicates filter through redis.

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

2. 调度器

 """

 调度器，调度器使用PriorityQueue（有序集合）、FifoQueue（列表）、LifoQueue（列表）进行保存请求，并且使用RFPDupeFilter对URL去重

     a. 调度器

         SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

         SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

         SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

         SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

         SCHEDULER_FLUSH_ON_START = True                                     # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

         SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

         SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

         SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 """

 # Enables scheduling storing requests queue in redis.

 SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # Default requests serializer is pickle, but it can be changed to any module

 # with loads and dumps functions. Note that pickle is not compatible between

 # python versions.

 # Caveat: In python 3.x, the serializer must return strings keys and support

 # bytes as values. Because of this reason the json or msgpack module will not

 # work by default. In python 2.x there is no such issue and you can use

 # 'json' or 'msgpack' as serializers.

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

 # Don't cleanup redis queues, allows to pause/resume crawls.

 # SCHEDULER_PERSIST = True

 # Schedule requests using a priority queue. (default)

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

 # Alternative queues.

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

 # Max idle time to prevent the spider from being closed when distributed crawling.

 # This only works if queue class is SpiderQueue or SpiderStack,

 # and may also block the same time when your spider start at the first time (because the queue is empty).

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10

3. 数据持久化

 2. 定义持久化，爬虫yield Item对象时执行RedisPipeline

     a. 将item持久化到redis时，指定key和序列化函数

         REDIS_ITEMS_KEY = '%(spider)s:items'

         REDIS_ITEMS_SERIALIZER = 'json.dumps'

     b. 使用列表保存item数据

4. 起始URL相关

 """

 起始URL相关

     a. 获取起始URL时，去集合中获取还是去列表中获取？True，集合；False，列表

         REDIS_START_URLS_AS_SET = False    # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop

     b. 编写爬虫时，起始URL从redis的Key中获取

         REDIS_START_URLS_KEY = '%(name)s:start_urls'

 """

 # If True, it uses redis' ``spop`` operation. This could be useful if you

 # want to avoid duplicates in your start urls list. In this cases, urls must

 # be added via ``sadd`` command or you will get a type error from redis.

 # REDIS_START_URLS_AS_SET = False

 # Default start urls key for RedisSpider and RedisCrawlSpider.

 # REDIS_START_URLS_KEY = '%(name)s:start_urls'

scrapy-redis示例

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

 #

 #

 # from scrapy_redis.scheduler import Scheduler

 # from scrapy_redis.queue import PriorityQueue

 # SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

 # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

 # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

 # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

 # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

 # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 #

 #

 #

 # REDIS_HOST = '10.211.55.13'                           # 主机名

 # REDIS_PORT = 6379                                     # 端口

 # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

 # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

 # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

 # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认：'utf-8'

 配置文件

配置文件

 import scrapy

 class ChoutiSpider(scrapy.Spider):

     name = "chouti"

     allowed_domains = ["chouti.com"]

     start_urls = (

         'http://www.chouti.com/',

     )

     def parse(self, response):

         for i in range(0,10):

             yield

爬虫文件

爬虫必备—scrapy-redis（分布式爬虫）的更多相关文章

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
scrapy进行分布式爬虫
今天,参照崔庆才老师的爬虫实战课程,实践了一下分布式爬虫,并没有之前想象的那么神秘,其实非常的简单,相信你看过这篇文章后,不出一小时,便可以动手完成一个分布式爬虫! 1.分布式爬虫原理首先我们来看一 ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
Scrapy 框架分布式爬虫
分布式爬虫 scrapy-redis 实现原生scrapy 无法实现分布式调度器和管道无法被分布式机群共享环境安装 - pip install scrapy_redis 导包:from sc ...
scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...
16 Scrapy之分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
爬虫必备—Scrapy
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...

随机推荐

java 0 开始
利用了61天的时间学习了 se 不过忘得也很多 .在这里开一个帖子打算利用几天的时间进行复习,把凡是能用到的都放在这边. 不带图形界面的第一个项目已经弄完 (看视频加看书..而且自己往上面加东 ...
4. Neural Network
1. 神经网络首先引入一些便于稍后讨论的新标记: $L$:代表神经网络层数$S_l$:代表第$l$层处理单元的个数$K$:代表多分类中类别种数 2. 前向传播(forward propagation ...
php unset变量
<?php $a="abc"; $b="def"; unset($a,$b); echo $a."\n"; echo $b." ...
RabbitMQ : 几种Exchange 模式
AMQP协议中的核心思想就是生产者和消费者隔离,生产者从不直接将消息发送给队列.生产者通常不知道是否一个消息会被发送到队列中,只是将消息发送到一个交换机.先由Exchange来接收,然后Exchang ...
yolov3源码分析keras（一）数据的处理
一.前言本次分析的源码为大佬复现的keras版本,上一波地址:https://github.com/qqwweee/keras-yolo3 初步打算重点分析两部分,第一部分为数据,即分析图像如何做等 ...
hive与hbase的整合
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点学习成本低,可以通过类S ...
CentOS7 yum方式安装 MongoDB 3.4 复制集
CentOS7 yum方式安装 MongoDB 3.4 环境.准备 Centos7 系统配置MongoDB的yum源,添加文件/etc/yum.repos.d/mongodb-org-3.4.rep ...
【C#小知识】C#中一些易混淆概念总结（三）---------结构，GC，静态成员，静态类
目录: [C#小知识]C#中一些易混淆概念总结 [C#小知识]C#中一些易混淆概念总结(二) ---------------------------------------分割线----------- ...
PHP中 LFI Local File Include,本地文件包漏洞
在allow_url_include=On就是远程文件包含了,假设这里为off,那就只能本地包含了. 1. 包含上传文件只要目标服务器支持上传,不管是jpg,txt,gif等都可以,在其 ...
protocol buffers生成go代码原理
本文描述了protocol buffers使用.proto文件生成pb.go文件的过程编译器编译器需要插件来编译环境,使用如下方式安装插件:go get github.com/golang/pro ...

爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scrapy-redis组件

scrapy-redis示例

爬虫必备—scrapy-redis（分布式爬虫）的更多相关文章

随机推荐

热门专题