分布式爬虫

概念：多台机器上可以执行同一个爬虫程序，实现网站数据的分布爬取。
原生的scrapy是不可以实现分布式爬虫？

　　　　a) 调度器无法共享

　　　　b) 管道无法共享

工具

scrapy-redis组件:专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。

a) 下载：pip install scrapy-redis

分布式爬取的流程

1）redis文件的配置 bind 127.0.0.1 进行注释 protected-model no 关闭保护模式
2）redis数据库的开启：要基于配置文件进行开启
服务器端redis-server.exe redis.windows.conf
客户端redis-cli
3）创建scrapy工程后，创建基于crawlSpider的爬虫文件
4）导入RedisCrawlSpider类，然后将爬虫文件修改成继承该类的源文件
5）将start_url修改成redis_key
6)将项目的管道和调度器配置成基于scrapy_redis组件的配置
7）执行爬虫文件：进入到爬虫文件目录内，执行scrapy runspider 爬虫文件.py
程序进入监听状态
8）将起始url扔进调度器中 redis数据库客户端执行 lpush 调度器名称 url
keys * 》》lrange qiubai：items 0 -1

代码

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from redisPro.items import RedisproItem

from scrapy_redis.spiders import RedisCrawlSpider

from redisPro.items import RedisproItem

class QiubaiSpider(RedisCrawlSpider):

    name = 'qiubai'

    #allowed_domains = ['https://www.qiushibaike.com/pic/']

    #start_urls = ['https://www.qiushibaike.com/pic/']

    #调度器队列的名称

    redis_key = 'qiubaispider'  #表示跟start_urls含义是一样

    # 链接提取器

    link = LinkExtractor(allow=r'/pic/page/\d+')

    rules = (

        # 规则解析器

        Rule(link, callback='parse_item', follow=True),

    )

    def parse_item(self, response):

       #将图片的url进行解析

        div_list = response.xpath('//*[@id="content-left"]/div')

        for div in div_list:

            img_url = div.xpath('./div[@class="thumb"]/a/img/@src').extract_first()

            item = RedisproItem()

            item['img_url'] = img_url

            yield item

配置

除了之前的设置外，还需要如下设置

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

    #'redisPro.pipelines.RedisproPipeline': 300,

    'scrapy_redis.pipelines.RedisPipeline': 300,

}

....

# 使用scrapy-redis组件的去重队列

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 是否允许暂停

SCHEDULER_PERSIST = True

【补充】

#如果redis服务器不在自己本机，则需要在setting中进行如下配置

REDIS_HOST = 'redis服务的ip地址'

REDIS_PORT = 6379

然后按流程操作执行就可以了！

scrapy之分布式的更多相关文章

Scrapy 框架分布式爬虫
分布式爬虫 scrapy-redis 实现原生scrapy 无法实现分布式调度器和管道无法被分布式机群共享环境安装 - pip install scrapy_redis 导包:from sc ...
scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...
Scrapy-redis改造scrapy实现分布式多进程爬取
一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件.它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(it ...
基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简 ...
scrapy进行分布式爬虫
今天,参照崔庆才老师的爬虫实战课程,实践了一下分布式爬虫,并没有之前想象的那么神秘,其实非常的简单,相信你看过这篇文章后,不出一小时,便可以动手完成一个分布式爬虫! 1.分布式爬虫原理首先我们来看一 ...
16 Scrapy之分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
cnblogs 博客爬取 + scrapy + 持久化 + 分布式
目录普通 scrapy 分布式爬取 cnblogs_spider.py 普通 scrapy # -*- coding: utf-8 -*- import scrapy from ..items im ...
爬虫--scrapy+redis分布式爬取58同城北京全站租房数据
作业需求: 1.基于Spider或者CrawlSpider进行租房信息的爬取 2.本机搭建分布式环境对租房信息进行爬取 3.搭建多台机器的分布式环境,多台机器同时进行租房数据爬取建议:用Pychar ...

随机推荐

AFNetworking 3.0修改指南
AFNetworking是一款在OS X和iOS下都令人喜爱的网络库.为了迎合iOS新版本的升级, AFNetworking在3.0版本中删除了基于NSURLConnectionAPI的所有支持.如果 ...
Socket网络通信之NIO
Socket网络通信之NIO NIO:new io ,java1.4开始推出的可非阻塞IO. java.nio 包,可解决BIO阻塞的不足但比BIO学习.使用复杂. 可以以阻塞.非阻塞两种方式工作. ...
合唱队（华为OJ）
描述计算最少出列多少位同学,使得剩下的同学排成合唱队形说明: N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学排成合唱队形. 合唱队形是指这样的一种队形:设K位同学从左 ...
pymongo模块
import pymongo # 创建与MongoDB服务器的连接 mongoclient = pymongo.MongoClient(host='127.0.0.1', port=27017) # ...
u-boot分析（四）---设置异常向量表|设置SVC模式
u-boot分析(四) 通过前三篇的分析,我们对u-boot已经有了整体的认识和掌握,但是我们仍然对于其部分硬件是如何初始化的不太清楚,所以接下来几篇博文我将会对我们在http://www.cnblo ...
April 7 2017 Week 14 Friday
A good heart is better than all the brains in the world. 聪明绝顶,不如宅心仁厚. A good heart can be useful to ...
如何查找BAPI SD_SALESDOCUMENT_CHANGE里的字段对应的数据库存储表
BAPI函数SD_SALESDOCUMENT_CHANGE可以让我们很方便地通过ABAP代码来修改Sales Order. 其输入参数ORDER_HEADER_IN的类型是BAPISDHD1, 里面包 ...
调试wmi连接主机进行监控
wmi连接及配置 1.首先介绍两款连接wmi的工具: ①windows自带的wbemtest. ②WMI 资源浏览器两者都是可以连接wmi,并且执行相关命令的工具. 2.尝试连接首先利用win自带的 ...
LA 3708 墓地雕塑
题目链接:https://vjudge.net/contest/132704#problem/D 题意:一个长度为10000的园上,均匀分布n个雕塑,现在要加入m个雕塑,这样原先的就可能会移动,求移动 ...
xrdp 安装后 WINDOWS远程登录出错
xrdp需要vnc作为基础服务, sudo apt-get install tightvncserver 树莓派上这个命令运行下再连就好了

scrapy之分布式

分布式爬虫

工具

分布式爬取的流程

代码

scrapy之分布式的更多相关文章

随机推荐

热门专题