scrapy基础知识之 RedisCrawlSpider：

这个RedisCrawlSpider类爬虫继承了RedisCrawlSpider，能够支持分布式的抓取。因为采用的是crawlSpider，所以需要遵守Rule规则，以及callback不能写parse()方法。

同样也不再有start_urls了，取而代之的是redis_key，scrapy-redis将key从Redis里pop出来，成为请求的url地址。

from scrapy.spiders import Rule

from scrapy.linkextractors import LinkExtractor

from scrapy_redis.spiders import RedisCrawlSpider

class MyCrawler(RedisCrawlSpider):

    name = 'mycrawler_redis'

    redis_key = 'mycrawler:start_urls'

    rules = (

        # follow all links

        Rule(LinkExtractor(), callback='parse_page', follow=True),

    )

    # __init__方法必须按规定写，使用时只需要修改super()里的类名参数即可

    def __init__(self, *args, **kwargs):

        # Dynamically define the allowed domains list.

        domain = kwargs.pop('domain', '')

        self.allowed_domains = filter(None, domain.split(','))

        # 修改这里的类名为当前类名

        super(MyCrawler, self).__init__(*args, **kwargs)

    def parse_page(self, response):

        return {

            'name': response.css('title::text').extract_first(),

            'url': response.url,

        }

注意：

同样的，RedisCrawlSpider类不需要写allowd_domains和start_urls：

scrapy-redis将从在构造方法__init__()里动态定义爬虫爬取域范围，也可以选择直接写allowd_domains。
必须指定redis_key，即启动爬虫的命令，参考格式：redis_key = 'myspider:start_urls'
根据指定的格式，start_urls将在 Master端的 redis-cli 里 lpush 到 Redis数据库里，RedisSpider 将在数据库里获取start_urls。

执行方式：

通过runspider方法执行爬虫的py文件（也可以分次执行多条），爬虫（们）将处于等待准备状态：

scrapy runspider mycrawler_redis.py
在Master端的redis-cli输入push指令，参考格式：

$redis > lpush mycrawler:start_urls http://www.dmoz.org/
爬虫获取url，开始执行。

scrapy基础知识之 RedisCrawlSpider：的更多相关文章

0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
scrapy基础知识之 CrawlSpiders爬取lagou招聘保存在mysql（分布式）：
items.py import scrapy class LagouItem(scrapy.Item): # define the fields for your item here like: # ...
scrapy基础知识之关于爬虫部分一些建议：
1.尽量减少请求次数,能抓列表页就不抓详情页,减轻服务器压力,程序员都是混口饭吃不容易. 2.不要只看 Web 网站,还有手机 App 和 H5,这样的反爬虫措施一般比较少. 3.实际应用时候,一般防 ...
scrapy基础知识之 Scrapy 和 scrapy-redis的区别：
Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础 ...
scrapy基础知识之 pycharm 调试小技巧：
在项目根目录下新建main.py文件,用于调试 from scrapy.cmdline import executeexecute(["scrapy","crawl&qu ...
scrapy基础知识之 scrapy 三种模拟登录策略：
注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENA ...
scrapy基础知识之下载中间件使用案例：
1. 创建middlewares.py文件. Scrapy代理IP.Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制,我们在settings.py同级目录下创建m ...
scrapy基础知识之使用FormRequest.from_response()方法模拟用户登录：
通常网站通过实现对某些表单字段(如数据或是登录界面中的认证令牌等)的预填充使用Scrapy抓取网页时,如果想要预填充或重写像用户名.用户密码这些表单字段, 可以使用 FormRequest.fro ...
scrapy基础知识之发送POST请求：
可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求. 如果希望程序执行一开始就发送POST请求,可以重写Spider类的s ...

随机推荐

SICP 1.11-1.13
1.11 递归版本 (define (f n) (cond ((< n ) n) ()) (* (f (- n )) ) (* (f (- n )) ))))) 迭代版本 (define (f ...
redis 从0到1 linux下的安装使用数据类型以及操作指令一
安装 redis 到 /usr/目录下我这里安装的是redis-3.2.9.tar.gz tar zxvf redis-3.2.9.tar.gz -C /usr 然后进行执行编译命令 mak ...
Mysql数据库表的自增主键ID号乱了，需要重新排列。
Mysql数据库表的自增主键ID号乱了,需要重新排列. 原理:删除原有的自增ID,重新建立新的自增ID. 1,删除原有主键:ALTER TABLE `table_name` DROP `id`; 2, ...
Win8 Metro(C#)数字图像处理--2.36角点检测算法
原文:Win8 Metro(C#)数字图像处理--2.36角点检测算法 [函数名称] Harris角点检测函数 HarrisDetect(WriteableBitmap src, int ...
/etc/passwd和/etc/group文件详解
用户管理想要知道, 系统中有哪些用户, 可以查看这个文件: /etc/passwd root:x:::root:/root:/bin/bash bin:x:::bin:/bin:/sbin/nolo ...
C语言中.h和.c文件解析（转载）
转载:http://www.cnblogs.com/laojie4321/archive/2012/03/30/2425015.html 简单的说其实要理解C文件与头文件(即.h)有什么不同之处, ...
asp.net网站在手机浏览器上全屏显示
前段时间要把asp.net 网站,在手机上全屏浏览,发现总是小小的一块,不能全屏后来发现 JQuery Mobile 中在开头都用 <meta name="viewport&quo ...
QT 序列化/串行化/对象持久化
本文以一个实例讲解Qt的序列化方法: Qt版本 4.8.0 Qt序列化简介 Qt采用QDataStream来实现序列化,QT针对不同的实例化对象有不同的要求.这里主要分两类,即:QT中原生的数据类型, ...
Qt 5.3更新无数，更改C++控制台输出最为赞（这样就和普通C++ IDE没区别了）
转载请注明文章:Qt 5.3更新无数,更改C++控制台输出最为赞出处:多客博图本人觉得有了这个更新,Qt Creator可谓几乎没有缺点了,起码仅仅开发C/C++,是不用再去安装VS了. Qt 5 ...
Z Order of Controls in Delphi FireMonkey（Tom Yu的博客）
Get and set the Z Order of controls at runtime in Delphi FireMonkey. This is a follow on to my earli ...

scrapy基础知识之 RedisCrawlSpider：

注意：

执行方式：

`scrapy runspider mycrawler_redis.py`

`$redis > lpush mycrawler:start_urls http://www.dmoz.org/`

scrapy基础知识之 RedisCrawlSpider：的更多相关文章

随机推荐

热门专题