分布式爬虫scrapy-redis

第一步下载scrapy模块:

　　pip install scrapy-redis

第二步创建项目

　　在终端/cmd进入创建项目的目录:　

cd  路径:

scrapy startproject douban(项目名)

　　导入到pycharm中

第三步创建爬虫类

　　1.在terminal中进入项目中的spiders目录:

　　输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)

第四步设置

　　非分布式爬虫设置:

　　1.将ROBOTSTXT_OBEY = True 改为 False

　　2.打开管道:

ITEM_PIPELINES = {

   'JD_redis.pipelines.JdRedisPipeline': 300,

    'scrapy_redis.pipelines.RedisPipeline': 400,  # 分布式爬虫中添加

}

 　　3.打开该设置并修改:

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"

}

　　4 .添加下面设置

# 使用去scrapy-redis里的重组件，不使用scrapy默认的去重方式

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis里的调度器组件，不使用默认的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 允许暂停，redis请求记录不丢失

SCHEDULER_PERSIST = True

# 默认的scrapy-redis请求队列形式（按优先级）

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

#指定redis数据库的连接参数

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

第五步编写项目(在原来的非分布式爬虫项目中修改)

　　1.修改spider文件:

原来的文件是:

import scrapy

from JD.items import JdItem

class BookSpider(scrapy.Spider):

    name = 'book'

    # allowed_domains = ['jd.com','p.3.cn']

    start_urls = ['https://book.jd.com/booksort.html']

修改为:

import scrapy

from scrapy_redis.spiders import RedisSpider

from JD.items import JdItem

class BookSpider(scrapy.Spider):

    name = 'book'

    allowed_domains = ['jd.com','p.3.cn']

    # start_urls = ['https://book.jd.com/booksort.html']

　　redis_key = 'book:start_urls'  # book可以自己随意取

只修改了两个地方，一个是继承类：由scrapy.Spider修改为RedisSpider

然后start_url已经不需要了，修改为：redis_key = "xxxxx"，其中，这个键的值暂时是自己取的名字，

一般用项目名：start_urls来代替初始爬取的url。由于分布式scrapy-redis中每个请求都是从redis中取出来的，因此，在redis数据库中，设置一个redis_key的值，作为初始的url，scrapy就会自动在redis中取出redis_key的值，作为初始url，实现自动爬取.

　　2.运行:

　　　　在命令中输入: scrapy runspider douban_spider.py(爬虫文件名)

　　3来到redirs客户端中,输入初始url　　　

lpush books:start_urls https://book.jd.com/booksort.html

分布式爬虫scrapy-redis的更多相关文章

爬虫--scrapy+redis分布式爬取58同城北京全站租房数据
作业需求: 1.基于Spider或者CrawlSpider进行租房信息的爬取 2.本机搭建分布式环境对租房信息进行爬取 3.搭建多台机器的分布式环境,多台机器同时进行租房数据爬取建议:用Pychar ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫
原理:其实就是用到redis的优点及特性,好处自己查--- 1,scrapy 分布式爬虫配置: settings.py BOT_NAME = 'first' SPIDER_MODULES = ['fi ...
基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
Scrapy+redis实现分布式爬虫
概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群,然后在每一台电脑中执行同一组程序,让其对同一网络资源进行联合且分布的数据爬取. 原生Scrapy无法实现分布式的原因原生Scrapy中调度器 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...

随机推荐

js监听离开或刷新页面时的弹窗提示
一.看图二.使用场景. 填写表单时内容,当离开页面或者刷新的时候回丢失页面的内容,因此人性化的设计该有一个提示.所以这样的功能也就应用而生了. 三.思路. 1,页面内容改变.2,离开或刷新浏览器触发 ...
适配iphoneX
tips iphone6设备宽高为375×667,屏幕分辨率为750×1334,故其设备像素比(dpr)为2.iphoneX的设备宽高375*812,屏幕分辨率为1125x2436,故dpr=3 适配 ...
【django】接收所有文件，前端展示文件（包括视频，文件，图片）ajax请求
如果是后台上传文件: setting配置: STATIC_URL = '/static/' STATICFILES_DIRS = [ os.path.join(BASE_DIR, 'static'), ...
angular 动态绑定class 写法
[ngClass]="{'aaa':true,'bbb':!true}" 这个是正确的 [ngClass]="{ true ? 'aaa':'bbb'}" ...
Ajax同步和异步的区别？
今天在code review时候看到同事的代码,用了ajax同步,async:false,如果不设置async参数,默认是true,为异步,异步的情况是比较复杂的,看下同步这个例子: function ...
Vuex的理解以及它的辅助函数
理解:vue中的“单向数据流”,这里借用官网的图示: Vue是单向数据流,v-model只是语法糖而已.单向数据流就是:数据总是[向下传递]从父级组件传递给子组件,只能单向绑定.子组件内部不能直接修改 ...
python使用while循环实现九九乘法表
a = 1while a <= 9: b = 1 while b <= a: print("%d*%d=%d\t" % (b, a, a * b), end=" ...
python学习-练习题9*9乘法表巩固
9*9乘法表分析: 1X1为一行 1X2 2X2 为一行 for i in range(1,10): for j in range(1,i+1): print(str(i) + 'X' + str( ...
background-attachment 制造视差滚动效果案例
简介 background-attachment 属性设置背景图像是否固定或者随着页面的其余部分滚动.可能的值有三个: scroll 默认值.背景图像会随着页面其余部分的滚动而移动. fixed 当页 ...
《ASP.NET Core 3框架揭秘》博文汇总
在过去一段时间内,写了一系列关于ASP.NET Core 3相关的文章,其中绝大部分来源于即将出版的<ASP.NET Core 3框架揭秘>(博文只能算是"初稿",与书 ...

分布式爬虫scrapy-redis

分布式爬虫scrapy-redis的更多相关文章

随机推荐

热门专题