潭州课堂25班：Ph201805201 爬虫高级第十课 Scrapy-redis分布 (课堂笔记)

利用 redis 数据库，做 request 队列，去重，多台数据共享，

scrapy 调度基于文件每户，默认只能在单机运行，

scrapy-redis 默认把数据放到 redis 中，实现数据共享，

安装： pip install scrapy-redis

命令与 scrapy 没有不同

在该文件下导入 scrapy_redis

在配置文件中添加内容

1(必须). 使用了scrapy_redis的去重组件，在redis数据库里做去重

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

2(必须). 使用了scrapy_redis的调度器，在redis里分配请求

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

3(可选). 在redis中保持scrapy-redis用到的各个队列，从而True允许暂停和暂停后恢复，也就是不清理redis queues

SCHEDULER_PERSIST = True

4(必须). 通过配置RedisPipeline将item写入key为 spider.name : items 的redis的list中，供后面的分布式处理item

这个已经由 scrapy-redis 实现，不需要我们写代码，直接使用即可

ITEM_PIPELINES = {

'scrapy_redis.pipelines.RedisPipeline': 100

}

5(必须). 指定redis数据库的连接参数

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

这里要改下

改成

当选择 redis_key 启动时，会从 redis 中获取 url

所以在 redis 中用到下面这个命令，才会启动

redis 中查队列

潭州课堂25班：Ph201805201 爬虫高级第十课 Scrapy-redis分布 (课堂笔记)的更多相关文章

潭州课堂25班：Ph201805201 爬虫高级第十三课代理池爬虫检测部分 (课堂笔记)
1,通过爬虫获取代理 ip ,要从多个网站获取,每个网站的前几页2,获取到代理后,开进程,一个继续解析,一个检测代理是否有用 ,引入队列数据共享3,Queue 中存放的是所有的代理,我们要分离出可用的 ...
潭州课堂25班：Ph201805201 爬虫高级第十二课 Scrapy-redis分布项目实战 (课堂笔记)
建代理池, 1,获取多个网站的免费代理IP, 2,对免费代理进行检测,>>>>>携带IP进行请求, 3,检测到的可用IP进行存储, 4,实现api接口,方便调用, 5,各 ...
潭州课堂25班：Ph201805201 爬虫高级第十一课 Scrapy-redis分布项目实战 (课堂笔
潭州课堂25班：Ph201805201 爬虫高级第八课 AP抓包 SCRAPY 的图片处理 (课堂笔记)
装好模拟器设置代理到 Fiddler 中, 代理 IP 是本机 IP, 端口是 8888, 抓包 APP斗鱼用 format 设置翻页
潭州课堂25班：Ph201805201 爬虫高级第七课 sclapy 框架爬前程网 (课堂笔)
定时对该网页数据采集,所以每次只爬第一个页面就可以, 创建工程 scrapy startproject qianchen 创建运行文件 cd qianchenscrapy genspider qian ...
潭州课堂25班：Ph201805201 爬虫高级第六课 sclapy 框架中间建与selenium对接 (课堂笔记）
因为每次请求得到的响应不一定是正常的, 也可以在中间建中与个类的方法,自动更换头自信,代理Ip, 在设置文件中添加头信息列表, 在中间建中导入刚刚的列表,和随机函数 class UserAgent ...
潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）
当要对一个页面进行多次请求时, 设 dont_filter = True 忽略去重在 scrapy 框架中模拟登录创建项目创建运行文件设请求头 # -*- coding: utf-8 ...
潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）
以上内容以 spider 类获取 start_urls 里面的网页在这里平时只写一个,是个入口,之后通过 xpath 生成 url,继续请求, crawispider 中多了个 rules ...
潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）
到指定目录下,创建个项目进到 spiders 目录创建执行文件,并命名运行调试执行代码,: # -*- coding: utf-8 -*- import scrapy from ..items ...

随机推荐

java设置字符串编码、转码
Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一 ...
饮冰三年-人工智能-Python-12之利其器pycharm
1:下载.安装.与激活这里不再介绍了.需要注意的是激活时需要修改C:\Windows\System32\drivers\etc\hosts文件 2:工具使用 2.1 HelloWorld File& ...
HTTP 599: SSL certificate problem: unable to get local issuer certificate错误
自己在用 PySpider 框架爬虫运行代码后时出现 HTTP 599: SSL certificate problem: unable to get local issuer certificate ...
Just oj 2018 C语言程序设计竞赛（高级组）H: CBT?
H: CBT? 时间限制: 1 s 内存限制: 128 MB 提交我的状态题目描述对于二叉树,如果这棵树的节点排布是按行从上到下,每行从左到右挨个放置,中间不会有空闲的节点. ...
史上最简单的SpringCloud教程 | 第四篇:断路器（Hystrix）
在微服务架构中,根据业务来拆分成一个个的服务,服务与服务之间可以相互调用(RPC),在Spring Cloud可以用RestTemplate+Ribbon和Feign来调用.为了保证其高可用,单个服务 ...
mysql 检查一个字符串是不是身份证号
)CHARSET utf8) ) BEGIN DECLARE flag BOOL DEFAULT FALSE; AND number REGEXP CONCAT('^(([1][1-5])|([2][ ...
[转] 组件库按需加载借助babel-plugin-import实现
前段时间一直在基于webpack进行前端资源包的瘦身.在项目中基于路由进行代码分离,http://www.cnblogs.com/legu/p/7251562.html.对于公司内部的组件库,所有内容 ...
poshytip基本使用
js基本调用方法 $("#tips").poshytip({ content: $this.text(), alignTo: 'target', alignX: direction ...
Summary of continuous function spaces
In general differential calculus, we have learned the definitions of function continuity, such as fu ...
Vijos1982 NOIP2015Day2T2 子串 substring 动态规划
子串 (substring.cpp/c/pas) 题目链接 [问题描述]有两个仅包含小写英文字母的字符串 A 和 B.现在要从字符串 A 中取出 k 个互不重叠的非空子串,然后把这 k 个子串按照 ...

潭州课堂25班：Ph201805201 爬虫高级 第十课 Scrapy-redis分布 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫高级 第十课 Scrapy-redis分布 (课堂笔记)的更多相关文章

随机推荐

热门专题

潭州课堂25班：Ph201805201 爬虫高级第十课 Scrapy-redis分布 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫高级第十课 Scrapy-redis分布 (课堂笔记)的更多相关文章