Scrapy去重

一、原生

1、模块

from scrapy.dupefilters import RFPDupeFilter

2、RFPDupeFilter方法

a、request_seen

核心：爬虫每执行一次yield Request对象，则执行一次request_seen方法

作用：用来去重，相同的url只能访问一次

实现：将url值变成定长、唯一的值，如果这个url对象存在，则返回True表名已经访问过，若url不存在则添加该url到集合

1)、request_fingerprint

作用：对request(url)变成定长唯一的值，如果使用md5的话，下面的两个url值不一样

注意：request_fingerprint() 只接收request对象

from scrapy.utils.request import request_fingerprint

from scrapy.http import Request

#

url1 = 'https://test.com/?a=1&b=2'

url2 = 'https://test.com/?b=2&a=1'

request1 = Request(url=url1)

request2 = Request(url=url2)

# 只接收request对象

rfp1 = request_fingerprint(request=request1)

rfp2 = request_fingerprint(request=request2)

print(rfp1)

print(rfp2)

if rfp1 == rfp2:

    print('url相同')

else:

    print('url不同')

2)、request_seen

def request_seen(self, request):

    # request_fingerprint 将request(url) -> 唯一、定长

    fp = self.request_fingerprint(request)

    if fp in self.fingerprints:

        return True        # 返回True，表明已经执行过一次

    self.fingerprints.add(fp)

b、open

父类BaseDupeFilter中的方法，爬虫开始时，执行

def open(self):

    # 爬虫开始

    pass

c、close

爬虫结束时执行

def close(self, reason):

    # 关闭爬虫时执行

    pass

d、log

记录日志

def log(self, request, spider):

    # 记录日志

    pass

e、from_settings

原理及作用：和pipelines中的from_crawler一致

@classmethod

def from_settings(cls, settings):

    return cls()

二、自定义

待续

1、配置文件(settings.py)

# 原生

# DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

DUPEFILTER_CLASS = 'toscrapy.dupefilters.MyDupeFilter'

2、自定义去重类(继承BaseDupeFilter)

from scrapy.dupefilters import BaseDupeFilter

from scrapy.utils.request import request_fingerprint

#

class MyDupeFilter(BaseDupeFilter):

    def __init__(self):

        self.visited_fp = set()

    @classmethod

    def from_settings(cls, settings):

        return cls()

    def request_seen(self, request):

        # 判断当前的request对象是否，在集合中，若在则放回True，表明已经访问，否则，访问该request的url并将该url添加到集合中

        if request_fingerprint(request) in self.visited_fp:

            return True

        self.visited_fp.add(request_fingerprint(request))

    def open(self):  # can return deferred

        print('开启爬虫')

    def close(self, reason):  # can return a deferred

        print('结束爬虫')

    def log(self, request, spider):  # log that a request has been filtered

        pass

3、前提条件

yield request的对象

yield scrapy.Request(url=_next, callback=self.parse, dont_filter=True)

dont_filter不能为True,这个值默认为False

Scrapy去重的更多相关文章

scrapy 去重 dont_filter=False
yield Request(...... dont_filter=False)
scrapy暂停和重启，及url去重原理,telenet简单使用
一.scrapy暂停与重启 1.要暂停,就要保留一些中间信息,以便重启读取中间信息并从当前位置继续爬取,则需要一个目录存放中间信息: scrapy crawl spider_name -s JOBDI ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
Scrapy学习-18-去重原理
Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器源码去重算法 # 将返回值放到集合set中,实现去重 def reque ...
使用 Scrapy 爬取去哪儿网景区信息
Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
2.python知识点总结
1.什么是对象?什么是类? 对象是对类的具体表达,类是对象的抽象表达. 类只是为所有的对象定义了抽象的属性与行为. —————————————————————————————————————————— ...
笔记-scrapy-去重
笔记-scrapy-去重 1. scrapy 去重 scrapy 版本:1.5.0 第一步是要找到去重的代码,scrapy在请求入列前去重,具体源码在scheduler.py: def en ...
python scrapy爬虫数据库去重方法
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter= ...

随机推荐

P1013 高精度加法
题目描述给你两个很大的正整数A和B,你需要计算他们的和. 输入格式输入一行包含两个正整数A和B,以一个空格分隔(A和B的位数都不超过 \(10^5\)) 输出格式输出一行包含一个整数,表示A+B ...
linux Do-it-yourself 探测
探测也可以在驱动自身实现没有太大麻烦. 它是一个少有的驱动必须实现它自己的探测, 但是看它是如何工作的能够给出对这个过程的内部认识. 为此目的, short 模块进行 do- it-yourself ...
2019-8-31-C#-如何写-DEBUG-输出
title author date CreateTime categories C# 如何写 DEBUG 输出 lindexi 2019-08-31 16:55:58 +0800 2018-2-13 ...
Nutch2.3 编译和安装配置
Nutch2.3 编译和安装配置 [一].介绍 Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫.现在Nutch分为两个版本:1. ...
JMeter Web测试计划
在本节中,将学习如何创建测试网页的基本测试计划. 出于演示测试目的,我们将测试URL - https://www.yiibai.com/ 的网页性能. 创建JMeter测试计划进入到JMeter安装 ...
looping through multiple lists
map: 最大长度输出: zip: 最短输出: third: 有序排列: a = ['a1', 'a2', 'a3'] b = ['b1', 'b2'] print "Map:" ...
Z字形变换 leetcode 6
一.按行存储 1.解题思路 1.通过当前行的不断上下循环移动 2.将字符按序存放入vector中 3.最后再按行取出 2.代码及注释 class Solution { public: string c ...
闯荡Linux帝国：nginx的创业故事
前情回顾: NextStep帝国推出的web服务,迅速风靡比特宇宙,各星系帝国均蠢蠢欲动,想在这一波浪潮中掘一桶金. 详情参见:万维网的诞生初出茅庐小马哥和他的小伙伴小黑.大黄来到陌生的Linux ...
C / C++ 保留小数函数（setprecision(n)的一些用法总结）
从C语言开始正式学习C++,但是一上来输出位数就懵了,查资料才知道C++需要使用 “ setprecision ”函数.自己总结一下. 首先说C++代码 #include <iomanip&g ...
「洛谷P3931」 SAC E#1 - 一道难题 Tree
P3931 SAC E#1 - 一道难题 Tree 题目背景冴月麟和魏潇承是好朋友. 题目描述冴月麟为了守护幻想乡,而制造了幻想乡的倒影,将真实的幻想乡封印了.任何人都无法进入真实的幻想乡了,但是 ...

Scrapy去重

Scrapy去重的更多相关文章

随机推荐

热门专题