场景1的实现：

数据指纹：
- 数据的唯一标识。记录表中可以不直接存储数据本身，直接存储数据指纹更好一些。

创建爬虫爬虫文件：

cd project_name（进入项目目录）
scrapy genspider 爬虫文件的名称（自定义一个名字即可）起始url
- （例如：scrapy genspider first www.xxx.com）
创建成功后，会在爬虫文件夹下生成一个py的爬虫文件

进入爬虫文件：

cd 爬虫文件的名称（即自定义的名字）

可能存在的错误

redis.exceptions.DataError: Invalid input of type: 'ZlsdemoproItem'. Convert to a bytes, string, int or float first.

#只有redis版本是2.10.6才能直接把item作为字典写进去

redis可能用到的指令

keys  * ：查看redis数据库所有set集合名

llen 集合名：查看当前数据的数量（计数）

smembers 集合名：查看当前set集合内的数据id及名称

爬虫文件

import redis

import scrapy

import hashlib#导入生成数据指纹的模块

from ..items import ZlsdemoproItem #导入ITEM模块

class DuanzaiSpider(scrapy.Spider):

    name = "duanzai"

    # allowed_domains = ["www.xxx.com"]

    #段子网爬取标题和内容

    start_urls = ["https://www.xiaohuaduanzi.cn/duanzi/"]

    conn = redis.Redis(

        host = '127.0.0.1',

        port = 6379

    )  #redis所对应的全局对象

    def parse(self, response):

        li_list = response.xpath('//*[@id="body"]/div/div/div[1]/ul/li')

        for li in li_list:

            content = li.xpath('./div/div/div[2]/div[2]/text()').extract_first()

            title = li.xpath('./div/div/div[2]/div[1]/h2/a/text()').extract_first()

            # print(content,title)

            all_data = title + content

            m = hashlib.md5() #生成该数据的数据指纹工具

            m.update(all_data.encode('utf-8')) #数据编码,把字符串转成二进制数据

            data_id = m.hexdigest() #生成数据结构

            # print(data_id)

            ex = self.conn.sadd('data_id', data_id) #在redis中创建名为data_id的set集合，并将data_id传递到该集合中

            if ex ==1:#sadd执行成功（数据指纹在set集合中不存在）

                print('已获取最新数据，正在爬取中.....')

                item = ZlsdemoproItem()  # 实例化ITEM对象

                item['title'] = title  # 将title传递给item

                item['content'] = content  # 将content传递给item

                yield item #提交item

            else:#sadd没有执行成功（数据指纹在set集合中已存储）

                print('暂无最新数据更新，请等待数据更新！')

items.py

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ZlsdemoproItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field()

pipelines.py

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# useful for handling different item types with a single interface

from itemadapter import ItemAdapter

class ZlsdemoproPipeline:

    def process_item(self, item, spider):

        conn = spider.conn  #调用爬虫文件中的conn对象

        dic = {

            'title' : item['title'],

            'content' : item['content'],

        }

        #保证redis版本是2.10.6 pip install redis==2.10.6

        # 只有redis版本是2.10.6才能直接把item作为字典写进去

        conn.lpush('duanzi',dic)

        return item

settings.py

USER_AGENT : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"

ROBOTSTXT_OBEY = False

LOG_LEVEL = 'ERROR'

LOG_LEVEL = 'WARNING'

#释放管道

ITEM_PIPELINES = {

   "zlsDemoPro.pipelines.ZlsdemoproPipeline": 300,

}

Day 22 22.1.1：增量式爬虫 - 场景1的实现的更多相关文章

Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
基于Scrapy框架的增量式爬虫
概述概念:监测核心技术:去重基于 redis 的一个去重适合使用增量式的网站: 基于深度爬取的对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的记录表:爬取过的数据对应的数据指纹 ...
增量式爬虫 Scrapy-Rredis 详解及案例
1.创建scrapy项目命令 scrapy startproject myproject 2.在项目中创建一个新的spider文件命令: scrapy genspider mydomain mydom ...
爬虫 crawlSpider 分布式增量式提高效率
crawlSpider 作用:为了方便提取页面整个链接url,不必使用创参寻找url,通过拉链提取器,将start_urls的全部符合规则的URL地址全部取出使用:创建文件scrapy startp ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
爬虫---scrapy分布式和增量式
分布式概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因调度器不能被共享, 管道也不能被共享 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统上一篇介绍的基本的使用方式,虽然自由度很高,但是编写的代码相对还是挺多.于是框 ...
增量式PID计算公式4个疑问与理解
一开始见到PID计算公式时总是疑问为什么是那样子?为了理解那几道公式,当时将其未简化前的公式“活生生”地算了一遍,现在想来,这样的演算过程固然有助于理解,但假如一开始就带着对疑问的答案已有一定看法后再 ...
增量式PID简单翻板角度控制
1.研究背景随着电子技术.信息技术和自动控制理论技术的完善与发展,近来微型处理器在控制方面的应用也越来越多.随之逐渐渗透到我们生活的各个领域.如导弹导航装置,飞机上仪表的控制,网络通讯与数据传输,工 ...

随机推荐

linux 替换csv的换行符（Linux 替换^M字符方法）
sed -i 's/^M//g' a.csv 注意:这里的"^M"要使用"CTRL-V CTRL-M"生成,而不是直接键入"^M". 实验: ...
Clion在一个cmake项目中运行多个main函数
# 遍历项目根目录下所有的 .cpp 文件 file (GLOB files *.cpp */*.cpp) foreach (file ${files}) string(REGEX REPLACE & ...
炫酷 css实现水波纹
携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第23天,点击查看活动详情 ui设计的元素有时候需要有一些动画效果,可以直接用css动画来实现. 实现一个中心圆向四周有水波纹的效果 ...
MAC系统连接Windows共享文件的方法：
MAC系统连接Windows共享文件的方法: 1.首先先确认Windows系统下已开启共享.并且两台电脑之间局域网已通. 2.苹果MAC系统,点击桌面.打开顶部菜单 "前往". 3 ...
react toolkit 异步请求之后调取其他函数
在slice切片文件中,页面dispatch执行action之后,异步请求完成后调取另外一个异步请求,要在异步请求的第二个参数添加 thunkAPI,调取thunkAPI的dispatch方法即 ...
zzul1074_Java
package com.ittrash;import java.util.Scanner;public class zzul1074 { public static void main(String[ ...
[菜鸡随笔-2]用mv代替rm安全地进行删除操作的小技巧
牢骚和背景介绍: rm -rf /*的梗相信大家都听过笑过,我不止听过笑过,还不小心试过(不要熬夜写东西!).为此丢了我一周的心血,和40块钱(买u盘跑网吧下载引导文件).所幸,这只是在自己的机器上 ...
mybatis 数据搜索后参数显示乱码无法搜到
今天写作业的时候遇到的小问题问题说明:搜索订单名中含有"香皂"的订单,显示订单的一系列属性.在搜索后,调试框中显示的东西很奇怪,也没有查找到答案: 觉得是编码问题,所以调试了编码 ...
WebSocket 使用记录
WebSocket 主要解决的问题是后端数据更新主动像前端推送数据所需依赖<dependency> <groupId>org.springframework.boot< ...
yolov5的训练中断恢复
Yolov5的恢复训练方法一:使用自带参数-resume 1. train.py文件中找到函数parse_opt,修改参数–resume的默认参数为Ture 2. runs/train/exp*/w ...

Day 22 22.1.1：增量式爬虫 - 场景1的实现

场景1的实现：

数据指纹：

创建爬虫爬虫文件：

进入爬虫文件：

可能存在的错误

redis可能用到的指令

爬虫文件

items.py

pipelines.py

settings.py

Day 22 22.1.1：增量式爬虫 - 场景1的实现的更多相关文章

随机推荐

热门专题