Scrapy框架(十)--增量式爬虫

增量式爬虫
- 概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。
- 分析：
　　- 指定一个起始url
　　- 基于CrawlSpider获取其他页码链接
　　- 基于Rule将其他页码链接进行请求
　　- 从每一个页码对应的页面源码中解析出每一个电影详情页的URL

　　- 核心：检测电影详情页的url之前有没有请求过，这里的示例使用了redis集合的去重特性，也可以使用python集合的去重特性。
　　- 将爬取过的电影详情页的url存储
　　- 存储到redis的set数据结构

　　- 对详情页的url发起请求，然后解析出电影的名称和简介
　　- 进行持久化存储

示例：爬取电影的名称和简介，只爬取之前没有爬取过的电影。

爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from redis import Redis

from moviePro.items import MovieproItem

class MovieSpider(CrawlSpider):

    name = 'movie'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.4567kan.com/frim/index1.html']

    rules = (

        Rule(LinkExtractor(allow=r'index1-\d+\.html'), callback='parse_item', follow=False),

    )

    conn = Redis(host='127.0.0.1',port=6379)

    def parse_item(self, response):

        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')

        for li in li_list:

            title = li.xpath('./div/div/h4/a/text()').extract_first()

            detail_url = 'https://www.4567kan.com/'+li.xpath('./div/div/h4/a/@href').extract_first()

            ex = self.conn.sadd('urls', detail_url)

            # 利用redis的集合类型 如果存在 返回0  不存在 返回1

            if ex == 1:

                print("爬取成功")

                yield scrapy.Request(url=detail_url,callback=self.parse_detail)

            else:

                print('暂无新资源')

    def parse_detail(self,response):

        item = MovieproItem()

        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first()

        title = response.xpath('/html/body/div[1]/div/div/div/div[2]/h1/text()').extract_first()

        item['desc'] = desc

        item['title'] = title

        yield item

    def closed(self,response):

        self.conn.close()

items.py

import scrapy

class MovieproItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    desc = scrapy.Field()

pipelines.py

import json

class MovieproPipeline:

    def open_spider(self,spider):

        self.conn = spider.conn

    def process_item(self, item, spider):

        dic = {

            'title':item['title'],

            'desc': item['desc']

        }

        dic = json.dumps(dic)

        # 向redis中存放一个数据结构

        self.conn.lpush('movieDate',dic)

        return item

Scrapy框架(十)--增量式爬虫的更多相关文章

基于Scrapy框架的增量式爬虫
概述概念:监测核心技术:去重基于 redis 的一个去重适合使用增量式的网站: 基于深度爬取的对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的记录表:爬取过的数据对应的数据指纹 ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
使用scrapy框架做赶集网爬虫
使用scrapy框架做赶集网爬虫一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel ...
Day 22 22.1：增量式爬虫
Day 22 22.1:增量式爬虫爬虫应用场景分类通用爬虫聚焦爬虫功能爬虫分布式爬虫增量式爬虫: 用来监测网站数据更新的情况(爬取网站最新更新出来的数据). 只是一种程序设计的思路,使用什 ...
爬虫---scrapy分布式和增量式
分布式概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因调度器不能被共享, 管道也不能被共享 ...
Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...
scrapy框架解读--深入理解爬虫原理
scrapy框架结构图: 组成部分介绍: Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件 Scheduler: 接收requests,并把他们入队,以便后续的调度 Do ...
增量式爬虫 Scrapy-Rredis 详解及案例
1.创建scrapy项目命令 scrapy startproject myproject 2.在项目中创建一个新的spider文件命令: scrapy genspider mydomain mydom ...
Scrapy学习-23-分布式爬虫
scrapy-redis分布式爬虫分布式需要解决的问题 request队列集中管理去重集中管理存储管理使用scrapy-redis实现分布式爬虫 github开源项目: https://g ...

随机推荐

Quick BI：降低使用门槛，大东鞋业8000家门店的数据导航
简介: 通过引入MaxCompute和Quick BI,大东解决了以往数据查询即刻导致数据库闪崩的状况,还搭建起完善的报表体系,稳定应对高频.高并发的数据分析. 大东鞋业一季大约有500款的新品.大区 ...
庖丁解牛-图解MySQL 8.0优化器查询解析篇
简介: SQL优化器本质上是一种高度抽象化的数据接口的实现,经过该设计,客户可以使用更通用且易于理解的SQL语言,对数据进行操作和处理,而不需要关注和抽象自己的数据接口,极大地解放了客户的应用程序. ...
[FE] Quasar BEX 不同位置类型的 debug 调试方式
科普:[FE] Quasar BEX 所有位置类型 types 不同类型调试,查看错误在不同的位置,如下图中的 4 个位置. Refer:https://quasar.dev/quasar-cli/d ...
IIncrementalGenerator 增量 Source Generator 生成代码应用将构建时间写入源代码
本文将和大家介绍一个 IIncrementalGenerator 增量 Source Generator 生成代码技术的应用例子,将当前的构建时间写入到代码里面.这个功能可以比较方便实现某些功能的开关 ...
IIncrementalGenerator 判断程序集的引用关系
本文将告诉大家如何在 IIncrementalGenerator 增量 Source Generator 生成代码里面,在 Roslyn 分析器里面判断两个程序集是否存在引用关系先上核心代码实现,核 ...
前端JavaScript开发风格规范
开发者需要建立和遵守的规范大致可以划分成这几个方向: 开发流程规范代码规范 git commit规范项目文件结构规范 UI设计规范 1. 开发流程规范这里可能有小伙伴有疑问了,开发流程规范不是 ...
Java异步编程CompletableFuture
Java 通过多线程可以实现异步编程,下面是一个使用 Java 多线程实现异步编程的示例: public class AsyncDemo { public static void main(Strin ...
【源码】蚁群算法TSP问题可视化
ACO.Visualization项目本项目演示蚁群算法求解旅行商问题的可视化过程,包括路径上的信息素浓度.蚁群的运动过程等.项目相关的代码:https://github.com/anycad/AC ...
记录freeswitch的一个2833问题
概述 freeswitch是一款简单好用的VOIP开源软交换平台. 运营商内部新老系统混用,互联互通的问题较多,其中以DTMF码的问题最多,花样也多. 环境 CentOS 7.9 freeswitch ...
Haproxy+Nginx+Tomcat实现动静分离页面
一.Haproxy概述: 二.Haproxy原理实现: 三.Nginx.LVS.Haproxy对比: 四.Haproxy配置文件讲解: 五.案例:Haproxy+Nginx+Tomcat搭建高可用集群 ...

Scrapy框架(十)--增量式爬虫

Scrapy框架(十)--增量式爬虫的更多相关文章

随机推荐

热门专题