Scrapy框架(八)--CrawlSpider

CrawlSpider类，Spider的一个子类
　　- 全站数据爬取的方式
　　　　- 基于Spider：手动请求
　　　　- 基于CrawlSpider
　　- CrawlSpider的使用：
　　　　- 创建一个工程
　　　　- cd XXX
　　- 创建爬虫文件（CrawlSpider）：
　　　　- scrapy genspider -t crawl xxx www.xxxx.com
　　　　- 链接提取器：
　　　　　　- 作用：根据指定的规则（allow）进行指定链接的提取
　　　　- 规则解析器：
　　　　　　- 作用：将链接提取器提取到的链接进行指定规则（callback）的解析

示例：爬取sun网站中的编号，新闻标题，新闻内容，标号

分析：爬取的数据没有在同一张页面中。
　　- 1.可以使用链接提取器提取所有的页码链接
　　- 2.让链接提取器提取所有的新闻详情页的链接

爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Sun.items import SunItem,DetailItem

class SunSpider(CrawlSpider):

    name = 'sun'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4']

    # 链接提取器：根据指定规则进行指定链接的提取

    link = LinkExtractor(allow=r'id=1&page=\d+')

    link_detail = LinkExtractor(allow=r'index\?id=\d+')  # 一个链接提取器对应一个规则解析器

    rules = (

        # 规则解析器：将链接提取器提取到的链接发送请求 并根据callback进行指定的解析操作

        Rule(link, callback='parse_item', follow=False),

        # follow=True 可以将链接提取器继续作用到 链接提取器提取的链接所对应的页面

        # 通过此设置可对所有的页码进行爬取 调度器有去重过滤功能

        Rule(link_detail, callback='parse_detail', follow=False),

    )

    # 以下两个方法不可以进行请求传参

    # 两个方法都把数据存储到item中 可采用两个item

    def parse_item(self, response):

        li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')

        for li in li_list:

            new_num = li.xpath('./span[1]/text()').extract_first()

            title = li.xpath('./span[3]/a/text()').extract_first()

            item = SunItem()

            item['new_num'] = new_num

            item['title'] = title

            yield item

    def parse_detail(self, response):

        print(111)

        item = DetailItem()

        new_id = response.xpath('/html/body/div[3]/div[2]/div[2]/div[1]/span[4]/text()').extract_first()

        content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]//text()').extract_first()

        print(new_id, content)

        item['new_id'] = new_id

        item['content'] = content

        yield item

items.py

class SunPipeline:

    def process_item(self, item, spider):

        if item.__class__.__name__ == 'SunItem':  # 获取当前的item的类名的字符串

            new_num = item['new_num']

            title = item['title']

        else:

            print(22)

            new_id = item['new_id']

            content = item['content']

            print(new_id,content)

        return item

注：在写正则表达式时，需要对特殊的符号进行转义。

Scrapy框架(八)--CrawlSpider的更多相关文章

爬虫scrapy框架之CrawlSpider
爬虫scrapy框架之CrawlSpider 引入提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模 ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之(CrawlSpider)
一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调pa ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...

随机推荐

java应用提速(速度与激情)
简介: 本文将阐述通过基础设施与工具的改进,实现从构建到启动全方面大幅提速的实践和理论. 作者 | 阿里巴巴CTO技术来源 | 阿里开发者公众号联合作者:道延微波沈陵梁希大熊断岭北纬未 ...
如何用 Nacos 构建服务网格生态
简介: Nacos 在阿里巴巴起源于 2008 年五彩石项目(该项目完成微服务拆分和业务中台建设),成长于十年的阿里双十一峰值考验,这一阶段主要帮助业务解决微服务的扩展性和高可用问题,解决了百万实例 ...
[PHP] Laravel-admin 模型表格-列的显示-链接: 关联关系的跳转链接
link 将字段显示为一个链接. // link方法不传参数时,链接的`href`和`text`都是当前列的值 $grid->column('homepage')->link(); // ...
SemanticFunction 自然语言函数
本文将和大家介绍 LLM 的魔法,通过自然语言编程的方式开发 SemanticFunction 函数大家都知道,编程里面的函数可以是一个完成某个功能的逻辑片段,绝大部分的函数都需要使用人类不友好的编 ...
C#的基于.net framework的Dll模块编程（四） - 编程手把手系列文章
这次继续这个系列的介绍: 一.命名空间的起名: 对于C#来说,一般命名空间的建议是:公司名(或个人名称).产品名.分类名,比如我这边是用的这个:Lzhdim.LPF.Helper,意思是个人名Lzhd ...
Java中使用try代码块自动关闭各种流（IO流……）
推荐写在 try 的括号中 /** 方式一.方式二是等价的 * <li>推荐使用方式一</li> * @since 2023/5/18 0018 * @author CC ** ...
Swift中的nil
Swift中的nil和OC中的nil不一样.OC中的nil表示不存在的对象,你无法给NSInteger类型的变量赋值nil,但是Swift中的nil表示不存在,可以给任何Optional的变量或者常量 ...
make编译报错：fatal error: filesystem: 没有那个文件或目录 #include <filesystem>
报错: fatal error: filesystem: 没有那个文件或目录 #include(filesystem) 解决方法一: 修改头文件 #include <experimental/f ...
CentOS7配置NFS服务并设置客户端自动挂载
在CentOS7中配置NFS服务并设置客户端自动挂载的步骤如下: NFS服务端配置安装NFS服务: 首先,你需要在CentOS 7服务器上安装NFS服务.你可以使用yum命令来安装: yum ins ...
wpf 斗地主单机版没有机器人出牌算法
斗地主的游戏流程实现了,剩余的音效和机器人的出牌算法,抓地主算法就用最简单的实现. 主要实现了各种牌组的组合,牌组的大小比较,总共有16种牌组基础牌组单张.炸弹.炸弹型飞机带对子.炸弹型飞机什么都 ...

Scrapy框架(八)--CrawlSpider

Scrapy框架(八)--CrawlSpider的更多相关文章

随机推荐

热门专题