Scrapy框架(二)--持久化存储

持久化存储

scrapy的高性能持久化存储操作，有两种方式：基于终端指令的持久化存储和基于管道的持久化存储操作。

基于终端指令的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。

执行指令：
执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储
scrapy crawl 爬虫名称 -o xxx.json
scrapy crawl 爬虫名称 -o xxx.xml
scrapy crawl 爬虫名称 -o xxx.csv

# -*- coding: utf-8 -*-

import scrapy

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        # # 基于终端的持久化存储

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        all_data = []

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # 在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content)

            dic = {

                'author': author,

                'content': content

            }

            all_data.append(dic)

            # 基于终端持久化存储 要求是存储parse方法的返回值 'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle'

        return all_data

- 要求：只可以将parse方法的返回值存储到本地的文本文件中
- 注意：持久化存储对应的文本文件的类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle
- 指令：scrapy crawl xxx -o filePath
- 好处：简介高效便捷
- 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

基于管道的持久化存储操作

我们首先来认识如下两个文件：
　　items.py：数据结构模板文件。定义数据属性。
　　pipelines.py：管道文件。接收数据（items），进行持久化操作。

持久化流程：

　　1.爬虫文件爬取到数据后，需要将数据封装到items对象中。
　　2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。
　　3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储
　　4.settings.py配置文件中开启管道

爬虫文件：qiushi.py

# -*- coding: utf-8 -*-

import scrapy

from qiuShi.items import QiushiItem

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        # 基于管道的持久化存储

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # 在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content)

            item = QiushiItem()

            item['author'] = author

            item['content'] = content

            yield item  # 将item提交给管道

items文件：items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class QiushiItem(scrapy.Item):

    # define the fields for your item here like:

    author = scrapy.Field()

    content = scrapy.Field()  # 存储的数据用item封装 固定形式

管道文件:pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

class QiushiPipeline:

    # 持久化存储

    fp = None

    # 重写父类方法 该方法只在爬虫开始时执行一次

    def open_spider(self, spider):

        print('爬取开始...')

        self.fp = open('qishi.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        author = item['author']

        content = item['content']

        self.fp.write(author + ':' + content + '\n')

        return item  # 可以将item交给下一个被执行的管道类

    # 重写父类方法 该方法只在爬虫结束时 执行一次

    def close_spider(self, spider):

        print('爬取结束！')

        self.fp.close()

# 管道文件中的一个管道类 对应将数据存储到一个平台或者载体中

class mysqlPipeline:
"""存入数据库"""

    conn = None

    cursor = None

    def open_spider(self, spider):

        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='', db='qiushi', charset='utf8')

    def process_item(self, item, spider):

        self.cursor = self.conn.cursor()

        try:

            self.cursor.execute('insert into qiushi values("%s","%s")' % (item['author'], item['content']))

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

        return item

    def close_spider(self, spider):

        self.cursor.close()

        self.conn.close()

# 管道中的item会被提交到优先级最高的类

配置文件:settings.py

# 开启管道 300为优先级 数值越小 优先级越高

ITEM_PIPELINES = {

   'qiuShi.pipelines.QiushiPipeline': 300,

   'qiuShi.pipelines.mysqlPipeline': 301

}

Scrapy框架(二)--持久化存储的更多相关文章

scrapy框架的持久化存储
一 . 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存 ...
（六--二）scrapy框架之持久化操作
scrapy框架之持久化操作基于终端指令的持久化存储基于管道的持久化存储 1 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过 ...
scrapy 爬虫框架之持久化存储
scrapy 持久化存储一.主要过程: 以爬取校花网为例 : http://www.xiaohuar.com/hua/ 1. spider 回调函数返回item 时要用y ...
scrapy框架之持久化操作
1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储: ...
爬虫开发8.scrapy框架之持久化操作
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
小爬爬5:scrapy介绍3持久化存储
一.两种持久化存储的方式 1.基于终端指令的吃持久化存储: 特点:终端指令的持久化存储,只可以将parse方法的返回值存储到磁盘文件因此我们需要将上一篇文章中的author和content作为返回值 ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
Scrapy 框架，持久化文件相关
持久化相关相关文件 items.py 数据结构模板文件.定义数据属性. pipelines.py 管道文件.接收数据(items),进行持久化操作. 持久化流程 1.爬虫文件爬取到数据后,需要将数据 ...
10 Scrapy框架持久化存储
一.基于终端指令的持久化存储保证parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的 ...

随机推荐

力扣227(java)-基本计算器Ⅱ（中等）
题目: 给你一个字符串表达式 s ,请你实现一个基本计算器来计算并返回它的值. 整数除法仅保留整数部分. 你可以假设给定的表达式总是有效的.所有中间结果将在 [-231, 231 - 1] 的范围内. ...
阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)
简介:EPL背后的技术框架是如何设计的?开发者可以怎么使用EPL?EPL未来有哪些规划?今天一起来深入了解. 作者 | 王林.飒洋来源 | 阿里技术公众号一导读最近阿里云机器学习PAI平 ...
[GPT] jquery chosen插件选择的多个元素是逗号分隔的，怎么设置成其它分隔符号 ?
如果你想要在 jQuery Chosen 插件中使用其它分隔符号,可以通过以下方式实现: 1. 设置 delimiter 选项为一个包含所需分隔符的字符串. $(".chosen-selec ...
dotnet 修复 Uno 中文乱码
这是一个历史问题,在使用 Uno 展示中文的时候,如果设置 Uno 的底层使用 Skia 系进行渲染,那么将会因为中文字体问题,导致渲染出现乱码.此问题已被我修复,最佳解法是更新到最新版本在上一篇博 ...
phpstudy8.1安装与配置
环境: window10 phpstudy8.1.1.3 Vmware安装centos7.6 使用场景 window10安装mysql和redis 在Vmware安装centos7.6 桥接模式上网 ...
fastposter发布1.5.0 跨语言的海报生成器
fastposter发布1.5.0 跨语言的海报生成器 v1.5.0 增加右键复制.粘贴操作 fastposter低代码海报生成器,一分钟完成海报开发.支持Java,Python,PHP,Go,Jav ...
小程序中 canvas 的图片不支持 base64 格式
首先使用 wx.base64ToArrayBuffer 将 base64 数据转换为 ArrayBuffer 数据,使用FileSystemManager.writeFile 将 ArrayBuffe ...
（图形界面）Dbever连接MySQL8 报错mysql8 安装The server time zone value '�й��׼ʱ��' is unrecognized or represents more than one time zone.
问题原因是没有设置时区,这个在Mysql8中会有解决方式: 在这个位置加上UTC时区就可以了. IDEA添加方式设置Advanced的allowPublicKeyRetrieval为true 同时 ...
训练营 |【AIRIOT大学计划暑期训练营】第三期即将开营，报名从速！
培养新生力量,聚焦产业融合.为了促进物联网产业的纵深发展和创新,推进教育链.产业链与创新链的有机衔接,提高学生理论.实践和创新能力,为行业培养更多优秀人才,航天科技控股集团股份有限公司将于2023年7 ...
grafana模板参考
空的,把面板都删除了 { "__inputs": [ { "name": "DS_PROMETHEUS", "label" ...

Scrapy框架(二)--持久化存储

Scrapy框架(二)--持久化存储的更多相关文章

随机推荐

热门专题