scrapy的使用-Pipelines

#------------------简单的对item操作方式----------------------------#

import json

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk1.json','w',encoding="utf-8")

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        # item_json=json.dumps(dict(item),ensure_ascii=False)

        # self.fp.write(item_json+'\n')

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束。。。。。')

#------------------对item操作的一种方式(高级方式推荐方式之一)----------------------------#

from scrapy.exporters import JsonItemExporter #以二进制写入,全部完成后写入（列表形式）

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk1.json','wb')

        self.exporter = JsonItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

        self.exporter.start_exporting()

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        self.exporter.export_item(item) #二进制写入开始

        return item

    def close_spider(self,spider):

        self.exporter.finish_exporting() #二进制写入关闭

        self.fp.close()

        print('爬虫结束。。。。。')

#-----------------------另一种对item操作方式（高级方式推荐方式之一，强烈推介）----------------------#

from scrapy.exporters import JsonLinesItemExporter #以二进制写入,完成一个就写#入一个

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk2.json','wb')

        self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

        self.exporter.start_exporting()

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        self.exporter.export_item(item) #二进制写入开始

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束。。。。。')

#注释：

#四个函数分别为 1.初始化爬虫函数（初始化前需要的功能所执行函数）

#             2.开启爬虫函数（爬虫开始函数所执行功能）

#             3.爬虫进行中执行的函数（进行中函数所执行的功能，将数据清理，去重等#写在这里）

#             4.关闭爬虫执行的函数（关闭爬虫函数所执行功能）

scrapy的使用-Pipelines的更多相关文章

Scrapy持久化(items+pipelines)
一.items保存爬取的文件 items.py import scrapy class QuoteItem(scrapy.Item): # define the fields for your ite ...
scrapy pipelines导出各种格式
scrapy在使用pipelines的时候,我们经常导出csv,json.jsonlines等等格式.每次都需要写一个类去导出,很麻烦. 这里我整理一个pipeline文件,支持多种格式的. # -* ...
scrapy爬虫成长日记之将抓取内容写入mysql数据库
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的.这很显然不满足我 ...
关于Scrapy框架的基本概念
Scrapy爬取网页基本概念 Scrapy爬取网页基本概念怎么样用Scrapy生成project? scrapy startproject xxx 如何用Scrapy爬取网页? import scr ...
使用scrapy爬虫,爬取起点小说网的案例
爬取的页面为https://book.qidian.com/info/1010734492#Catalog 爬取的小说为凡人修仙之仙界篇,这边小说很不错. 正文的章节如下图所示其中下面的章节为加密部 ...
爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二强大的链接 ...
七月在线爬虫班学习笔记（六）——scrapy爬虫整体示例
第六课主要内容: 爬豆瓣文本例程 douban 图片例程 douban_imgs 1.爬豆瓣文本例程 douban 目录结构 douban --douban --spiders --__init__. ...
Scrapy代码实战
1.Spider爬虫代码 # -*- coding: utf-8 -*- import scrapy from yszd.items import YszdItem class YszdSpiderS ...
爬虫(二)之scrapy框架
01-scrapy介绍 02-项目的目录结构: scrapy.cfg 项目的主配置信息.(真正爬虫相关的配置信息在settings.py 文件中) items.py 设置数据存储模板,用于结构化数据, ...

随机推荐

React入门知识点清单
做前端的一定都知道现在是三大框架--Vue.React.Angular三足鼎立的时代.Vue是公认的最容易入门的,因为它文件结构上有传统的HTML的影子,让刚接触它的前端人员刚到很"亲切&q ...
【搞定 Java 并发面试】面试最常问的 Java 并发进阶常见面试题总结！
本文为 SnailClimb 的原创,目前已经收录自我开源的 JavaGuide 中(61.5 k Star![Java学习+面试指南] 一份涵盖大部分Java程序员所需要掌握的核心知识.觉得内容不错 ...
Kibana创建索引成功，但一直不显示出来（Fielddata is disabled on text fields by default. Set fielddata=true........）
现象把EFK整个集群搭建完成后,通过Kibana操作界面创建索引(如图1),我创建了lile-zabbix*的索引,显示是创建成功了,但是只要我在重新刷新一次,已经创建的索引就“消失了”.后通过查看 ...
2016 校招， Android 开发，一个本科应届的坎坷求职之路（转）
转载出处:http://www.nowcoder.com/discuss/3244?type=2&order=0&pos=1&page=1 和大多数的面经不同,我不是大牛,手头 ...
关于C# 语言
C# 语法高度重视表达,但学习起来也很简单轻松. 任何熟悉 C.C++ 或 Java 的人都可以立即认出 C# 的大括号语法. 通常情况下,了解上述任何一种语言的开发者可以在很短的时间内就开始使用 C ...
我的第一个python web 开发框架
1:数据库结构设计与创建小白做好前端html设计后,马上开始进入数据库结构设计步骤. 在开始之前,小白回忆了一下老大在公司里培训时讲过的数据库设计解说: 对于初学者来说,很多拿到原型时不知道怎么设计 ...
win到linux的编码问题
从windows到linux的文件可能存在编码问题时,这是因为,Linux和Windows文本文件的行结束标志不同.在Linux中,文本文件用"\n"表示回车换行,而Windows ...
MySQL统计各个表中的记录数
通过下面的SQL语句可以统计出数据库的各个表中的记录数: select table_schema, table_name,table_rows from information_schema.tabl ...
CentOS 7 Cobbler 自动化安装系统
在上一篇Cobbler 安装中,配置好了Cobbler,下面来配置自动化安装配置cobbler-DHCP # 修改settings中参数,由cobbler控制dhcp [root@cobbler ~ ...
NSAttributedString可以强制转换为NSMutableAttributedString类型吗？下面这代码有什么问题为什么报错
-(void)insetEmotion:(EmotionModel*)emotionModel{ if(emotionModel.code){ /** 在TextView中插入图片首选要知道光标的位置 ...

scrapy的使用-Pipelines

scrapy的使用-Pipelines的更多相关文章

随机推荐

热门专题