爬虫2.2-scrapy框架-文件写入

scrapy框架-文件写入

scrapy框架-文件写入

1. lowb写法

~pipelines.py

前提回顾，spider.py中   data={'xx':xx, 'xxx':xxx}  yield data

import json

class QsbkPipeline(object):

    def __init__(self):

        self.fp = open('qsbk.json', 'w', encoding='utf-8')  # 初始化文件指针

    def open_spider(self, spider):

        print("spider start")  # 方便观察

    def process_item(self, item, spider):

        data = json.dumps(item, ensure_ascii=False)#将字典转换一下，同时关闭默认的ascii码很坑

        self.fp.write(data+'\n')   # 每次写入后加入换行

    def close_spider(self, spider):

        self.fp.close()

        print("spider end"）

当整个项目开始时，会执行_init_ 和open_spider函数，所以先将文件打开，方便写入。项目结束时运行close_spider函数，在这个地方关闭文件。

每次spider将数据抛出，由process_spider函数进行处理

2. 高端一点的写法

在items.py的类中创建两个实例，作为数据的传输对象

~items.py

import scrapy

class QsbkItem(scrapy.Item):

    author = scrapy.Filed()

    joke = scrapy.Filed()  # 没有为什么，就是用这个类

~qsbk_spider.py

from qsbk.items import QsbkItem

def parse(self, response):

    。。。。

    item = QsbkItem(author=author,joke=joke)  # 这里author和content是提前处理好的数据，前面的部分省略了。

    yield item

~pipelines.py

import json

class QsbkPipeline(object):

    ....

    def process_item(self, itme, spider):

        item_json = json.dumps(dict(item), ensure_ascii=False)    # 将接收到的item对象转换成字典，再用dumps函数转为json，再调用文件指针写入。

        self.fp.write(item_json+'\n')

3. 优化版本

另外对于pipelines.py的文件写入  scrapy由已经定义好的函数

from scrapy.exporters import JsonLinesItemExporter

# JsonItemExporter类在结束时使用self.fp.close,然后将所有json加载到一个列表中，在结束时才统一写入，容易浪费内存，并且需要在open_spider中使用exporting.start函数

# 所以选择这个JsonLinesItemExporter 每次写入一个json，不方便之后的读取。所以数据量小的时候可以选择使用JsonItemExporter。数据也比较安全，当然也有定义好的csv文件写入方法。

~pipelines.py

from scrapy.exporters import JsonLinesItemExporter

class WxappPipeline(object):

    def __init__(self):

        self.fp = open('WXAPP.json', 'wb')

        self.export = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')

        self.fp.write(b'[')

    def process_item(self, item, spider):

        self.export.export_item(item)  # item是在items.py中定义好的类

        self.fp.write(b',')

        # 这里每次写入一点json数据后直接放个逗号进入

        # 并在开头和结尾加入了  [  ]   这样的话当爬虫结束时，一个完整的json文件就写好了。

        return item   # 返回item 不然之后的pipeline都没办法用了

    def close_spider(self, spider):

        self.fp.write(b']')

        self.fp.close()

爬虫2.2-scrapy框架-文件写入的更多相关文章

第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
第三百三十二节，web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
第三百三十二节,web爬虫讲解2—Scrapy框架爬虫—Scrapy使用 xpath表达式 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签 /x 表示向下查找一层指定的标签 ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
爬虫(二)之scrapy框架
01-scrapy介绍 02-项目的目录结构: scrapy.cfg 项目的主配置信息.(真正爬虫相关的配置信息在settings.py 文件中) items.py 设置数据存储模板,用于结构化数据, ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...

随机推荐

Flex入坑指南
弹性布局flex是一个几年前的CSS属性了,说它解放了一部分生产力不为过.至少解放了不少CSS布局相关的面试题 :) 之前网上流行的各种XX布局,什么postion: absolute+margin, ...
OpenID Connect Core 1.0（二）ID Token
2.ID Token(ID Token) OpenID Connect主要是对OAuth 2.0 能够使得终端用户通过ID Token的数据结构进行验证.当客户端和潜在的其他请求声明,ID Token ...
[MYSQL][1]创建，修改，删除表
查看有哪些数据库: SHOW DATABASES; 创建,删除数据库: CREATE DATAABASE mydb; DROP DATABASE mydb; 查看有哪些表: SHOW TABLES; ...
sql 复杂查询以teacher student course多对多关系为例
数据库表和值 /* SQLyog Ultimate v8.32 MySQL - 5.7.17-log : Database - course_dbms ************************ ...
前端优化：css雪碧图实践应用详解
一为什么需要使用雪碧图二CSS雪碧图原理及应用前端是接近用户体验的一个项目组成部分,合适的优化能够大大减少网页响应时间,合理的资源加载自然成为了工作中的要务,现在就结合实例讲解到底什么是css雪 ...
h5跳转到app的实现
随着业务的增加,可能存在这么一种需求,就是需要从h5中直接跳转到app.如果没有安装app的话,则提示到应用市场或者app store下载安装.不过问题就在这个地方,单纯的用h5是没有方法判断是否安装 ...
分析nginx 日志常用命令
一.概念并发连接数客户端向服务器发起请求,并建立了TCP连接.每秒钟服务器链接的总TCP数量,就是并发连接数.请求数请求数指的是客户端在建立完连接后,向http服务发出GET/POS ...
python中正则表达式re模块详解
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索,替换,匹配验证都不在话下. 当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了. 先看一下常用的匹配 ...
Facebook 被指收集用户数据：通过照片和文本
北京时间5月25日消息,在加利福尼亚州进行的对Facebook泄露用户信息一案中,法院对Facebook提起一项新的诉讼,指控该公司通过App收集了用户及他们朋友的信息. 上周向加利福尼亚州圣马特奥市 ...
顺序表删除值为 x 的元素
思路: 不要去考虑删除的字眼,要考虑如何进行保存非 x 的值这里提供两种解法,殊途同归: 1.将其中非 x 的元素统计并保存 2.统计为 x 的元素个数,并将非 x 的元素保存注意事项: 注意这里 ...

爬虫2.2-scrapy框架-文件写入

scrapy框架-文件写入

1. lowb写法

2. 高端一点的写法

3. 优化版本

爬虫2.2-scrapy框架-文件写入的更多相关文章

随机推荐

热门专题