scrapy爬取数据保存csv、mysql、mongodb、json

前言

用Scrapy进行数据的保存进行一个常用的方法进行解析

Items

item 是我们保存数据的容器，其类似于 python 中的字典。使用 item 的好处在于： Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。且看栗子：

import scrapy

class Doubantop250Item(scrapy.Item):

    title = scrapy.Field()  # 电影名字

    star = scrapy.Field()  # 电影评分

    quote = scrapy.Field()  # 脍炙人口的一句话

    movieInfo = scrapy.Field()  # 电影的描述信息，包括导演、主演、电影类型

Pipelines

pipelines.py 一般我们用于保存数据，其方法的一些介绍如下图。下面，我会分多种方式来保存我们的数据，避免你耍流氓。

保存到 Json

import json

class JsonPipeline(object):

    file_name = base_dir + '/doubanTop250/data.json'  # json 文件路径

    def process_item(self, item, spider):

        file = open(self.file_name, 'r', encoding='utf-8')

        load_data = json.load(file)

        load_data.append({"title": item["title"].strip()}) # 追加数据

        file = open(self.file_name, 'w', encoding='utf-8')

        json.dump(load_data, file, ensure_ascii=False) # 保存数据

        file.close()

        return item

保存到 CSV

def appendDta2Csv(self, file_name, new_headers, new_data):

        with open(file_name,'r') as f:

            f_csv = csv.reader(f)

            try:# 如何有源文件没有 headers ，将调用传进来的 headers

                headers = next(f_csv)

            except:

                headers = new_headers

            old_data = list(f_csv)

            old_data.append(new_data) # 追加新的数据

            with open(file_name, 'w') as f2:# 保存数据

                f_csv = csv.writer(f2)

                f_csv.writerow(headers)

                f_csv.writerows(old_data)

                f2.close()

            f.close()

    def process_item(self, item, spider):

        self.appendDta2Csv(self.file_name, ["title"], [item["title"].strip()])

        return item

保存到 MongoDB

from pymongo import MongoClient

import os

base_dir = os.getcwd()

class MongoPipeline(object):

    # 实现保存到mongo数据库的类，

    collection = 'douban'  # mongo 数据库的 collection 名字

    def __init__(self, mongo_uri, db_name, db_user, db_pass):

        self.mongo_uri = mongo_uri

        self.db_name = db_name

        self.db_user = db_user

        self.db_pass = db_pass

    @classmethod

    def from_crawler(cls, crawler):

        # scrapy 为我们访问settings提供了这样的一个方法，这里，

        # 我们需要从 settings.py 文件中，取得数据库的URI和数据库名称

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            db_name=crawler.settings.get('DB_NAME'),

            db_user=crawler.settings.get('DB_USER'),

            db_pass=crawler.settings.get('DB_PASS'))

    def open_spider(self, spider):  # 爬虫启动时调用，连接到数据库

        self.client = MongoClient(self.mongo_uri)

        self.zfdb = self.client[self.db_name]

        self.zfdb.authenticate(self.db_user, self.db_pass)

    def close_spider(self, spider):  # 爬虫关闭时调用，关闭数据库连接

        self.client.close()

    def process_item(self, item, spider):

        self.zfdb[self.collection].insert({"title": item["title"].strip()})

        return item

保存到 MySQL

from sqlalchemy import create_engine, Column, Integer, String, BIGINT, ForeignKey, UniqueConstraint, Index, and_, \

    or_, inspect

from sqlalchemy.orm import sessionmaker, relationship, contains_eager

class MysqlPipeline(object):

    MYSQL_URI = 'mysql+pymysql://username:password@localhost:3306/db_name'

    # echo 为 True 将会输出 SQL 原生语句

    engine = create_engine(MYSQL_URI, echo=True)

    from sqlalchemy.ext.declarative import declarative_base

    Base = declarative_base()

    # 创建单表

    class Movie(Base):

        __tablename__ = 'movies'

        id = Column(BIGINT, primary_key=True, autoincrement=True)

        title = Column(String(200))

    # 初始化数据库

    def init_db(self):

        self.Base.metadata.create_all(self.engine)

    # 删除数据库

    def drop_db(self):

        self.Base.metadata.drop_all(self.engine)

    def open_spider(self, spider):  # 爬虫启动时调用，连接到数据库

        self.init_db()

        Session = sessionmaker(bind=self.engine)

        self.session = Session()

    def process_item(self, item, spider):

        new_movie = self.Movie(title=item["title"].strip())

        self.session.add(new_movie)

        self.session.commit()

        return item

在写好相关的 pipeline 之后，需要在 settings.py 中启用相关的 pipeline，后面的数字为调用的优先级，数字是0-1000,你可以自定义。你可以所有格式都保存，也可以注释掉其他，值保留一个。

ITEM_PIPELINES = {

    'doubanTop250.pipelines.MongoPipeline': 300,

    'doubanTop250.pipelines.MysqlPipeline': 301,

    'doubanTop250.pipelines.CsvPipeline': 302,

    'doubanTop250.pipelines.JsonPipeline': 303,

}

scrapy爬取数据保存csv、mysql、mongodb、json的更多相关文章

python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...
scrapy爬取海量数据并保存在MongoDB和MySQL数据库中
前言一般我们都会将数据爬取下来保存在临时文件或者控制台直接输出,但对于超大规模数据的快速读写,高并发场景的访问,用数据库管理无疑是不二之选.首先简单描述一下MySQL和MongoDB的区别:MySQ ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
42.scrapy爬取数据入库mongodb
scrapy爬虫采集数据存入mongodb采集效果如图: 1.首先开启服务切换到mongodb的bin目录下命令:mongod --dbpath e:\data\db 另开黑窗口命令:mongo. ...
实现多线程爬取数据并保存到mongodb
多线程爬取二手房网页并将数据保存到mongodb的代码: import pymongo import threading import time from lxml import etree impo ...
将scrapy爬取数据通过django入到SQLite数据库
1. 在django项目根目录位置创建scrapy项目,django_12是django项目,ABCkg是scrapy爬虫项目,app1是django的子应用 2.在Scrapy的settings.p ...
Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...

随机推荐

LVS负载均衡DR模式实现
LVS负载均衡之DR模式配置 DR 模式架构图: 操作步骤实验环境准备:(centos7平台) 所有服务器上配置 # systemctl stop firewalld //关闭防火墙 # sed - ...
ubuntu18.04 使用管理员权限
最近在ubuntu系统安装koa脚手架koa-generator初始化项目,报错提示要使用管理员权限执行命令. 正常情况下使用 sudo su 命令即可进入管理员权限,使用 su [ 用户名 ] 退出 ...
Beyas定理
\(Beyas\)定理首先由条件概率的计算式有 \[Pr\{A|B\}=\frac{Pr\{A\cap B\}}{Pr\{B\}}\] 结合交换律得到 \[Pr\{A\cap B\}=Pr\{B\} ...
pwn-GUESS
参考了其他wp之后才慢慢做出来的记录一下首先checksec一下有canary 放到IDA看下源码运行流程大概是有三个fork 即三次输入机会,于是无法爆破cannary 本题用的是SSP ...
Day062--django--模板,母版和继承
1.MVC和MTV MVC C Controller : 逻辑的控制 M Model : 存取数据 V View : 信息的展示 MTV M : model ORM操作 T: Template 模板 ...
Turtle库的学习积累
1.什么是turtle库 Python的Turtle库是一个直观有趣的图形绘制函数库,Turtle英文翻译过来是乌龟的意思,在绘图时可以想象成一只乌龟在移动. 2.绘图坐标体系海龟的移动方向 3.绘 ...
熟悉activemq的初步试用
1.在服务器(阿里云ubuntu16.04)上安装activemq,我是直接下载activemq: wget http://archive.apache.org/dist/activemq/apa ...
Python核心编程笔记第三章
3.1 语句和语法 3.1.1 注释( # ) 3.1.2 继续( \ ) 一般使用换行分隔,也就是说一行一个语句.一行过长的语句可以使用反斜杠( \ ) 分 ...
Mybatis-Plus入门
1 Mybatis-Plus简介 1.1 什么是Mybatis-Plus MyBatis-Plus(简称 MP)是一个 MyBatis 的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化 ...
如何用ps简单快速扣头发丝
好久不用PS抠图,今天接到一个小任务,换背景,以前一直用通道的办法,但用通道比较费劲,发现一个更简单的办法,就是用快速蒙版+调整边缘. 这张是原图: 1.先用快速蒙版制作选取(Q) 再按Q,退出快速蒙 ...