Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)

如何使用scrapy连接到(SQLite,Mysql,Mongodb,Redis)数据库，并把爬取的数据存储到相应的数据库中。

一、SQLite

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到SQLite数据库

import sqlite3

class SQLitePipeline(object):

    #打开数据库

    def open_spider(self, spider):

        db_name = spider.settings.get('SQLITE_DB_NAME', 'scrapy.db')

        self.db_conn = sqlite3.connect(db_name)

        self.db_cur = self.db_conn.cursor()

    #关闭数据库

    def close_spider(self, spider):

        self.db_conn.commit()

        self.db_conn.close()

    #对数据进行处理

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    #插入数据

    def insert_db(self, item):

        values = (

            item['upc'],

            item['name'],

            item['price'],

            item['review_rating'],

            item['review_num'],

            item['stock'],

        )

        sql = 'INSERT INTO books VALUES(?,?,?,?,?,?)'

        self.db_cur.execute(sql, values)

2.修改settings.py文件，加入如下代码

# sqlite 配置

SQLITE_DB_NAME = 'scrapy.db'

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.SQLitePipeline': 400,

}

二、mysql

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到MySQL数据库

import pymysql

class MySQLPipeline(object):

    # 打开数据库

    def open_spider(self, spider):

        db = spider.settings.get('MYSQL_DB_NAME','scrapy_db')

        host = spider.settings.get('MYSQL_HOST', 'localhost')

        port = spider.settings.get('MYSQL_PORT', 3306)

        user = spider.settings.get('MYSQL_USER', 'root')

        passwd = spider.settings.get('MYSQL_PASSWORD', '123456')

        self.db_conn =pymysql.connect(host=host, port=port, db=db, user=user, passwd=passwd, charset='utf8')

        self.db_cur = self.db_conn.cursor()

    # 关闭数据库

    def close_spider(self, spider):

        self.db_conn.commit()

        self.db_conn.close()

    # 对数据进行处理

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    #插入数据

    def insert_db(self, item):

        values = (

            item['upc'],

            item['name'],

            item['price'],

            item['review_rating'],

            item['review_num'],

            item['stock'],

        )

        sql = 'INSERT INTO books VALUES(%s,%s,%s,%s,%s,%s)'

        self.db_cur.execute(sql, values)

2.修改settings.py文件，加入如下代码

# mysql 配置

MYSQL_DB_NAME = 'scrapy_db'

MYSQL_HOST = '127.0.0.1'

MYSQL_USER = 'root'

MYSQL_PASSWORD = '123456'

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.MySQLPipeline': 401,

}

三、mongodb

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到Mongodb数据库

from pymongo import MongoClient

from scrapy import Item

class MongoDBPipeline(object):

    # 打开数据库

    def open_spider(self, spider):

        db_uri = spider.settings.get('MONGODB_URI', 'mongodb://localhost:27017')

        db_name = spider.settings.get('MONOGDB_DB_NAME', 'scrapy_db')

        self.db_client = MongoClient(db_uri)

        self.db = self.db_client[db_name]

    # 关闭数据库

    def close_spider(self, spider):

        self.db_client.close()

    # 对数据进行处理

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    # 插入数据

    def insert_db(self, item):

        if isinstance(item, Item):

            item = dict(item)

        self.db.books.insert(item)

2.修改settings.py文件，加入如下代码

# mongodb 配置

MONGODB_URI = 'mongodb://127.0.0.1:27017'

MONGODB_DB_NAME = 'scrapy_db'

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.MongoDBPipeline': 403,

}

四、redis

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到redis数据库

import redis

from scrapy import Item

class RedisPipeline(object):

    # 打开数据库

    def open_spider(self, spider):

        db_host = spider.settings.get('REDIS_HOST', 'localhost')

        db_port = spider.settings.get('REDIS_PORT', 6379)

        db_index = spider.settings.get('REDIS_DB_INDEX', 0)

        self.db_conn = redis.StrictRedis(host=db_host, port=db_port, db=db_index)

        self.item_i = 0

    # 关闭数据库

    def close_spider(self, spider):

        self.db_conn.connection_pool.disconnect()

    # 处理数据

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    # 插入数据

    def insert_db(self, item):

        if isinstance(item, Item):

            item = dict(item)

        self.item_i += 1

        self.db_conn.hmset('book:{}'.format(self.item_i), item)

2.修改settings.py文件，加入如下代码

# redis 配置

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

REDIS_DB_INDEX = 0

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.RedisPipeline': 404,

}

scrapy 连接各数据的设置并不复杂，首先在pipelines文件中建立管道，建立个数据的连接，然后处理数据，关闭连接。接下来我们在settings文件中定义各类数据库的基本配置，然后在item_pipelines中启动相应的管道

Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)的更多相关文章

数据库们~MySQL~MongoDB~Redis
mysql基础 mysql进阶 python操作mysql MongoDB Redis
Python交互数据库（Mysql | Mongodb | Redis）
数据库 Mysql Mysql MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,后来被Sun公司收购,Sun公司后来又被Oracle公司收购,目前属于Oracle旗下产品 MyS ...
通过ssh管道连接内网数据库（mysql）
公网连接内网数据库(如云数据库)时,通常需要白名单:如果不是白名单IP,通常需要一个跳板机(类似代理)来连接内网数据库, 下方以mysql为例(其他数据库基本一致): import pymysql a ...
云服务器配置 docker java mysql mongodb redis nginx 环境
磁盘挂载 fdisk -l #查看磁盘列表 mkfs.ext4 /dev/vdb #格式化磁盘 mount /dev/vdb /data #挂载磁盘在/data echo '/dev/vdb /dat ...
python 连接操作各类数据库
转载自MySQL Loners 一,python 操作 MySQL:详情见:这里 #!/bin/env python # -*- encoding: utf-8 -*- #-------------- ...
Python学习笔记使用数据库SQlite Mysql
SQLite是一种嵌入式数据库,它的数据库就是一个文件.由于SQLite本身是C写的,而且体积很小,所以,经常被集成到各种应用当中, 甚至在IOS和Android的APP中都可以集成 Python就内 ...
Java使用JDBC连接随意类型数据库（mysql oracle。。）
package cn.liz.test; import java.io.InputStream; import java.sql.Connection; import java.sql.Driver; ...
linux中mysql,mongodb,redis,hbase数据库操作
.实验内容与完成情况:(实验具体步骤和实验截图说明) (一) MySQL 数据库操作学生表 Student Name English Math Computer zhangsan lisi 根据上面 ...
Springboot整合Mybatis，连接多个数据库（Mysql+Oracle）
maven依赖,需要注意的是mysql使用的版本 1 <dependencies> 2 <dependency> 3 <groupId>com.oracle.dat ...

随机推荐

代码方式配置springmvc的字符集过滤器
之前一直用的xml方式配置 <filter> <filter-name>encoding</filter-name> <filter-class>org ...
P 1019 数字黑洞
转跳点:
c++ 字符串转数字或数字转字符串
在C++中字符串转换为数字,或数字转换为字符串,用到如下函数: _itoa atoi.atof.itoa.itow _itoa_s 1.整形转换为字符串: wchar_t * _itot(int _V ...
exit(0)与exit(1)
exit(0):正常运行程序并退出程序: exit(1):非正常运行导致退出程序: return():返回函数,若在主函数中,则会退出函数并返回一值. 详细说: 1. return返回函数值,是关键字 ...
PHP四种输出语句
//echo 深入理解echo ,echo是一个函数 //echo 功能:向浏览器输出一个或多个字符串; //echo 返回值:void 无返回值; echo "今天是个好天气"; ...
spark on yarn 安装笔记
yarn版本:hadoop2.7.0 spark版本:spark1.4.0 0.前期环境准备: jdk 1.8.0_45 hadoop2.7.0 Apache Maven 3.3.3 1.编译spar ...
ES6的一些语法
let, const, class, extends, super, arrow functions, template string, destructuring, default, rest ar ...
POJ 2006：Litmus Test 化学公式
Litmus Test Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 1709 Accepted: 897 Descri ...
基于python的爬虫流程图(精简版)
网址: https://www.processon.com/view/link/5e1148b8e4b07db4cfa9cf34 如果链接失效,请及时反馈(在评论区评论),博主会及时更新
Python Scrapy的QQ音乐爬虫音乐下载、爬取歌曲信息、歌词、精彩评论
QQ音乐爬虫(with scrapy)/QQ Music Spider UPDATE 2019.12.23 已实现对QQ音乐文件的下载,出于版权考虑,不对此部分代码进行公开.此项目仅作为学习交流使用, ...

Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)

Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)的更多相关文章

随机推荐

热门专题