小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline

# -*- coding: utf-8 -*-

from scrapy import Spider, Request

from first_scrapy.items import ImageItem

class MziTuSpider(Spider):

    name = 'MziTuSpider'

    allowed_domains = ['www.mzitu.com']

    start_urls = ['https://www.mzitu.com/mm/']

    def start_requests(self):

        headers = {

            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',

            'referer': 'https://www.mzitu.com/'

        }

        yield Request('https://www.mzitu.com/mm/', self.parse, headers = headers)

    def parse(self, response):

        imageList = response.css('.postlist ul li')

        for image in imageList:

            item = ImageItem()

            item['id'] = image.css('a::attr("href")').extract_first().split('/')[3]

            item['url'] = image.css('a::attr("href")').extract_first()

            item['title'] = image.css('a img::attr("alt")').extract_first()

            item['thumb'] = image.css('a img::attr("data-original")').extract_first()

            yield item

其次我们再创建一个 Item 用来提取信息，示例代码如下：

import scrapy

class ImageItem(scrapy.Item):

    collection = table = 'image'

    id = scrapy.Field()

    url = scrapy.Field()

    title = scrapy.Field()

    thumb = scrapy.Field()

在前面的示例中我们已经创建了一个 MongoPipeline 用来讲数据保存在 MongoDB 中，本次我们再加一个 MysqlPipeline 将数据保存在 Mysql 中，示例代码如下：

前提需本地正常安装 pymysql 。

import pymysql

class MysqlPipeline():

    def __init__(self, host, database, user, password, port):

        self.host = host

        self.database = database

        self.user = user

        self.password = password

        self.port = port

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            host=crawler.settings.get('MYSQL_HOST'),

            database=crawler.settings.get('MYSQL_DATABASE'),

            user=crawler.settings.get('MYSQL_USER'),

            password=crawler.settings.get('MYSQL_PASSWORD'),

            port=crawler.settings.get('MYSQL_PORT'),

        )

    def open_spider(self, spider):

        self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8',

                                  port=self.port)

        self.cursor = self.db.cursor()

    def close_spider(self, spider):

        self.db.close()

    def process_item(self, item, spider):

        print(item['title'])

        data = dict(item)

        keys = ', '.join(data.keys())

        values = ', '.join(['%s'] * len(data))

        sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)

        self.cursor.execute(sql, tuple(data.values()))

        self.db.commit()

        return item

这里和前面一样，我们需要在 settings 中配置一些有关 Mysql 的内容，如下：

MYSQL_HOST = 'localhost'

MYSQL_DATABASE = 'test'

MYSQL_USER = 'root'

MYSQL_PASSWORD = '123456'

MYSQL_PORT = 3306

还需在 settings 中增加我们的 MysqlPipeline 的相关配置，如下：

ITEM_PIPELINES = {

    'first_scrapy.pipelines.MongoPipeline': 400,

    'first_scrapy.pipelines.MysqlPipeline': 401,

}

这样，我们就创建好了我们的示例程序，现在通过命令行来启动我们的 Spider 。

scrapy crawl MziTuSpider

执行结果：

可以看到，我们的 MongoDB 和 Mysql 数据都正常的存入。

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline的更多相关文章

小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 数据分析（7）：Pandas （六）数据导入
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 数据分析（1）：数据分析基础
各位同学好,小编接下来为大家分享一些有关 Python 数据分析方面的内容,希望大家能够喜欢. 人工植入广告: PS:小编最近两天偷了点懒,好久没有发原创了,最近是在 CSDN 开通了一个付费专栏,用 ...

随机推荐

zoj 2338 The Towers of Hanoi Revisited
The Towers of Hanoi Revisited Time Limit: 5 Seconds Memory Limit: 32768 KB Special Judge You all mus ...
MYSQL设置远程账户登陆总结，mysql修改、找回密码、增加新用户，MySQL数据库的23个注意事项
1.5 设置及修改Mysql root用户密码1 设置密码方法mysqladmin -u root password '123456'mysqladmin -u root -p'123456' pas ...
zoj 3652 Maze
Maze Time Limit: 2 Seconds Memory Limit: 65536 KB Celica is a brave person and believer of a Go ...
TSLint-Angular 配置
代码风格和语义的检查工具,帮助规范 TS 和 Angular 代码书写: 安装: => cnpm install // 安装相关依赖全局安装 cnpm install -g tslint ty ...
C# 操作XML学习笔记
1. Customers.xml <?xml version="1.0" encoding="utf-8"?> <cust:customers ...
H3C RIPv1的缺点
H3C 多路径网络中环路产生过程（2）
TCP和UDP的联系和用途
一.区别二者都是有用的和常用的,如果纯粹从概念上区分二者就比较费解了,我们直接从功能上进行区分,简单明了: 这两种传输协议也就是合于适配不同的业务和不同的硬件终端. ...
Yet Another Number Sequence——[矩阵快速幂]
Description Everyone knows what the Fibonacci sequence is. This sequence can be defined by the recur ...
linux初始化和关停
如已提到的, 模块初始化函数注册模块提供的任何功能. 这些功能, 我们指的是新功能, 可以由应用程序存取的或者一整个驱动或者一个新软件抽象. 实际的初始化函数定义常常如: static int ...

小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline

引言

自定义 Item Pipeline

process_item(self, item, spider)

open_spider(self, spider)

close_spider(self, spider)

from_crawler(cls, crawler)

示例

示例代码

小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline的更多相关文章

随机推荐

热门专题