pipeline的存储代码

在spider中最后一个函数返回item时会scrapy会调用pipeline里面的

process_item(self, item, spider):
函数并传入item，spider等参数
在这里可以将数据进行持久化储存
我的piple代码

# -*- coding: utf- -*-

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import MySQLdb

import MySQLdb.cursors

from twisted.enterprise import adbapi

class MyPipeline(object):  ##这里的函数名于setting中的对应

    def __init__(self, dbpool):

        self.dbpool = dbpool

    @classmethod 　　 ##得到数据库的连接

    def from_settings(cls, settings):

        dbargs = dict(

                host = settings['MYSQL_HOST'],

                db = settings['MYSQL_DBNAME'],

                port = settings['MYSQL_PORT'],

                user = settings['MYSQL_USER'],

                passwd = settings['MYSQL_PASSWD'],

                charset = 'utf8',

                cursorclass = MySQLdb.cursors.DictCursor,

                use_unicode = True,

            )

        dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)

        return cls(dbpool)

    def process_item(self, item, spider): ##这个函数会在spider返回时调用

        d = self.dbpool.runInteraction(self._do_upinsert, item, spider)

        return item

    def _do_upinsert(self, conn, item, spider):

        valid = True

        for data in item:

            if not data:

                valid = False

        if valid: 　　　　　　　　##执行sql

            result = conn.execute(‘sql’)

            if result:

                print 'added a record'

            else:

                print 'failed insert into table'

代码git地址：过几天会上传

pipeline的存储代码的更多相关文章

drone的pipeline原理与代码分析
最近的一个项目,需要实现一个工作任务流(task pipeline),基于之前CICD的经验,jenkins pipeline和drone的pipeline进入候选. drone是基于go的cicd解 ...
Rails的静态资源管理（六）—— Asset Pipeline缓存存储方式、预处理、升级等
官方文档:http://guides.ruby-china.org/asset_pipeline.html http://guides.rubyonrails.org/asset_pipeline.h ...
jenkins2 pipeline插件的10个最佳实践
jenkins pipeline的10个最佳实践. 文章来自:http://www.ciandcd.com文中的代码来自可以从github下载: https://github.com/ciandcd ...
Jenkins高级用法 - Pipeline 安装
一.总体介绍总体介绍内容摘自玩转Jenkins Pipeline(大宝鱼) 1.核心概念 Pipeline,简而言之,就是一套运行于Jenkins上的工作流框架,将原本独立运行于单个或者多个节点的 ...
scrapy中pipeline的一点综合知识
初次学习scrapy ,觉得spider代码才是最重要的,越往后学,发现pipeline中的代码也很有趣, 今天顺便把pipeline中三种储存方法写下来,算是对自己学习的一点鼓励吧,也可以为后来者的 ...
Scrapy持久化存储
基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作; 执行输出指定格式进行存储:将爬 ...
scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
scrapy 框架持久化存储
1.基于终端的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. # 执行输出指定格式进行存储:将 ...
GStreamer基础教程04 - 动态连接Pipeline
摘要在以前的文章中,我们了解到了2种播放文件的方式:一种是在知道了文件的类型及编码方式后,手动创建所需Element并构造Pipeline:另一种是直接使用playbin,由playbin内部动态创 ...

随机推荐

前端构建大法 Gulp 系列
参考: 前端构建大法 Gulp 系列 (一):为什么需要前端构建前端构建大法 Gulp 系列 (二):为什么选择gulp 前端构建大法 Gulp 系列 (三):gulp的4个API 让你成为gulp ...
明确出需求然后开会评审要什么接口接口参数、返回json内容、格式协定好在做
明确出需求然后开会评审要什么接口接口参数.返回json内容.格式协定好在做
wireshark初学者使用
介绍 Wireshark是一款网络封包分析软件,截取网络封包,显示其封包的详细信息.日常工作中用的比较多.在使用wireshark之前须了解常用的网络协议.如:tcp,http,ip,udp等.(其实 ...
MySQL的登陆错误：ERROR 1049 (42000): Unknown database 'root'
当初刚装MySQL的时候,到网上查的命令行登陆MySQL的方法都是mysql -u root -p password mysql -r root -p 123456 但是奇怪的是这条命令我输进去死活都 ...
JQuery数字类型验证正则表达式
有朋友整了一些关于js与jquery的数字类型验证正则表达式代码,下面我给大家再整理一下. 这里包括了数字验证实现与测试实例了,大家可参考. js验证数字正则表达式代码如下: //检测是否为数字和小 ...
mysql 5.1.71升级到5.6.30
mysql 5.1.71升级到5.6.30 mysqldump -h主机名 -P端口 -u用户名 -p密码 (–database) 数据库名 > 文件名.sql 备份MySQL数据库的命令 my ...
vue 跨域
注意!只能在本地调试使用,上线后url会出错使用以下方法要先引入网络模块先配置文件:config =>index.js以下部分改为:proxyTable: { '/apis': { // 测试 ...
vector概念
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
PHP 中使用explode()函数切割字符串为数组
explode()函数的作用:使用一个字符串分割另一个字符串,打散为数组. 例如: 字符串 $pizza = "第1 第2 第3 第4 第5 第6"; 根据空格分割后:$piece ...
L147 Low Cost Study Has High Impact Results For Premature Babies
No one knows exactly why some babies are born prematurely(早产), but some of the smallest premature ba ...

pipeline的存储代码

pipeline的存储代码的更多相关文章

随机推荐

热门专题