ITEM PIPELINE用法详解:

 ITEM PIPELINE作用:

  • 清理HTML数据
  • 验证爬取的数据(检查item包含某些字段)
  • 去重(并丢弃)【预防数据去重,真正去重是在url,即请求阶段做】
  • 将爬取结果保存到数据库中


ITEM PIPELINE核心方法(4个)

(1)、open_spider(spider)

(2)、close_spider(spider)

(3)、from_crawler(cls,crawler)

(4)、process_item(item,spider)

下面小伙伴们我们依次来分析:

1、open_spider(spider) 【参数spider 即被开启的Spider对象】

该方法非必需,在Spider开启时被调用,主要做一些初始化操作,如连接数据库等

2、close_spider(spider)【参数spider 即被关闭的Spider对象】

该方法非必需,在Spider关闭时被调用,主要做一些如关闭数据库连接等收尾性质的工作

3、from_crawler(cls,crawler)【参数一:Class类 参数二:crawler对象】

该方法非必需,Spider启用时调用,早于open_spider()方法,是一个类方法,用@classmethod标识,它与__init__函有关,这里我们不详解(一般我们不对它进行修改)

4、process_item(item,spider)【参数一:被处理的Item对象 参数二:生成该Item的Spider对象】

该方法必需实现,定义的Item pipeline会默认调用该方法对Item进行处理,它返回Item类型的值或者抛出DropItem异常


实例分析(以下实例来自官网:https://doc.scrapy.org/en/latest/topics/item-pipeline.html)

  1. from scrapy.exceptions import DropItem
  2.  
  3. class PricePipeline(object):
  4.  
  5. vat_factor = 1.15
  6.  
  7. def process_item(self, item, spider):
  8. if item['price']:
  9. if item['price_excludes_vat']:
  10. item['price'] = item['price'] * self.vat_factor
  11. return item
  12. else:
  13. raise DropItem("Missing price in %s" % item)

代码分析:

首先定义了一个PricePipeline类

定义了增值税税率因子为1.15

主函数process_item方法实现了如下功能:判断Item中的price字段,如没计算增值税,则乘以1.15,并返回Item,否则直接抛弃

总结:该方法要么return item给后边的管道处理,要么抛出异常


数据去重

  1. from scrapy.exceptions import DropItem
  2.  
  3. class DuplicatesPipeline(object):
  4.  
  5. def __init__(self):
  6. self.ids_seen = set()
  7.  
  8. def process_item(self, item, spider):
  9. if item['id'] in self.ids_seen:
  10. raise DropItem("Duplicate item found: %s" % item)
  11. else:
  12. self.ids_seen.add(item['id'])
  13. return item

代码分析:

首先定义了一个DuplicatesPipeline类

这里比上面多了一个初始化函数__init__,set()---去重函数

主函数process_item方法首先判断item数据中的id是否重复,重复的就将其抛弃,否则就增加到id,然后传给下个管道


将数据写入文件

  1. import json
  2.  
  3. class JsonWriterPipeline(object):
  4.  
  5. def open_spider(self, spider):
  6. self.file = open('items.jl', 'w')
  7.  
  8. def close_spider(self, spider):
  9. self.file.close()
  10.  
  11. def process_item(self, item, spider):
  12. line = json.dumps(dict(item)) + "\n"
  13. self.file.write(line)
  14. return item

代码分析:

首先我们定义了一个JsonWritePipeline类

定义了三个函数:

first:open_spider()在Spider开启时启用作用很简单即打开文件,准备写入数据

second:close_spider()在Spider关闭时启用作用也很简单即关闭文件

third(主要):process_items()作用如下首先将item转换为字典类型,在用json.dumps()序列化为json字符串格式,再写入文件,最后返回修改的item给下一个管道


综合实例

  1. import pymongo
  2.  
  3. class MongoPipeline(object):
  4.  
  5. collection_name = 'scrapy_items'
  6.  
  7. def __init__(self, mongo_uri, mongo_db):
  8. self.mongo_uri = mongo_uri
  9. self.mongo_db = mongo_db
  10.  
  11. @classmethod
  12. def from_crawler(cls, crawler):
  13. return cls(
  14. mongo_uri=crawler.settings.get('MONGO_URI'),
  15. mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
  16. )
  17.  
  18. def open_spider(self, spider):
  19. self.client = pymongo.MongoClient(self.mongo_uri)
  20. self.db = self.client[self.mongo_db]
  21.  
  22. def close_spider(self, spider):
  23. self.client.close()
  24.  
  25. def process_item(self, item, spider):
  26. self.db[self.collection_name].insert(dict(item))
  27. return item

代码分析:

首先我们定义了一个MongoPipeline类

这里我们修改了初始化函数__init__,给出了存储到Mongodb的链接地址和数据库名称所以更改了from_crawler()工厂函数函数(生产它的对象),这里指定了链接地址和数据表名称

最后我们定义了三个函数:

first:open_spider()在Spider开启时启用作用是打开mongodb数据库

second:close_spider()在Spider关闭时启用作用是关闭数据库

third:process_items()作用如下在数据库中插入item


项目实战:(我们以58同城镇江房屋出租为例)抓取出租信息的标题、价格、详情页的url

我是在ubuntu16.04环境下跑的

启动终端并激活虚拟环境:source course_python3.5/bin/activate

创建一个新目录project:mkdir project

创建项目:scrapy startproject city58-----cd city58----创建爬虫(这里小伙伴们注意项目名不能与爬虫名重名)scrapy genspider city58_test

下面我们正式开始

(1)、修改items.py

(2)修改city58_test.py文件(这里我们使用pyquery选择器)

(3)、重点来了,修改pipelines.py文件,小伙伴们可参考上面的案例分析

(4)最后通过settings.py启动pipeline

这里向小伙伴们科普一个小知识点:后面的数字是优先级,数字越小,越优先执行

(5)项目运行结果(部分)----下次小伙伴们想了解出租信息可以找我,我帮你秒下。哈哈!

并且我们可以在同级目录下找到我们写入的文件

总结:

(1)、首先了解了管道的作用

(2)、掌握了核心的方法,其中特别是process_item()方法

(3)、最后我们通过实例和项目进行实战,后面我们会继续学习如何使用管道进行高级的操作,敬请期待,记得最后一定要在配置文件中开启Spider中间件

Scrapy爬虫框架第七讲【ITEM PIPELINE用法】的更多相关文章

  1. Scrapy爬虫框架第八讲【项目实战篇:知乎用户信息抓取】--本文参考静觅博主所写

    思路分析: (1)选定起始人(即选择关注数和粉丝数较多的人--大V) (2)获取该大V的个人信息 (3)获取关注列表用户信息 (4)获取粉丝列表用户信息 (5)重复(2)(3)(4)步实现全知乎用户爬 ...

  2. Scrapy爬虫框架第四讲(Linux环境)

    下面我们来学习Selector的具体使用:(参考文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/selectors.html) Selecto ...

  3. scrapy框架中Item Pipeline用法

    scrapy框架中item pipeline用法 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的pyt ...

  4. 第十七节:Scrapy爬虫框架之item.py文件以及spider中使用item

    Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误. 1.创建it ...

  5. Python-S9-Day126——Scrapy爬虫框架

    01 今日内容概要 02 内容回顾和补充:scrapy 03 内容回顾和补充:网络和并发编程 04 Scrapy爬虫框架:pipeline做持久化(一) 05 Scrapy爬虫框架:pipeline做 ...

  6. Python之Scrapy爬虫框架安装及简单使用

    题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...

  7. Scrapy爬虫框架中的两个流程

    下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...

  8. Python爬虫教程-31-创建 Scrapy 爬虫框架项目

    本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目 首先说一下,本篇是在 Anaconda 环 ...

  9. Scrapy 爬虫框架学习笔记(未完,持续更新)

    Scrapy 爬虫框架 Scrapy 是一个用 Python 写的 Crawler Framework .它使用 Twisted 这个异步网络库来处理网络通信. Scrapy 框架的主要架构 根据它官 ...

随机推荐

  1. java注解及在butternife中的实践和原理

    1.  背景 之前去一个公司,说到了java的注解,问java的注解有几种方式,然后我提到了android中的butternife和afinal注解工具,我们知道butternife在6.1版本的时候 ...

  2. ROS探索总结(十四)——move_base(路径规划)

    在上一篇的博客中,我们一起学习了ROS定位于导航的总体框架,这一篇我们主要研究其中最重要的move_base包. 在总体框架图中可以看到,move_base提供了ROS导航的配置.运行.交互接口,它主 ...

  3. Linxu命令与文件的搜索 - which, whereis, locate, find

    which (寻找『运行档』) [root@www ~]# which [-a] command 选项或参数: -a :将所有由 PATH 目录中可以找到的命令均列出,而不止第一个被找到的命令名称 范 ...

  4. Android开源经典项目

    目前包括: Android开源项目第一篇--个性化控件(View)篇   包括ListView.ActionBar.Menu.ViewPager.Gallery.GridView.ImageView. ...

  5. shell中关于sort的-o选项

    sort -o选项意思为将排序后的结果写入文件,但你可能会说我可以重定向啊: sort >file 但如果你要排序文件names里的行再写回排序后的结果: sort names > nam ...

  6. 白瑜庆:知乎基于Kubernetes的kafka平台的设计和实现

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文首发在云+社区,未经许可,不得转载. 自我介绍 我是知乎的技术中台工程师,现在是负责知乎的存储相关组件.我的分享主要基于三个,一个是简单 ...

  7. 项目中Orcale存储过程优化记录

    今天对之前写的Orcale存储过程做了一些优化,使其变得更加灵活,之前写的存储过程是使用游标存储SQL执行结果,但是使用游标带来的弊端是,在声明时,它所执行的SQL就已经被写死,无法修改.若想更加灵活 ...

  8. java程序的内存分配(一)

      首 页 阅览室 馆友 我的图书馆 帐号 java程序的内存分配(一) 收藏  JAVA 文件编译执行与虚拟机(JVM)介绍  Java 虚拟机(JVM)是可运行Java代码的假想计算机.只要根据J ...

  9. Collections.sort自定义排序的使用方法

    Collections.sort自定义排序的使用方法 总结:Collections可以对List进行排序:如果想对Map进行排序,可以将Map转化成List,进行排序: public static v ...

  10. memocache工作原理

    1       Memcache是什么 Memcache是danga.com的一个项目,最早是为 LiveJournal 服务的,目前全世界不少人使用这个缓存项目来构建自己大负载的网站,来分担数据库的 ...