在Scrapy框架中的items.py的作用

  1.可以预先定义好要爬取的字段     items.py

  1. import scrapy
  2.  
  3.  
  4. class TencentItem(scrapy.Item):
  5. # define the fields for your item here like:
  6. # name = scrapy.Field()
  7. """定义好字段,并不代表真正的值,只是占一个位置,用的时候直接赋值就行"""
  8. position = scrapy.Field()
  9. category = scrapy.Field()
  10. date = scrapy.Field()

2. 把字段定义好之后 ,就可以在爬虫中进行使用

在用的时候, item的键名要和在items.py里面定义好的字段名称一致

  1. import scrapy
  2. ''' 导入不同爬虫的类字段'''
  3. from tencent.items import TencentItem,TencentItem2,TencentItem3
  4.  
  5. class TencentSpiderSpider(scrapy.Spider):
  6. name = 'tencent_spider'
  7. allowed_domains = ['tencent.com']
  8. start_urls = ['https://hr.tencent.com/position.php']
  9.  
  10. def parse(self, response):
  11. tr_list = response.xpath("//table[@class='tablelist']//tr")[1:-1]
  12. for tr in tr_list:
  13. """使用定义好的类"""
  14. item = TencentItem()
  15. """里面的键名,必须提前在items里面定义好之后才能用"""
  16. item["position"] = tr.xpath("./td/a/text()").extract_first()
  17. item["category"] = tr.xpath(".//td[2]/text()").extract_first()
  18. item["date"] = tr.xpath(".//td[5]/text()").extract_first()
  19. yield item

3. 如果想在pipelines.py中使用的方法是大同小异,只是在进行处理的时候item传过来的是一个类对象,要对其进行相应        的  转化

  1. '''分别导入不同爬虫的字段类'''
  2. from tencent.items import TencentItem, TencentItem2, TencentItem3
  3.  
  4.  
  5. class TencentPipeline(object):
  6. def process_item(self, item, spider):
  7. """使用item的时候这里接收的是TencentItem类的对象,我们可以把它转化字典"""
  8. print(dict(item))
  9. '''针对与不同的爬虫字段类的对象,做不同的处理'''
  10. return item

4. 这样做有什么好处呢,个人理解:

(1)  可以直接看items.py,可以看出来要爬取那些字段

(2) 防止我们在item["键名"]  输入键名的时候输入错误

有多个爬虫时Item的处理

例如有个腾讯爬虫、有个京东爬虫,怎样处理

1. 在items.py里面创建不同的类,分别保存各自的字段

  1. class TencentItem(scrapy.Item):
  2. """腾讯爬虫要爬取的字段"""
  3. """定义好字段,并不代表真正的值,只是占一个位置,用的时候直接赋值就行"""
  4. position = scrapy.Field()
  5. category = scrapy.Field()
  6. date = scrapy.Field()
  7.  
  8. class JdItem(scrapy.Item):
  9. """京东爬虫要爬取的字段"""
  10. """定义好字段,并不代表真正的值,只是占一个位置,用的时候直接赋值就行"""
  11. position = scrapy.Field()
  12. category = scrapy.Field()
  13. date = scrapy.Field()

2. 然后在不同的爬虫程序里使用对应的类即可

在腾讯的爬虫里 ,  导入和使用

  1. import scrapy
  2. # 导入不同爬虫的类字段
  3. from tencent.items import TencentItem
  4.  
  5. class TencentSpiderSpider(scrapy.Spider):
  6. pass
  7. def parse(self, response):
  8. pass
  9. for tr in tr_list:
  10. """使用定义好的腾讯爬虫的类的字段"""
  11. item = TencentItem()
  12. yield item

在京东的爬虫中,可以这样使用

  1. import scrapy
  2. # 导入不同爬虫的类字段
  3. from JD.items import JdItem
  4.  
  5. class JdSpiderSpider(scrapy.Spider):
  6. pass
  7. def parse(self, response):
  8. pass
  9. for tr in tr_list:
  10. """使用定义好的腾讯爬虫的类的字段"""
  11. item = JdItem()
  12. yield item

3. 对于多个爬虫,在pipelines,py中可以进行判断,分别对不同的爬虫的字段进行不同的处理

    isinstance() 函数来判断一个对象是否是一个已知的类型

  1. '''分别导入不同爬虫的字段类'''
  2. from tencent.items import TencentItem, JdItem2
  3.  
  4.  
  5. class TencentPipeline(object):
  6. def process_item(self, item, spider):
  7. '''针对与不同的爬虫字段类的对象,做不同的处理'''
  8. if isinstance(item, TencentItem):
  9. pass
  10. if isinstance(item, JdItem2):
  11. pass
  12. return item

Scrapy框架的学习(6.item介绍以及items的使用(提前定义好字段名))转载https://blog.csdn.net/wei18791957243/article/details/86259688的更多相关文章

  1. K8S 使用NFS 创建PV和PVC的例子 学习From https://blog.csdn.net/xts_huangxin/article/details/51494472

    1. 获取资料 网址: https://blog.csdn.net/xts_huangxin/article/details/51494472  感谢原作者 这里面 按照自己的机器情况进行了学习模仿 ...

  2. Android 学习路线图(转载自https://blog.csdn.net/lixuce1234/article/details/77947405)

    程序设计 一.java (a)基本语法(如继承.异常.引用.泛型等) Java核心技术 卷I(适合入门) 进阶 Effective Java中文版(如何写好的Java代码) Java解惑 (介绍烂Ja ...

  3. OpenGL学习脚印: uniform blocks在着色器中的使用 转自https://blog.csdn.net/wangdingqiaoit/article/details/52717963

    写在前面 目前,我们在着色器中要传递多个uniform变量时,总是使用多个uniform,然后在主程序中设置这些变量的值:同时如果要在多个shader之间共享变量,例如投影矩阵projection和视 ...

  4. scala学习(idea编译过程https://blog.csdn.net/guiying712/article/details/68947747)

    scala官网 https://www.scala-lang.org/ 菜鸟教程学习 http://www.runoob.com/scala/scala-basic-syntax.html w3sch ...

  5. Bootstrap学习4--Table样式(转载:https://blog.csdn.net/Fanbin168/article/details/53208869)

    备注:最新Bootstrap手册:http://www.jqhtml.com/bootstraps-syntaxhigh/index.html 将<table>标签添加class=‘tab ...

  6. 学习mongoDB的一些感受(转自:http://blog.csdn.net/liusong0605/article/details/11581019)

    曾经使用过mongoDB来保存文件,最一开始,只是想总结一下在开发中如何实现文件与mongoDB之间的交互.在此之前,并没有系统的了解过mongoDB,虽然知道我们用它来存储文件这些非结构化数据,但是 ...

  7. jbpm的学习 出处http://blog.csdn.net/hxirui/article/details/1221911

    jbpm入门例子 分类: opensourse2006-09-14 11:30 37308人阅读 评论(22) 收藏 举报 jbpmhibernate数据库oraclemysqltransition ...

  8. Mapreduce之序列化框架(转自http://blog.csdn.net/lastsweetop/article/details/9376495)

    框架简介 MapReduce仅仅可以支持Writable做key,value吗?答案是否定的.事实上,一切类型都是支持的,只需满足一个小小的条件:每个类型是以二进制流的形式传输.为此Hadoop提供了 ...

  9. H5学习系列之文件读取API--本文转自http://blog.csdn.net/jackfrued/article/details/8967667

    HTML5定义了FileReader作为文件API的重要成员用于读取文件,根据W3C的定义,FileReader接口提供了读取文件的方法和包含读取结果的事件模型. FileReader的使用方式非常简 ...

随机推荐

  1. C++笔试面试题整理

    朋友给出的一些常见的C++面试题,特整理如下,后期遇到新的再更新. 面试题 列举并解释C++中的四种运算符转化,说明它们的不同点: static_cast: 在功能上基本上与C风格的类型转换一样强大, ...

  2. JS对象与Dom对象与jQuery对象之间的区别

    前言 通过问题看本质: 举例: js的写法:document.getElementById('save').disabled=true; 在jquery中我是这样写的 $("#save&qu ...

  3. 将RAC软件转换为单实例软件

    将RAC软件转换为单实例软件 http://blog.itpub.net/26736162/viewspace-2155632/ 1. Stop database and CRS on both no ...

  4. MySQL 千万 级数据量根据(索引)优化 查询 速度

    一.索引的作用 索引通俗来讲就相当于书的目录,当我们根据条件查询的时候,没有索引,便需要全表扫描,数据量少还可以,一旦数据量超过百万甚至千万,一条查询sql执行往往需要几十秒甚至更多,5秒以上就已经让 ...

  5. IntelliJ IDEA License Server 安装使用 Mac篇

    一.下载 IntelliJ IDEA 是Java开发利器,用社区版不爽,干催就用旗舰版,这个是收费的,需要licence.  IntelliJ IDEA下载地址:https://www.jetbrai ...

  6. python if,for,while

    # -*- coding:utf-8 -*- # 第四章 if for while #布尔逻辑 print True == False print True and False print True ...

  7. oracle多个单引号的处理

    Oracle多个单引号的处理 在ORACLE中,单引号有两个作用,一是字符串是由单引号引用,二是转义.单引号的使用是就近配对,即就近原则.而在单引号充当转义角色时相对不好理解. 下面转载 1.从第二个 ...

  8. 【Zookeeper系列】ZooKeeper安装配置(转)

    原文链接:https://www.cnblogs.com/sunddenly/p/4018459.html 一.Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪 ...

  9. HTML使用CSS样式的方法

      在html网页中引入css样式表主要有一下四种方法 1.行内引入 <p ></p> 2.嵌入式 <style type="text/css"> ...

  10. windows服务器的误解

    自以为服务器就一种 配置,mac,windows服务器 目的:mac希望连接windows服务器,并替换打包的项目文件, 误区,使用ssh 最后明白了 直到看到一句话 阿里云ECS的安全组默认只放行2 ...