Scrapy框架的学习(6.item介绍以及items的使用(提前定义好字段名))转载https://blog.csdn.net/wei18791957243/article/details/86259688
在Scrapy框架中的items.py的作用
1.可以预先定义好要爬取的字段 items.py
import scrapy class TencentItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() """定义好字段,并不代表真正的值,只是占一个位置,用的时候直接赋值就行""" position = scrapy.Field() category = scrapy.Field() date = scrapy.Field()2. 把字段定义好之后 ,就可以在爬虫中进行使用
在用的时候, item的键名要和在items.py里面定义好的字段名称一致
import scrapy ''' 导入不同爬虫的类字段''' from tencent.items import TencentItem,TencentItem2,TencentItem3 class TencentSpiderSpider(scrapy.Spider): name = 'tencent_spider' allowed_domains = ['tencent.com'] start_urls = ['https://hr.tencent.com/position.php'] def parse(self, response): tr_list = response.xpath("//table[@class='tablelist']//tr")[1:-1] for tr in tr_list: """使用定义好的类""" item = TencentItem() """里面的键名,必须提前在items里面定义好之后才能用""" item["position"] = tr.xpath("./td/a/text()").extract_first() item["category"] = tr.xpath(".//td[2]/text()").extract_first() item["date"] = tr.xpath(".//td[5]/text()").extract_first() yield item3. 如果想在pipelines.py中使用的方法是大同小异,只是在进行处理的时候item传过来的是一个类对象,要对其进行相应 的 转化
'''分别导入不同爬虫的字段类''' from tencent.items import TencentItem, TencentItem2, TencentItem3 class TencentPipeline(object): def process_item(self, item, spider): """使用item的时候这里接收的是TencentItem类的对象,我们可以把它转化字典""" print(dict(item)) '''针对与不同的爬虫字段类的对象,做不同的处理''' return item4. 这样做有什么好处呢,个人理解:
(1) 可以直接看items.py,可以看出来要爬取那些字段
(2) 防止我们在item["键名"] 输入键名的时候输入错误
有多个爬虫时Item的处理
例如有个腾讯爬虫、有个京东爬虫,怎样处理
1. 在items.py里面创建不同的类,分别保存各自的字段
class TencentItem(scrapy.Item): """腾讯爬虫要爬取的字段""" """定义好字段,并不代表真正的值,只是占一个位置,用的时候直接赋值就行""" position = scrapy.Field() category = scrapy.Field() date = scrapy.Field() class JdItem(scrapy.Item): """京东爬虫要爬取的字段""" """定义好字段,并不代表真正的值,只是占一个位置,用的时候直接赋值就行""" position = scrapy.Field() category = scrapy.Field() date = scrapy.Field()2. 然后在不同的爬虫程序里使用对应的类即可
在腾讯的爬虫里 , 导入和使用
import scrapy # 导入不同爬虫的类字段 from tencent.items import TencentItem class TencentSpiderSpider(scrapy.Spider): pass def parse(self, response): pass for tr in tr_list: """使用定义好的腾讯爬虫的类的字段""" item = TencentItem() yield item在京东的爬虫中,可以这样使用
import scrapy # 导入不同爬虫的类字段 from JD.items import JdItem class JdSpiderSpider(scrapy.Spider): pass def parse(self, response): pass for tr in tr_list: """使用定义好的腾讯爬虫的类的字段""" item = JdItem() yield item3. 对于多个爬虫,在pipelines,py中可以进行判断,分别对不同的爬虫的字段进行不同的处理
isinstance() 函数来判断一个对象是否是一个已知的类型
'''分别导入不同爬虫的字段类''' from tencent.items import TencentItem, JdItem2 class TencentPipeline(object): def process_item(self, item, spider): '''针对与不同的爬虫字段类的对象,做不同的处理''' if isinstance(item, TencentItem): pass if isinstance(item, JdItem2): pass return item
Scrapy框架的学习(6.item介绍以及items的使用(提前定义好字段名))转载https://blog.csdn.net/wei18791957243/article/details/86259688的更多相关文章
- K8S 使用NFS 创建PV和PVC的例子 学习From https://blog.csdn.net/xts_huangxin/article/details/51494472
1. 获取资料 网址: https://blog.csdn.net/xts_huangxin/article/details/51494472 感谢原作者 这里面 按照自己的机器情况进行了学习模仿 ...
- Android 学习路线图(转载自https://blog.csdn.net/lixuce1234/article/details/77947405)
程序设计 一.java (a)基本语法(如继承.异常.引用.泛型等) Java核心技术 卷I(适合入门) 进阶 Effective Java中文版(如何写好的Java代码) Java解惑 (介绍烂Ja ...
- OpenGL学习脚印: uniform blocks在着色器中的使用 转自https://blog.csdn.net/wangdingqiaoit/article/details/52717963
写在前面 目前,我们在着色器中要传递多个uniform变量时,总是使用多个uniform,然后在主程序中设置这些变量的值:同时如果要在多个shader之间共享变量,例如投影矩阵projection和视 ...
- scala学习(idea编译过程https://blog.csdn.net/guiying712/article/details/68947747)
scala官网 https://www.scala-lang.org/ 菜鸟教程学习 http://www.runoob.com/scala/scala-basic-syntax.html w3sch ...
- Bootstrap学习4--Table样式(转载:https://blog.csdn.net/Fanbin168/article/details/53208869)
备注:最新Bootstrap手册:http://www.jqhtml.com/bootstraps-syntaxhigh/index.html 将<table>标签添加class=‘tab ...
- 学习mongoDB的一些感受(转自:http://blog.csdn.net/liusong0605/article/details/11581019)
曾经使用过mongoDB来保存文件,最一开始,只是想总结一下在开发中如何实现文件与mongoDB之间的交互.在此之前,并没有系统的了解过mongoDB,虽然知道我们用它来存储文件这些非结构化数据,但是 ...
- jbpm的学习 出处http://blog.csdn.net/hxirui/article/details/1221911
jbpm入门例子 分类: opensourse2006-09-14 11:30 37308人阅读 评论(22) 收藏 举报 jbpmhibernate数据库oraclemysqltransition ...
- Mapreduce之序列化框架(转自http://blog.csdn.net/lastsweetop/article/details/9376495)
框架简介 MapReduce仅仅可以支持Writable做key,value吗?答案是否定的.事实上,一切类型都是支持的,只需满足一个小小的条件:每个类型是以二进制流的形式传输.为此Hadoop提供了 ...
- H5学习系列之文件读取API--本文转自http://blog.csdn.net/jackfrued/article/details/8967667
HTML5定义了FileReader作为文件API的重要成员用于读取文件,根据W3C的定义,FileReader接口提供了读取文件的方法和包含读取结果的事件模型. FileReader的使用方式非常简 ...
随机推荐
- chrome 下 input[file] 元素cursor设置pointer不生效的解决
https://jingyan.baidu.com/article/48b558e32fabb67f38c09a81.html 环境是chrome浏览器,今天发现为html网页中的input [fil ...
- 框架源码系列二:手写Spring-IOC和Spring-DI(IOC分析、IOC设计实现、DI分析、DI实现)
一.IOC分析 1. IOC是什么? IOC:Inversion of Control控制反转,也称依赖倒置(反转) 问题:如何理解控制反转? 反转:依赖对象的获得被反转了.由自己创建,反转为从IOC ...
- 一个tomcat服务器上部署多个Web项目,不同域名访问
[参考]一个tomcat服务器上部署多个项目,不同域名访问 我们一个服务器只按装了一个tomcat服务器,现在有多个项目或者多个域名访问,下面来进行配置 在这里我们只需要修改conf下的server. ...
- .net IIS MVC Rest api 跨域 PUT DELETE 404 无法使用问题解决方案
一.WebConfig配置法(system.webServer 重点是 httpProtocol handlers) http://www.jinxuliang.com/blog/article/re ...
- Android打开doc、xlsx、ppt等office文档解决方案
妹子我写代码很辛苦/(ㄒoㄒ)/~~ ,转载请标明出处哦~http://blog.csdn.net/u011791526/article/details/73088768 1.Android端有什么控 ...
- 史上最全Java面试题整理(附参考答案)
下列面试题都是在网上收集的,本人抱着学习的态度找了下参考答案,有不足的地方还请指正,更多精彩内容可以关注我的微信公众号:Java团长 1.面向对象的特征有哪些方面? 抽象:将同类对象的共同特征提取出来 ...
- Linux环境设置IP及关闭防火墙
确认当前网络配置: [root@localhost ~]# nmcli -p dev ===================== Status of devices ================= ...
- [原]Jenkins(十九) jenkins再出发之jenkins邮件通知
1.下载插件: 2.配置插件: 3.邮件插件配置 4.设置触发器:
- iOS - 记住用户登录状态保存用户名密码
我们在使用APP时常用的一个功能:用户第一次进入APP时自动进入登录注册页,提示用户注册登录,用户登录成功后才进入主页,再次进入APP时,不用再次登录就直接进到主页了,就算杀掉该APP进程再次进入,依 ...
- 进程池原理及效率测试Pool
为什么会有进程池的概念? 当我们开启50个进程让他们都将100这个数减1次减到50,你会发现特别慢! 效率问题,原因: 1,开辟内存空间.因为每开启一个进程,都会开启一个属于这个进程池的内存空间,因为 ...