爬虫——使用ItemLoader维护item

在item的Filed（）中设置参数函数，可以用来预处理item字段的数据，另一方面也方便程序代码的管理和重用

item中

from scrapy.loader.processors import MapCompose, TakeFirst
import scrapy
from scrapy.loader import ItemLoader

def add(value):
　　 # 在MyItem中调用的函数，对输入的数据进行指定的处理后返回值
　　return value + 'HELLO-WORLD'

def fun(value):
　　 return value + do_something

class MyItemLoader(ItemLoader):
　　# 自定义ItemLoader类，继承自ItemLoader,实现默认提取第一个值，用来自动实现output_process=TakeFirst()
　　 default_output_processor = TakeFirst()

class MyItem(scrapy.Item):
　　'''
　　# input_process=MapCompose(add)可以使用外置函数add对传入的item字段进行预处理
　　# MapCompose()里的参数可以是任意函数，例子中add是外置函数，也可以是lambda匿名函数
　　# output_process=TakeFirst()
　　# TakeFirst()只提取第一个值
　　当自定义了ItemLoader，即MyItemLoader类后，output_process就可以省略了
　　'''

　　item = scrapy.Field(
　　input_process=MapCompose(add),
　　#output_process=TakeFirst()
　　)

spider中

from scrapy.loader import ItemLoader
from spider_path.items import MyItem
from ... import MyItemLoader # 导入自定义的ItermLoader

# 通过ItemLoader加载MyItem中的字段, 这里ItemLoader被重写成了MyItermLoader
item_loader= MyItemLoasder(item=MyItem(), response=response)

# 通过css，xpath，value提取
item_loader.add_css('MyItem中的字段','css选择器提取路径')
item_loader.add_xpath('MyItem中的字段','xpath选择器提取路径')
item_loader.add_value('MyItem中的字段',获取的值)

my_item = item_loader.load_item()
yield my_item

爬虫——使用ItemLoader维护item的更多相关文章

第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
爬虫框架Scrapy之Item Pipeline
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
python爬虫10 | 网站维护人员：真的求求你们了，不要再来爬取了！！
今天小帅b想给大家讲一个小明的小故事 ... 话说在很久很久以前小明不小心发现了一个叫做学习python的正确姿势的公众号从此一发不可收拾看到什么网站都想爬取有一天小明发现了一个小黄 ...
memcached源码分析-----item过期失效处理以及LRU爬虫
memcached源码分析-----item过期失效处理以及LRU爬虫,memcached-----item 转载请注明出处:http://blog.csdn.net/luotuo44/article ...
爬取伯乐在线文章（五）itemloader
ItemLoader 在我们执行scrapy爬取字段中,会有大量的CSS或是Xpath代码,当要爬取的网站多了,要维护起来很麻烦,为解决这类问题,我们可以根据scrapy提供的loader机制. 导入 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...

随机推荐

bzoj 1670: [Usaco2006 Oct]Building the Moat护城河的挖掘【凸包】
凸包模板 #include<iostream> #include<cstdio> #include<algorithm> #include<cmath> ...
Spark之RDD的定义及五大特性
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象. RDD底层存储原理:其数据分布存储于多台机器上 ...
Python之列表生成式、生成器
列表生成式 ——可以快速生成list,可以通过一个list推导出另一个list,而代码却十分简洁: >>> [x * x for x in range(1, 11)] [1, 4, ...
Linux学习笔记之Linux目录结构、磁盘命名、启动过程
1.Linux磁盘命名规则名称的起名规则——/dev/xxyN: 1.Linux下装所有硬件设备的一个目录叫 /dev(devices) 2.Linux没有C盘.D盘.Linux最根上的一个目录叫 ...
【css】回想下经典的布局
看到这张图相信大多数人都很熟悉,这曾经是一种经典的布局方式,一道经典的面试题,一般形如"实现一个布局,左右固定宽度,中间自适应".随着岁月的流转,时光的交替(颇有一种“天下风云出我 ...
[Qt Creator 快速入门] 第1章 Qt Creator简介
Qt Creator 是一个跨平台的.完整的 Qt 集成开发环境,其中包括了高级C++代码编辑器.项目和生成管理工具.集成的上下文相关的帮助系统.图形化调试器.代码管理和浏览工具等.这一章先对 Qt ...
贪心 Codeforces Round #191 (Div. 2) A. Flipping Game
题目传送门 /* 贪心:暴力贪心水水 */ #include <cstdio> #include <algorithm> #include <cstring> us ...
使用Oracle的DBMS_SQL包执行动态SQL语句
引用自:http://blog.csdn.net/ggjjzhzz/archive/2005/10/17/507880.aspx 在某些场合下,存储过程或触发器里的SQL语句需要动态生成.Oracle ...
Python学习日记之快捷键
Alt+Enter 自动添加包Ctrl+t SVN更新Ctrl+k SVN提交Ctrl + / 注释(取消注释)选择的行Ctrl+Shift+F 高级查找Ctrl+Enter 补全Shift + En ...
git Eclipse项目不显示当前分支
问题: 在Eclipse中,导入新的git项目,在项目上不再显示当前所处的分支,也不再显示修改了哪些文件解决: 右键选中项目 --> Team --> Share Project ...

爬虫——使用ItemLoader维护item

爬虫——使用ItemLoader维护item的更多相关文章

随机推荐

热门专题