Scrapy学习-8-ItemLoader
- # items.py
- import scrapy
- from scrapy.loader.processors import MapCompose, Join, TakeFirst
- from scrapy.loader import ItemLoader
- import datetime
- import re
- def date_convert(value):
- try:
- create_date = datetime.datetime.strptime(value, "%Y/%m/%d").date()
- except Exception as e:
- create_date = datetime.datetime.now().date()
- return create_date
- def get_nums(value):
- match_re = re.match(".*?(\d+).*", value)
- if match_re:
- nums = int(match_re.group(1))
- else:
- nums = 0
- return nums
- def return_value(value):
- return value
- def remove_comment_tags(value):
- #去掉tag中提取的评论
- if "评论" in value:
- return ""
- else:
- return value
- class ArticleItemLoader(ItemLoader):
- #自定义itemloader
- default_output_processor = TakeFirst()
- class ArticlespiderItem(scrapy.Item):
- # title字段值回在最后加上 -jobbole-abc
- title = scrapy.Field(
- input_processor=MapCompose(lambda x:x+"-jobbole", lambda y:y+"-abc")
- )
- create_date = scrapy.Field(
- input_processor=MapCompose(date_convert),
- )
- url = scrapy.Field()
- url_object_id = scrapy.Field()
- # 由于front_image_url需要存储一个列表,不能使用defauls方法获取,为了保持原来的列表,我们重写一个output_processor
- front_image_url = scrapy.Field(
- output_processor=MapCompose(return_value)
- )
- front_image_path = scrapy.Field()
- praise_nums = scrapy.Field(
- input_processor=MapCompose(get_nums)
- )
- comment_nums = scrapy.Field(
- input_processor=MapCompose(get_nums)
- )
- fav_nums = scrapy.Field(
- input_processor=MapCompose(get_nums)
- )
- tags = scrapy.Field(
- input_processor=MapCompose(remove_comment_tags),
- output_processor=Join(",")
- )
- content = scrapy.Field()
- # pipelines.py
- from scrapy.pipelines.images import ImagesPipeline
- class ArticleImagePipeline(ImagesPipeline):
- def item_completed(self, results, item, info):
- if "front_image_url" in item:
- for res, value in results:
- image_path = value['path']
- item['front_image_path'] = image_path
- # 处理完成路径需要将item返回,因为在settings中,配置的了优先级,该pipelines可以将items继续传递给下一个pipelines中
- return item
- # 使用自己的pipelines
- ITEM_PIPELINES = {
- 'ArticleSpider.pipelines.ArticlespiderPipeline': 300,
- 'ArticleSpider.pipelines.ArticleImagePipeline': 1,
- }
Scrapy学习-8-ItemLoader的更多相关文章
- Scrapy学习篇(十)之下载器中间件(Downloader Middleware)
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
- Scrapy学习篇(七)之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
- Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装 首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...
- Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目 创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
- Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
- scrapy学习(完全版)
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架 下载页面 解析页面 并发 深度 安装 scrapy学习教程 如果安装了anconda,可以在anacon ...
- python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
- Scrapy基础(十三)————ItemLoader的简单使用
ItemLoader的简单使用:目的是解决在爬虫文件中代码结构杂乱,无序,可读性差的缺点 经过之前的基础,我们可以爬取一些不用登录,没有Ajax的,等等其他的简单的爬虫回顾我们的代码,是不是有点冗长, ...
- 转载一个不错的Scrapy学习博客笔记
背景: 最近在学习网络爬虫Scrapy,官网是 http://scrapy.org 官方描述:Scrapy is a fast high-level screen scraping and web c ...
随机推荐
- core 下使用 autofac
依赖注入小伙伴们比较常了,这里只说core 下autofac依赖注入的使用 ,不多费话,直接代码. 在 Startup.cs里 public void ConfigureServices(IServi ...
- selenium--Xpath定位
前戏 前面介绍过了七种定位方式,今天来介绍最后一种,也是最强大,本人最常用的定位方式xpath Xpath 即为 xml 路径语言,它是一种用来确定 xml 文档中某部分位置的语言.Xpath 基于 ...
- getpwuid和getpwnam的用法
如果知道一个用户的用户ID或者登录名,可以通过getpwuid或getpwnam函数获得用户的登录信息.函数原型为: #include <pwd.h> #include & ...
- 【线段树 细节题】bzoj1067: [SCOI2007]降雨量
主要还是细节分析:线段树作为工具 Description 我们常常会说这样的话:“X年是自Y年以来降雨量最多的”.它的含义是X年的降雨量不超过Y年,且对于任意Y<Z<X,Z年的降雨量严格小 ...
- python中函数定义之实参、形参
一般在函数的定义中,会有一类变量---形参,它是函数完成其工作的一项信息.实参往往是调用函数时传递给函数的信息.我们在调用函数时,将要让函数使用的信息放在括号内.例如定义一个函数def greet_u ...
- pyhton链式赋值在可变类型/不可变类型上的区别以及其本质
关于链式赋值的一些注意点: a=[]b=[]x=y=[]print(a==b) #Trueprint(x==y) #Trueprint(a is b) #Falseprint(x is y) #Tru ...
- (原)剑指offer变态跳台阶
变态跳台阶 时间限制:1秒空间限制:32768K 题目描述 一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级.求该青蛙跳上一个n级的台阶总共有多少种跳法. 分析一下明天是个斐波那契 ...
- Memcached特性及优缺点
为了加快文件访问速度且提供多个使用者.需要在内存中建立内存缓存数据的管理减小读写磁盘的次数及保证数据的更新.因为需要使用cache缓存. 1.Memcached 主要特性 a.数据仅存在于内存中, ...
- java 罕见的依赖报错 jstat: error while loading shared libraries: libjli.so: cannot open shared object file: No such file or directory
java 都用了N长时间了,突然,意外地发现有一个依赖的so文件从来没找见过 # ldd /usr/bin/java linux-vdso.so.1 => (0x00007fffba76900 ...
- cf886d Restoration of string
明确几点 假设有串 ab,那么 a 后头必须是 b,b 前头必须是 a,否则就不是最频繁的了. 不可成环,aba是非法的. #include <iostream> #include < ...