scrapy_items

为什么要items？

当数据量多的时候，没有统一的数据管理，统一格式化麻烦

items中除了能添加字段，还能做什么？

　　1. 进行预先处理

　　2. 对从items出去的数据进行处理

　　3. 写上sql语句逻辑

# -*- coding: utf-8 -*-

import hashlib

import scrapy

import re

from w3lib.html import remove_tags

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst, Join, MapCompose

from tools.shared import get_md5, go_remove_tag

class AllItemLoader(ItemLoader):

    """

    通过自定义itemloader要求都取列表中第一个值

    """

    default_output_processor = TakeFirst()

def get_md5(url):

    """对获取的URL进行md5"""

    m = hashlib.md5()

    m.update(bytes(url, encoding='utf-8'))

    return m.hexdigest()

# 把对应的内容，去掉标签、空格、空行

def go_remove_tag(value):

    content = remove_tags(value)

    return re.sub(r'[\t\r\n\s]', '', content)

def comeback(value):

    """啥也不干，直接返回"""

    return value

class ENet(scrapy.Item):

    article_id = scrapy.Field(

        # 进来的值预处理

        input_processor=MapCompose(get_md5)

    )

    article_url = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field(

        input_processor=MapCompose(go_remove_tag),

        # 从items出去的值进行拼接处理

        output_processor=Join('')

    )

    publish_time = scrapy.Field()

    come_form = scrapy.Field(

        # 获得结果还是列表

        output_processor=MapCompose(comeback)

    )

    def get_sql(self):

        """获得sql语句和对应的sql填充值"""

        # 获取sql语句

        sql = """insert into

                e_news(article_id, article_url, title, content, publish_time)

                 VALUE

                 (%s, %s, %s, %s, %s)

                 ON DUPLICATE KEY UPDATE

                 article_url=VALUES(article_url), title=VALUES(title), content=VALUES(content), publish_time=VALUES(publish_time)

                 """

        # 获取sql填充值

        parms = (self['article_id'], self['article_url'], self['title'],

                 self['content'], self['publish_time'])

        return sql, parms

注意点：

　　对于通过itemloda进行解析的值存放在列表中，传递给items时候，会把列表中一个一个值单独按序传入预处理函数进行操作

scrapy_items的更多相关文章

Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)[预防数据去重,真正去重是在url,即请求阶段做] ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
MongoDB 及 scrapy 应用
0 1.Scrapy 使用 MongoDB https://doc.scrapy.org/en/latest/topics/item-pipeline.html#write-items-to-mong ...
scrapy入门与进阶
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
四: scrapy爬虫框架
5.爬虫系列之scrapy框架一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架 ...

随机推荐

史上最简单的js+css3实现时钟效果
今天我看到百度搜索的时间那个效果不错,于是就产生了模仿一下的效果,不过为了节省时间,就随便布了下局,废话不多说,先看看效果吧,顺便把百度的效果也拿过来. 对比样子差了好多啊,但是基本功能都是实现了的, ...
python3之内置函数
1.abs() 取数字的绝对值 >>> print(abs(-28)) 28 >>> print(abs(-2.34)) 2.34 >>> pri ...
【单调栈】最长不上升子序列变式，洛谷 P2757 导弹的召唤
题目背景易琢然今天玩使命召唤,被敌军用空对地导弹轰炸,很不爽:众所周知,易琢然很不老实,他开了外挂: 外挂第一次可以打掉任意高度的导弹,之后每一次都不能打掉大于上一次高度的导弹: 但易琢然水平太差, ...
Jerry的ABAP, Java和JavaScript乱炖
写这个系列的初衷是SAP Chengdu office有越来越多的应届毕业生加入,这些新同事通过在大学的专业学习,具备了Java和JavaScript背景,但是进入SAP之后大家觉得ABAP没有Jav ...
【SSD，FIO，SAS选择的一些小结】SSD，FIO，SAS选择的一些小结
最近重新摊上了数据库,公司核心数据库天天 IO爆满,在研究用SAS 16*RAID10 ,还是RAID10 SSD*6, 还是FIO:no.1 principle, no raid-5 for dat ...
6.while loop
while 循环有时候我们不确定需要循环几次.就像一个司机不知道自己需要什么时候加油一样.程序可以这样写: while petrol_filling: increase price show ...
ionic serve 突然报错 node-sass
正常打开项目,并开启浏览器测试模式: 执行命令: ionic serve: 结果报错: 解决方法: 你可以按照里面的提示: 直接执行命令: npm rebuild node-sass 然后再重新执 ...
Java中的集合框架（上）
Java中的集合框架概述集合的概念: Java中的集合类:是一种工具类,就像是容器,存储任意数量的具有共同属性的对象. 集合的作用: 1.在类的内部,对数据进行组织: 2.简单的快速的搜索大数据量的 ...
js--Dom Bom操作
– 基础 – 内置对象 ● String对象:处理所有的字符串操作 ● Math对象:处理所有的数学运算 ● Date对象:处理日期和时间的存储.转化和表达 ● Array对象:提供 ...
常用OJ名字+地址(自用)
常用OJ名字+地址不定期更新,自己用,有补充的也可以给我说说哈. 中文 openjudge 地址:openjudge.cn 说明:北大提供的一个平台,学校可申请小组: 比较好的小组: 计算概论:ic ...

scrapy_items

scrapy_items的更多相关文章

随机推荐

热门专题