爬取知名社区技术文章_items

item中定义获取的字段和原始数据进行处理并合法化数据

#!/usr/bin/python3

# -*- coding: utf-8 -*-

import scrapy

import hashlib

import re

from scrapy.loader.processors import (MapCompose, TakeFirst, Join)

from scrapy.loader import ItemLoader

def go_md5(value):

    # 对cont_url进行md5，作为该表的主键

    m = hashlib.md5()

    if isinstance(value, str):

        m.update(bytes(value, encoding='utf-8'))

        # print(type(m.hexdigest()))

        return m.hexdigest()

def go_time(value):

    # 获取时间，并且格式化时间，raw_t为原始数据，new_t为符合mysql中data类型数据

    raw_t = value.strip()

    if raw_t:

        median_t = raw_t.replace('·', '')

        if median_t:

            time_l = median_t.split('/')

            new_t = '-'.join(time_l)

            return new_t.strip()

        return median_t

    else:

        return raw_t

def go_cont(value):

    # 把文章内容中换行和空格去掉

    return value.strip()

def go_img(value):

    # 确定图片下载器获取的是列表，下载器获取的图片url对象为列表形式

    return value

def get_num(value):

    # 获取评论、点赞、收藏数

    num = re.match(r'.*?(\d+).*?', value)

    if num:

        return int(num.group(1))

    else:

        return 0

class ArticleItemLoader(ItemLoader):

    """

    自定义ItemLoader，要求取每个字段列表中第一个值

    """

    default_output_processor = TakeFirst()

class JobboleItem(scrapy.Item):

    """

    input_processor 数据预处理

    output_processor 数据返回item数据处理

    """

    cont_id = scrapy.Field(

        input_processor=MapCompose(go_md5)

    )

    cont_url = scrapy.Field() #

    title = scrapy.Field()

    publish_time = scrapy.Field(

        input_processor=MapCompose(go_time)

    )

    cont = scrapy.Field(

        input_processor=MapCompose(go_cont),

        output_processor=Join('')

    )

    img_url = scrapy.Field(

        output_processor=MapCompose(go_img)

    )

    link_num = scrapy.Field(

        input_processor=MapCompose(get_num)

    )

    collection_num = scrapy.Field(

        input_processor=MapCompose(get_num)

    )

    comment_num = scrapy.Field(

        input_processor=MapCompose(get_num)

    )

    img_path = scrapy.Field()

# 测试

if __name__ == '__main__':

    result = get_num(' s ss 14 ssss')

    print(result)

爬取知名社区技术文章_items_2的更多相关文章

爬取知名社区技术文章_setting_5
# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains ...
爬取知名社区技术文章_pipelines_4
获取字段的存储处理和获取普通的路径 #!/usr/bin/python3 # -*- coding: utf-8 -*- import pymysql import gevent import pym ...
爬取知名社区技术文章_article_3
爬虫主逻辑处理,获取字段,获取主url和子url #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy from scrapy.http i ...
第4章 scrapy爬取知名技术文章网站(2)
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from sc ...
爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...

随机推荐

Java 与C++的各种优势与弱点--学习更新中
时隔两年没有怎么碰Java了,最近开始学习回顾下.在这里记录下学习的点滴,持续更新...希望对c++\java等不同语言有较为清晰的认识,至少不要学完以后,哪一个都不会了... Java 优势: 1. ...
7、ABPZero系列教程之拼多多卖家工具修改注册功能
本篇开始进入重头戏,之前的几篇文章都是为了现在的功能作准备.前面教程已经讲到修改User表结构,接下来就需要修改注册逻辑代码. 注册页面修改Register.cshtml,备注如下代码: 文件路径: ...
ResourceBundleViewResolver
1 springmvc中ResourceBundleViewResolver解析器的使用1.1 springmvc.xml的配置因为我配置了多个解析器,所以额外的加了order属性,value值越低, ...
关于maven项install时报找不到符号的错误
解决办法: 聚合工程: 1.eclipse中执行project -->clean,将项目清理一下: 2.选中聚和工程右键-->Run As-->Maven builed...--&g ...
Vijos P1785 同学排序【模拟】
同学排序描述现有m位同学,第1位同学为1号,第2位同学为2号,依次第m位同学为m号.要求双号的学生站出来,然后余下的重新组合,组合完后,再次让双号的学生站出来,重复n次,问这时有多少同学出来站着? ...
HDU6166-Senior Pan-Dijkstra迪杰斯特拉算法(添加超源点,超汇点)+二进制划分集合-2017多校Team09
学长好久之前讲的,本来好久好久之前就要写题解的,一直都没写,懒死_(:з」∠)_ Senior Pan Time Limit: 12000/6000 MS (Java/Others) Memor ...
关于JAVA实现二维码以及添加二维码LOGO
今天在公司,完成了之前的任务,没有什么事做,就想鼓捣一下二维码,因为之前没有接触过,我就去翻看了几本书,也基本完成了二维码的实现,以及添加二维码的LOGO. 现在绘制二维码一般都使用的是谷歌的zxin ...
ThinkPHP基础知识
1.入口文件中定义的内容 // 检测PHP环境if(version_compare(PHP_VERSION,'5.3.0','<')) die('require PHP > 5.3.0 ! ...
day1 基础
1.python 简介一.python简介 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的 ...
你必须知道的session与cookie
Session本质提到Session我们能联想到的就是用户登录功能,而本身我们使用Session的基础是通过url进行访问的,也就是使用http协议进行访问的,而http协议本身是无状态的,那么问题 ...

爬取知名社区技术文章_items_2

爬取知名社区技术文章_items_2的更多相关文章

随机推荐

热门专题