scrapy-items

items定义字段名字

import scrapy

class HrItem(scrapy.Item):

    # define the fields for your item here like:

    title = scrapy.Field()

    position = scrapy.Field()

    pub_date = scrapy.Field()

当怕爬取到数据时

            item = HrItem()

            item['title'] = data.xpath("./td[1]/a/text()").extract_first()

            item['position'] = data.xpath("./td[2]/text()").extract_first()

            item['pub_date'] = data.xpath("./td[5]/text()").extract_first()

pipelines储存进mongodb，需将数据转换成dict

from pymongo import MongoClient

client = MongoClient()

collection = client['SpiderAnything']['hr'] # 库名 表名

class SpideranythingPipeline(object):

    def process_item(self, item, spider):

        if isinstance(item, HrItem):  # 判断对象 选择管道

            print(item)

            collection.insert(dict(item))

            return item

scrapy-items的更多相关文章

scrapy框架之items项目
Items 主要目标是从非结构化来源(通常是网页)提取结构化数据.Scrapy爬虫可以将提取的数据作为Python语句返回.虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误 ...
scrapy2_初窥Scrapy
递归知识:oop,xpath,jsp,items,pipline等专业网络知识,初级水平并不是很scrapy,可以从简单模块自己写. 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数 ...
scrapy wiki资料汇总
See also: Scrapy homepage, Official documentation, Scrapy snippets on Snipplr Getting started If you ...
第一节：Scrapy开源框架初探
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 具体开发流程如下: 一.确定待抓取网站当您需要从某 ...
scrapy 抓取动态网页
-- coding: utf-8 -- ''' gouwu.sogou.com Spider, Created on Dec, 2014 version: 1.0 author: chenqx @ht ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
四: scrapy爬虫框架
5.爬虫系列之scrapy框架一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架 ...
scrapy (三）各部分意义及框架示意图详解
一.框架示意图 Scrapy由 Python 编写,是一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...

随机推荐

ProtocolBuffer for Objective-C 运行环境配置及使用
1,我已经安装了brew.pod.protoc,如果您没安装,请按照下面方式安装. 安装很简单,对着README操作一遍即可,我贴出自己在终端的命令行.需要输入的命令行依次为:1)打开终端,查看mac ...
Js/使用js来改变css的样式
1.一般来说我最先想到的是,通过id的方式去改变css的样式,所以有了下面这种写法: 2.第二种我想到的办法是通过改变他的class的名称,去设置他的样式,其中用的比较多的就是这样的:
JAVA基础部分复习(七、JAVA枚举类型使用)
/** * java中的枚举 * 枚举(enum),是指一个经过排序的.被打包成一个单一实体的项列表.一个枚举的实例可以使用枚举项列表中任意单一项的值. * 枚举在各个语言当中都有着广泛的应用,通常用 ...
CCF-Markdown-201703-3
这道题不存在递归结构比如区块之间的相互嵌套还有"[ [] ]" 链接的相互嵌套, 所以直接处理就好了还可以 #include <bits/stdc++.h> us ...
渲染标签 - v-html
<!DOCTYPE html><html><head> <meta charset="utf-8"> <title ...
网络编程-----IO
IO模型介绍阻塞IO 非阻塞多路复用异步 IO模型比较分析 selectors 阻塞IO:之前写的所有的socket,recv,accput都是阻塞原理: 其实多数时间多用到了等待数据那里. ...
《Linux内核原理与分析》第五周作业
课本:第4章系统调用的三层机制(上) -用户态.内核态和中断 -用户态:在低的执行级别下,代码能够掌控的范围有所限制,只能访问部分内存. -内核态:在高的执行级别下,代码可以执行特权指令,访问任意的 ...
1.golang的环境搭建及入门
安装包下载下载链接:https://dl.google.com/go/go1.12.3.windows-amd64.msi 环境搭建安装完成之后,找一个来存放go语言文件的文件夹,我这里选的是G: ...
《DSP using MATLAB》Problem 7.13
代码: %% ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ %% Output In ...
vim粘贴缩进问题
vim不支持直接从其他应用复制内容粘贴过来,而是模拟用户键盘输入来实现的,一般设置vim在换行时自动以上一行的的缩进为初始位置,这样就会导致复制过来的内容出现缩进错乱. set paste 解决粘贴乱 ...

scrapy-items

scrapy-items的更多相关文章

随机推荐

热门专题