Scrapy-02-item管道、shell、选择器

Scrapy-02

item管道：

scrapy提供了item对象来对爬取的数据进行保存，它的使用方法和字典类似，不过，相比字典，item多了额外的保护机制，可以避免拼写错误和定义字段错误。
创建的item需要继承scrapy.Item类，并且在里面定义Field字段。(我们爬取的是盗墓笔记，只有文章标题和内容两个字段)
定义item，在item.py中修改：

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items

 #

 # See documentation in:

 # https://doc.scrapy.org/en/latest/topics/items.html

 import scrapy

 class BooksItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     title = scrapy.Field()

     content = scrapy.Field()

解析response和对item的使用：

 # -*- coding: utf-8 -*-

 import scrapy

 from ..items import BooksItem

 class DmbjSpider(scrapy.Spider):

     name = 'dmbj'

     allowed_domains = ['www.cread.com']

     start_urls = ['http://www.cread.com/chapter/811400395/69162457.html/']

     def parse(self, response):

         item = BooksItem()

         item['title'] = response.xpath('//h1/text()').extract_first()

         item['content'] = response.xpath('//div[@class="chapter_con"]/text()').extract_first()

         yield item

 # -*- coding: utf-8 -*-

 # Define your item pipelines here

 #

 # Don't forget to add your pipeline to the ITEM_PIPELINES setting

 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

 class BooksPipeline(object):

     def process_item(self, item, spider):

         with open('files/{}.txt'.format(item['title']), 'w+') as f:

             f.write(item['content'])

         return item

     def open_spider(self, spider):

         # 爬虫启动时调用

         pass

     def close_spider(self, spider):

         # 爬虫关闭时调用

         pass

在parse方法中导入item中定义需要的类，将该类实例化，实例化的类对他进行字典的方式操作，直接对其赋值，字典的key值必须和类中对应的字段名字一直。

然后对其使用yield
在pipline.py里面定义三个方法:
- process_item:
  - 对parse返回的item进行处理，然后在返回出去
- open_spider：
  - 爬虫启动的时候自动调用
- close_spider：
  - 爬虫关闭的时候调用
pipline里面定义的pipline需要使用，就得到setting里面讲ITEM_PIPELINES的字典激活

ITEM_PIPELINES = {
   'books.pipelines.BooksPipeline': 300,
}

shell
- scrapy shell 是scrapy提供的一个交互式的调试工具，如果当前环境中安装了ipython，那么将默认调用ipython，也可以在scrapy.cfg的setting下设置: shell = ipython
- 使用scrapy shell：
  - 终端输入: scrapy shell [url] //url：想爬取的网址，可不添加（也可以是个本地的文件，以路径的方式写入）
- fetch：
  - fetch接受一个url，构成一个新的请求对象，对返回新的response

Scrapy-02-item管道、shell、选择器的更多相关文章

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
Scrapy 使用 Item 封装数据、使用 Item Pipline处理数据
1.Item 和 Field Scrapy 提供一下两个类,用户可以使用它们自定义数据类,封装爬取到的数据: (1)Item类自定义数据类(如 BookItem)的基类 (2)Field 用来描述自 ...
爬虫框架Scrapy 之(四) --- scrapy运行原理(管道）
解析后返回可迭代对象这个对象返回以后就会被爬虫重新接收,然后进行迭代通过scrapy crawl budejie -o xx.josn/xx.xml/xx.csv 将迭代数据输出到json.xml ...
python之scrapy的debug、shell、settings、pipelines
1.debug了解 2.scrapy shell了解 Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath表达式使用方法: scrap ...
Scrapy 教程(十)-管道与数据库
Scrapy 框架将爬取的数据通过管道进行处理,即 pipelines.py 文件. 管道处理流程一.定义 item item 表示的是数据结构,定义了数据包括哪些字段 class TianqiIt ...
手把手教你进行Scrapy中item类的实例化操作
接下来我们将在爬虫主体文件中对Item的值进行填充. 1.首先在爬虫主体文件中将Item模块导入进来,如下图所示. 2.第一步的意思是说将items.py中的ArticleItem类导入到爬虫主体文件 ...
scrapy数据写入管道
1 setting里面启动管道 ITEM_PIPELINES = { 'ganji.pipelines.GanjiPipeline': 300,}2 拿到的数据通过yield返回给管道 # -*- c ...
scrapy框架基于管道的持久化存储
scrapy框架的使用基于管道的持久化存储的编码流程在爬虫文件中数据解析将解析到的数据封装到一个叫做Item类型的对象将item类型的对象提交给管道管道负责调用process_item的方法 ...
Scrapy框架-Item Pipeline
目录 1. Item Pipeline 3. 完善之前的案例: 3.1. item写入JSON文件 3.2. 启用一个Item Pipeline组件 3.3. 重新启动爬虫 1. Item Pipel ...
scrapy 代码调试用 shell
在虚拟机里CD到你的scrapy某个项目的目录,再 1. scrapy shell + '网址'(注意引号) 2. response.xpath(' ')来提取如: response.xpath(' ...

随机推荐

nginx升级不改变配置文件
查看当前版本是:1.10.3 [root@proxy nginx-1.10.3]# /usr/local/nginx/sbin/nginx -Vnginx version: nginx/1.10.3b ...
Serverless与微服务
Serverless 是一个更大的范畴,Serverless 不只计算,也包括存储.数据库.中间件等各种服务.Serverless = FaaS(函数即服务) + BaaS(后端即服务).其中 Ser ...
[日志分析]Graylog2采集mysql慢日志
之前聊了一下graylog如何采集nginx日志,为此我介绍了两种采集方法(主动和被动),让大家对graylog日志采集有了一个大致的了解. 从日志收集这个角度,graylog提供了多样性和灵活性,大 ...
一起了解 .Net Foundation 项目 No.20
.Net 基金会中包含有很多优秀的项目,今天就和笔者一起了解一下其中的一些优秀作品吧. 中文介绍中文介绍内容翻译自英文介绍,主要采用意译.如与原文存在出入,请以原文为准. System.Drawin ...
vs 如何将dll打包到exe中
方法如下:首先需要安装NuGet 然后安装Fody.Costura 重新启动vs 编译项目即可虽然根目录下还生成了dll但是你的程序已经可以脱离dll运行了,其实是将你的dll打入了exe中你可以看 ...
0402数据放入集合进行查询-Java(新手)
JDBC工具类: package cn.Wuchang.zyDome; import java.sql.*; public class JDBCUtils { private static final ...
全国职业技能大赛信息安全管理与评估-MySQL爆破脚本
DEMO: #coding=utf-8 import MySQLdb class MSSQL: def __init__(self,host,user,pwd): self.host = host s ...
rbac权限+中间件初识
rbac权限+中间件 1.权限组件rbac 1.什么是权限 1 项目与应用 2 什么是权限? 一个包含正则表达式url就是一个权限 who what how ---------->True or ...
IDENTITY_INSERT 设置为 OFF 时，不能为表中的标识列插入显式值的解决方法一例
如题 IDENTITY_INSERT 设置为 OFF 时,不能为表中的标识列插入显式值很多网上的文章是设置表的 IDENTITY_INSERT 为 ON EF中还要对模型就行设置 [Column(N ...
sweep line-The Skyline Problem
2020-01-10 17:51:05 问题描述: 问题求解: 本题是经典的sweep line问题. 对于sweep line问题我们需要考虑的只有两点: 1. 延水平方向 / 时间方向 :时间队列 ...

Scrapy-02-item管道、shell、选择器

Scrapy-02-item管道、shell、选择器的更多相关文章

随机推荐

热门专题