关于scrapy中如何区分是接着发起请求还是开始保存文件

一.区分

根据yield迭代器生成的对象是request对象还是item对象

二.item

1.配置tem对象

在items.py文件中设置类

class MyscrapyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    price = scrapy.Field()

    prostatus = scrapy.Field()

2.在爬虫程序中导入该类写相应的函数

from myscrapy.items import MyscrapyItem

def get_info(self,response):

    elements_list = response.css('.product')

    for element in elements_list:

        title = element.css('.productTitle a::attr(title)').extract_first() #这是css选择器

        price = element.css('.productPrice em::attr(title)').extract_first()

        prostatus = element.css('.productStatus em::text').extract_first()

        item = MyscrapyItem()  #实例话一个item对象

        item['title'] = title  #填写配置的参数

        item['price'] = price

        item['prostatus'] = prostatus

        yield item

三.再获得item参数后scrapy会自动执行pipelines.py文件中内容

1.settings文件进行注册

ITEM_PIPELINES = {

   'myscrapy.pipelines.MyscrapyPipeline': 300,   #小的优先级高

   # 'myscrapy.pipelines.MyscrapyPipeline1': 500,

}

#和中间件一个道理

2.配置MyscrapyPipeline方法

#其中两个方法非常常用

#def open_spider(self): 运行这个函数开始执行,一般都是连接数据库用

#def close_spider(self): 运行完这个函数执行,一般都是关闭数据库用

#简单拿MongoDB举例

from pymongo import MongoClient

class MyscrapyPipeline(object):

    def __init__(self,HOST,PORT,USER,PWD,DB,TABLE):

        self.HOST = HOST

        self.PORT = PORT

        self.USER = USER

        self.PWD = PWD

        self.DB = DB

        self.TABLE = TABLE

	#执行__init__之前执行

    @classmethod

    def from_crawler(cls,crawler):

        HOST = crawler.settings.get('HOST')  #crawler.settings可以直接获得setting文件中的所有名称

        PORT = crawler.settings.get('PORT')

        USER = crawler.settings.get('USER')

        PWD = crawler.settings.get('PWD')

        DB = crawler.settings.get('DB')

        TABLE = crawler.settings.get('TABLE')

        return cls(HOST,PORT,USER,PWD,DB,TABLE)

    def open_spider(self,spider):

        self.client = MongoClient(host=self.HOST,port=self.PORT,username=self.USER,password=self.PWD)

        print('连接数据库成功')

    def close_spider(self,spider):

        self.client.close()

        print('关闭数据库')

    def process_item(self, item, spider):

        self.client[self.DB][self.TABLE].insert_one(dict(item))

        return item

关于scrapy中如何区分是接着发起请求还是开始保存文件的更多相关文章

java中使用String的replace方法替换html模板保存文件
在我们的D盘下有这样一个html模板,现在我们要做的就是解析news.template文件,从数据库中提取数据将数据添加到指定的模板位置上 <head> <title>{tit ...
Shiro 权限校验不通过时，区分GET和POST请求正确响应对应的方式
引入:https://blog.csdn.net/catoop/article/details/69210140 本文基于Shiro权限注解方式来控制Controller方法是否能够访问. 例如使用到 ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy中的POST请求发送和递归爬取
POST请求发送重写爬虫应用文件中继承Spider类的类的里面的start_requests(self)这个方法 def start_requests(self): #请求的url post_ur ...
Scrapy中的核心工作流程以及POST请求
五大核心组件工作流程 post请求发送递归爬取五大核心组件工作流程引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, ...
通过实例说明在scrapy中 yield的作用
源https://www.jianshu.com/p/7c1a084853d8 开始前的准备工作: 1.MySQL下载:点我2.python MySQL驱动下载:pymysql(pyMySql,直接用 ...
【Scrapy(二)】Scrapy 中的 Pipline,Item,Shell组件
Pipline: 1.爬虫项目与爬虫的区别与关联: 一个爬虫项目可以包含多个爬虫,如下图中爬虫项目firstspider 包含多个爬虫itcst 和爬虫itcast1 2.多个爬虫是公用一套Pipli ...
Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...

随机推荐

图文结合深入理解JS中的this值
文章目录 Js 中奇妙的this值 1. 初探this 2. this指向总结 2.1 普通函数调用 2.2 对象的方法调用 2.3 构造函数调用 2.4 利用call,apply,bind方法调用函 ...
域控权限提升PTH攻击
0x01 漏洞利用条件 1.被pth攻击的计算机未打补丁(KB2871997)2.拿到一台域成员主机并且拿到管理员组的域用户的NTML 3.对方主机存在相同账号并且是管理员组成员 0x02 本地用户N ...
Android中Parcelable的使用
转载请标明出处 :https://www.cnblogs.com/tangZH/p/10998065.html Parcelable与Serializable Serializable是Java为我 ...
解决Android调用相机拍照，要报“打开相机失败”查看debug日志显示“setParameters failed”的问题
使用CameraLibrary项目,在部分手机或平板上不能正常使用,要报“打开相机失败”查看debug日志显示“setParameters failed”. 找到CameraView.java中的se ...
React路由的使用 Redirect默认展示某一个页面 Switch找到停止 BrowserRouter和HashRouter 的区别
引入 Redirect 默认展示某一个页面 Switch 一旦找到路由就停止不会在往下找了 App.js import {Link,Route,NavLink,Redirect,Switch} ...
python面向对象-1
1.面向对象的思想优点优点: 简化代码 ,构建公共模板 ,扩展性强思想: 类作为模板 ,对象通过模板实例化对象 ,对象去做事 ,抽象将显示存在的事物使用代码体现 2.三大特性封装(狭义) : 对 ...
Redis面试篇 -- 如何保证缓存与数据库的双写一致性？
如果不是严格要求“缓存和数据库”必须保证一致性的话,最好不要做这个方案:即读请求和写请求串行化,串到一个内存队列里面去.串行化可以保证一定不会出现不一致的情况,但会导致系统吞吐量大幅度降低. 解决这 ...
vs2017 输出 ling to sql 转为执行的sql语句
在项目视图中,找到->输出窗口,在窗口中选择ASP.NET Core Web服务器,调试项目即可看到执行的sql语句
swiper 轮播中常用的效果，持续更新
swiper一款非常好用的轮播插件,支持移动端和PC端,用过很多次了,这次简单的总结一下.方便以后查找使用,说明一下,下面的例子是基于swiper 4.0+版本的,如果你是其他的版本,请自行前往官网查 ...
[20191125]探究等待事件的本源.txt
[20191125]探究等待事件的本源.txt --//当工作中遇到oracle的性能问题时,查看awr报表提供很好的解决问题途径.但是有时候很容易想当然.--//比如以前我一看到 log file ...

关于scrapy中如何区分是接着发起请求还是开始保存文件

一.区分

二.item

1.配置tem对象

2.在爬虫程序中导入该类写相应的函数

三.再获得item参数后scrapy会自动执行pipelines.py文件中内容

1.settings文件进行注册

2.配置MyscrapyPipeline方法

关于scrapy中如何区分是接着发起请求还是开始保存文件的更多相关文章

随机推荐

热门专题