scrapy 基础组件专题（六）：自定义命令

写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。

一、单爬虫

在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码：

from scrapy.cmdline import execute

if __name__ == "__main__":

    execute(["scrapy", "crawl", "chouti", "--nolog"])

运行start.py即可。

二、多爬虫运行

1、在spiders的同级目录创建文件夹，如commands；

2、在这个新建的文件夹下创建一个py文件，如命名为crawlall.py，编写代码：

from scrapy.commands import ScrapyCommand

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return "[options]"

    def short_desc(self):

        return "Run all of the spiders"  # 自定义命令描述

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()  # 获取爬虫列表

        for name in spider_list:  # 循环列表，对每个爬虫进行爬取。也可以对列表中的爬虫进行筛选，根据自己的需求爬取想要的

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

3、在settings.py中添加配置：COMMANDS_MODULE = "项目名.目录名"

如：COMMANDS_MODULE = "my_scrapy.commands"

4、在终端输入：scrapy crawlall --nolog 即可运行（crawlall是步骤2中你新建的py文件名）

scrapy 基础组件专题（六）：自定义命令的更多相关文章

scrapy 基础组件专题（八）：scrapy-redis 框架分析
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征:  分布式爬取您可以启动多个spider工 ...
scrapy 基础组件专题（七）：scrapy 调度器、调度器中间件、自定义调度器
一.调度器配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过 ...
scrapy 基础组件专题（五）：自定义扩展
通过scrapy提供的扩展功能, 我们可以编写一些自定义的功能, 插入到scrapy的机制中一.编写一个简单的扩展我们现在编写一个扩展, 统计一共获取到的item的条数我们可以新建一个extens ...
scrapy 基础组件专题（二）：下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 1.激活Downloader Mi ...
scrapy 基础组件专题（十二）：scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
scrapy 基础组件专题（一）：scrapy框架中各组件的工作流程
Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向): Scrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事 ...
scrapy 基础组件专题（十四）：scrapy CookiesMiddleware源码
一 Scrapy框架--cookie的获取/传递/本地保存 1. 完成模拟登陆2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中3. 再次使用时从本地的cookie.txt中 ...
scrapy 基础组件专题（九）：scrapy-redis 源码分析
下面我们来看看,scrapy-redis的每一个源代码文件都实现了什么功能,最后如何实现分布式的爬虫系统: connection.py 连接得配置文件 defaults.py 默认得配置文件 dupe ...
scrapy 基础组件专题（四）：信号运用
一.scrapy信号使用的简单实例 import scrapy from scrapy import signals from ccidcom.items import CcidcomItem cla ...

随机推荐

谈谈Java常用类库中的设计模式 - Part Ⅱ
概述本系列上一篇:建造者.工厂方法.享元.桥接本文介绍的设计模式(建议按顺序阅读): 适配器模板方法装饰器相关缩写:EJ - Effective Java Here We Go 适配器 (A ...
基于httpclient的一些常用方法封装
package com.util; import java.io.IOException; import java.io.UnsupportedEncodingException; import ja ...
JPA 中 find() 和 getReference() 的区别
在查询的时候有两个方法:find()和getReference(),这两个方法的参数以及调用方式都相同.那么这两个方法有什么不一样的呢? find()称为立即加载,顾名思义就是在调用的时候立即执行查 ...
Java 设置PDF平铺图片背景（水印）
一.概述及环境准备本文介绍使用免费版PDF库-Free Spire.PDF for Java加载图片来设置成PDF平铺图片背景的效果,也可以作为平铺图片水印来使用:编辑代码前,需要先导入jar文件, ...
Zookeeper——Watcher原理详解
文章目录引言正文一.如何注册监听二.如何触发监听事件三.事件类型有哪些四.Watcher可以被无限次触发么?为什么要这么设计? 五.Watcher实现原理 1. 客服端发送请求 a. 初始 ...
Spark如何与深度学习框架协作，处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...
Newtonsoft 六个超简单又实用的特性，值得一试【上篇】
一:讲故事看完官方文档,阅读了一些 Newtonsoft 源码,对它有了新的认识,先总结六个超经典又实用的特性,同大家一起分享,废话不多说,快来一起看看吧~~~ 二:特性分析 1. 代码格式化如 ...
手写React的Fiber架构，深入理解其原理
熟悉React的朋友都知道,React支持jsx语法,我们可以直接将HTML代码写到JS中间,然后渲染到页面上,我们写的HTML如果有更新的话,React还有虚拟DOM的对比,只更新变化的部分,而不重 ...
重学 Java 设计模式：实战迭代器模式「模拟公司组织架构树结构关系，深度迭代遍历人员信息输出场景」
作者:小傅哥博客:https://bugstack.cn - 原创系列专题文章沉淀.分享.成长,让自己和他人都能有所收获! 一.前言相信相信的力量! 从懵懂的少年,到拿起键盘,可以写一个Hell ...
微信小程序预览Word文档
<view data-url="https://xxxcom/attachment/word.docx" data-type="docx" catchta ...

scrapy 基础组件专题（六）：自定义命令

scrapy 基础组件专题（六）：自定义命令的更多相关文章

随机推荐

热门专题