通过脚本同时运行几个spider

# 通过脚本同时运行几个spider
目录结构：

1.在命令行能通过的情况下创建两个spider如
TestSpider
Test2Spider

2.在items.py的同级目录创建run.py文件，有三种方式，任选其一，其代码如下：

方式一：通过CrawlerProcess同时运行几个spider

run_by_CrawlerProcess.py源代码：

 # 通过CrawlerProcess同时运行几个spider

 from scrapy.crawler import CrawlerProcess

 # 导入获取项目配置的模块

 from scrapy.utils.project import get_project_settings

 # 导入蜘蛛模块(即自己创建的spider)

 from spiders.test import TestSpider

 from spiders.test2 import Test2Spider

 # get_project_settings() 必须得有，不然"HTTP status code is not handled or not allowed"

 process = CrawlerProcess(get_project_settings())

 process.crawl(TestSpider) # 注意引入

 #process.crawl(Test2Spider) # 注意引入

 process.start()

方式二：通过CrawlerRunner同时运行几个spider

run_by_CrawlerRunner.py源代码：

 # 通过CrawlerRunner同时运行几个spider

 from twisted.internet import reactor

 from scrapy.crawler import CrawlerRunner

 from scrapy.utils.log import configure_logging

 # 导入获取项目配置的模块

 from scrapy.utils.project import get_project_settings

 # 导入蜘蛛模块(即自己创建的spider)

 from spiders.test import TestSpider

 from spiders.test2 import Test2Spider

 configure_logging()

 # get_project_settings() 必须得有，不然"HTTP status code is not handled or not allowed"

 runner = CrawlerRunner(get_project_settings())

 runner.crawl(TestSpider)

 #runner.crawl(Test2Spider)

 d = runner.join()

 d.addBoth(lambda _: reactor.stop())

 reactor.run() # the script will block here until all crawling jobs are finished

方式三：通过CrawlerRunner和链接(chaining) deferred来线性运行来同时运行几个spider

run_by_CrawlerRunner_and_Deferred.py源代码：

 # 通过CrawlerRunner和链接(chaining) deferred来线性运行来同时运行几个spider

 from twisted.internet import reactor, defer

 from scrapy.crawler import CrawlerRunner

 from scrapy.utils.log import configure_logging

 # 导入获取项目配置的模块

 from scrapy.utils.project import get_project_settings

 # 导入蜘蛛模块(即自己创建的spider)

 from spiders.test import TestSpider

 from spiders.test2 import Test2Spider

 configure_logging()

 # get_project_settings() 必须得有，不然"HTTP status code is not handled or not allowed"

 runner = CrawlerRunner(get_project_settings())

 @defer.inlineCallbacks

 def crawl():

     yield runner.crawl(TestSpider)

     #yield runner.crawl(Test2Spider)

     reactor.stop()

 crawl()

 reactor.run() # the script will block here until the last crawl call is finished

3.修改两个spider文件引入items,和外部类的如(HeadersHelper.py)的引入模式（以run.py所在目录为中心）
原导入模式：

from ..items import ScrapydoubanmovieItem

from .HeadersHelper import HeadersHelper

注释：这种导入能够在命令行scrapy crawl Test正常运行

修改为：

from items import ScrapydoubanmovieItem

from .HeadersHelper import HeadersHelper

注释：修改后这种导入在命令行scrapy crawl Test会报错，但通过运行run.py文件，能够同时运行两个spider

4.按照运行python文件的方式运行run.py,可以得到结果

通过脚本同时运行几个spider的更多相关文章

Chrome扩展开发之二——Chrome扩展中脚本的运行机制和通信方式
目录: 0.Chrome扩展开发(Gmail附件管理助手)系列之〇——概述 1.Chrome扩展开发之一——Chrome扩展的文件结构 2.Chrome扩展开发之二——Chrome扩展中脚本的运行机制 ...
Linux服务器Jboss运行环境搭建步骤和开机自动启动脚本编写运行
Jboss运行环境:Linux+Jdk+Jboss+jsp系统 Jboss软件说明:类似于Tomcat,就是一个跑Jsp系统的环境,他的站点路径跟Tomcat类似,Tomcat存放站点文件到webap ...
windows下perl的安装和脚本的运行
参考 1.windows下perl的安装和脚本的运行: 2.fddb测试fddb的评估方法: 3.gunplot5.2.4-download: 完
【Linux学习】python脚本直接运行与nohup运行结果不同
之前遇到问题,在云主机上运行python脚本直接运行与nohup运行结果不同,甚至nohup根本运行不出来. 后来参考下别人的博客,终于知道问题了. nohup 使用的python版本问题. 而且no ...
IDEA中编写脚本并运行shell脚本
IDEA中编写脚本并运行shell脚本来自 <https://blog.csdn.net/u012443641/article/details/81295999>
LoadRunner11脚本关联+运行负载+分析结果
一.脚本创建关联和插入检查点脚本录制完成后,首先需运行脚本回放,验证是否可回放成功,然后找出各事务请求中的关联点! 如本例子中,录制的场景为:打开综合窗口收件-->查询事项-->窗口登记 ...
python脚本后台运行
问题描述: 环境: CentOS6.4 一个用python写的监控脚本test1.py,用while True方式一直运行,在ssh远程(使用putty终端)时通过以下命令启动脚本: python t ...
由于Windows和Linux行尾标识引起脚本无法运行的解决
在所有的操作系统中,文本文件的结束或者换行都是有行尾符来标识的,C语言中经常使用\n作为换行,\r作为跳格TAB:实际上在计算机还没有真正出现之前,有种电传打字机的设备,每秒钟可以打印10个字符,但是 ...
linux脚本后台运行
一般情况下,linux运行脚本是随着终端的关闭而关闭的,那么怎么让脚本能够在后台运行并且不随终端关闭而关闭呢? 这时用到的是nohup命令格式: nohup 脚本路径 & 例: nohup ...

随机推荐

Excel 时间格式相减
https://jingyan.baidu.com/article/3065b3b6e8b9dabecff8a4d6.html datedif函数是excel的隐藏函数,主要用于计算日期之差,不是四舍 ...
java通过CLASSPATH读取包内文件
读取包内文件,使用的路径一定是相对的classpath路径,比如a,位于包内,此时可以创建读取a的字节流:InputStream in = ReadFile.class.getResourceAsSt ...
C语言指针的易错点
1.内存泄漏:申请的堆内存没有释放. 2.内存污染:前面非法操作使用内存(没有报错),后面写着写着就出错.如下代码: 当结构体中只有划线部分代码时,在编译器中编写不会报错,但此时已经造成非法操作内存, ...
php 验证访问浏览器是电脑还是手机
//判断如果为手机用户则 if(checkmobile()==true) { $url=$_SERVER["HTTP_HOST"]; $urlHost=GetHost($url); ...
js中formData的使用
FormData 对象的使用 https://developer.mozilla.org/zh-CN/docs/Web/API/FormData/Using_FormData_Objects http ...
Javascript网页截屏的方法
最近我在研究开发一个火狐插件,具体的功能是将网页内容截屏并分享到微博上.目前基本功能已经实现,大家可以在 @程序师视野里看到用这个截图插件分享的微博的效果. 之前我曾写过如何将canvas图形转换成 ...
CCNA2.0笔记_WAN技术-专线
WAN拓扑 Routers.CSU/DSU.WAN switches.Core routers.Modems 使用数据链路层协议(二层) 来建立对端连接 WAN的三种连接方式广域网链路类型: ·V ...
ant.xml
<?xml version="1.0"?> <project name="dxcc" default="buildplugins&q ...
Linux svn仓库备份到Windows机器上
Linux svn仓库备份到Windows机器上 1,需求说明,Linux作为主库(A),Windows作为本地备份库(B),要求每天将Linux库中的代码备份到本地 2,B机器上安装svn服务端 3 ...
FlashBuilder 4.6序列号破解
1424-4827-8874-7387-0243-7331 1424-4938-3077-5736-3940-5640 具体步骤如下: 1.到Adobe官网下载FlashBuilder 4.6,有简体 ...

通过脚本同时运行几个spider

通过脚本同时运行几个spider的更多相关文章

随机推荐

热门专题