命令参考：https://github.com/scrapy/scrapyd-client

安装组件

pip install scrapyd

pip install scrapyd-client

Scrapyd服务器端

服务器端是可以有多个的，你爱多少个就搞多少个服务器端。部署scrapy时，可以手动指定部署到那个目标服务器端中。

scrapyd配置文件：

https://scrapyd.readthedocs.io/en/latest/config.html

可以支持基础的http basic认证。

最多也就是改一下监听的IP地址和端口。

启动服务器端：

scrapyd

Scrapyd-client客户端

提供了

Command line tools命令行工具:

scrapyd-deploy, to deploy your project to a Scrapyd server。
- 用于部署scrapy项目到scrapyd服务器中。
scrapyd-client, to interact with your project once deployed。
- 用于与部署后的项目进行交互、管理。

Python client:

ScrapydClient, to interact with Scrapyd within your python code
- 用于自己编写python代码与scrapyd服务器交互。（除非你有特殊需求，比如自己开发web管理，否则用不上啦）

部署项目实例（这里只是部署，启动时另外一回事）

确保scrapyd服务端已经启动。
修改项目的scrapy.cfg文件。

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]

default = zolwallpaper.settings

;[deploy]  ;默认是只有一个项目的，如果有多个项目和目标服务器，则用deploy:target来区分

;demo1 是指定目标服务器端的名字

[deploy:demo1]

; 这个URL指定的是scrapyd服务器的URL地址

url = http://localhost:6800/

; 如果你的scrapyd服务器端开启了http basic认证，则在这里填写密码

; username = scrapy

; password = secret

# 项目名

project = zolwallpaper

scrapyd-deploy <target> -p <项目名>

target：可要可不要，不填默认为default，如果要填就填你自己设置的，比如我这里设置demo1

项目名：是你在scrapy.cfg中设置的名称

例如：

(venv) PS C:\Users\Administrator\PycharmProjects\zolwallpaper>scrapyd-deploy.exe demo1 -p zolwallpaper

Packing version 1687237821

Deploying to project "zolwallpaper" in http://localhost:6800/addversion.json

Server response (200):

{"node_name": "xxxx", "status": "ok", "project": "zolwallpaper", "version": "1687237821", "spiders": 2}

scrapy-deploy部署命令

部署项目到某个目标服务器：

scrapyd-deploy <target> -p <项目名>

target:不指定的话就默认给你命名为default

部署项目到所有可用的目标服务器

scrapyd-deploy -a -p <project>

列出所有的可用的scrapyd服务器列表

命令：

scrapyd-deploy -l

案例：

(venv) PS C:\Users\Administrator\PycharmProjects\zolwallpaper> scrapyd-deploy.exe -l

demo1                http://localhost:6800/

列出某个目标服务器下的所有项目

scrapyd-deploy -L example

案例：

(venv) PS C:\Users\Administrator\PycharmProjects\zolwallpaper> scrapyd-deploy.exe -L demo1

zolwallpaper

default

scrapy-client管理命令

搞清楚几个概念：

target：scrapyd服务器端；

project：爬虫项目；

一个项目下可以有多个爬虫。

常用命令：

列出当前的所有爬虫项目

命令：

scrapyd-client projects

scrapyd-client -t http://127.0.0.1:6800 projects

案例：

(venv) PS C:\Users\Administrator\PycharmProjects\zolwallpaper> scrapyd-client -t http://127.0.0.1:6800 projects

zolwallpaper

default

列出指定目标服务下的某个项目的所有爬虫

命令：

scrapyd-client spiders -p [项目名称]

scrapyd-client.exe [-t http://127.0.0.1:6800] spiders -p zolwallpaper

案例：

(venv) PS C:\Users\Administrator\PycharmProjects\zolwallpaper> scrapyd-client.exe spiders -p zolwallpaper

zolwallpaper:  # 项目名

  bang123   # 该项目下的爬虫

  zol       # 该项目下的爬虫

运行爬虫

方式一：通过scrapyd-client（这玩意其实就是封装了scrapyd的api....）

scrapyd-client schedule -p [项目名] [爬虫名]

**# 可以动态的传递settings某个设置，然后你就可以在爬虫中读取某个设置项的值，从而实现动态爬虫你想要的关键字等功能**

scrapyd-client schedule -p zolwallpaper bang123** --args 'setting=DOWNLOADER_MIDDLEWARES={"my.middleware.MyDownloader": 610}'**

# CURL版：curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

案例：

scrapyd-client -t http://127.0.0.1:6800 schedule -p zolwallpaper bang123

他妈的，没有关闭爬虫的？做这个开发的人你多一个功能会死....？

所以只能用scrapyd自带的api来取消正在运行的爬虫

https://scrapyd.readthedocs.io/en/latest/api.html#cancel-json

发送post请求：

http://127.0.0.1:6800/cancel.json?job=<任务ID>&project=<项目名>

Scrapyd、scrapyd-client部署爬虫项目的更多相关文章

scrapdy部署爬虫项目
原文:https://blog.csdn.net/JLaiRen/article/details/82902321 scrapyd安装打开命令行工具输入命令:pip install scrapyd ...
第三百七十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目 scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:h ...
五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install s ...
爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程
---------scrapyd部署爬虫---------------1.编写爬虫2.部署环境pip install scrapyd pip install scrapyd-client 启动scra ...
Scrapyd部署爬虫
Scrapyd部署爬虫准备工作安装scrapyd: pip install scrapyd 安装scrapyd-client : pip install scrapyd-client 安装curl ...
Scrapyd 的远程部署和监控
1. 安装Scrapyd sudo pip3.6 install scrapyd # 安装scrapyd服务 sudo pip3.6 install scrapyd-client # 安装scrapy ...
gerapy+scrapyd组合管理分布式爬虫
Scrapyd是一款用于管理scrapy爬虫的部署和运行的服务,提供了HTTP JSON形式的API来完成爬虫调度涉及的各项指令.Scrapyd是一款开源软件,代码托管于Github上. 点击此链接h ...
基于webmagic的爬虫项目经验小结
大概在1个月前,利用webmagic做了一个爬虫项目,下面是该项目的一些个人心得,贴在这里备份: 一.为什么选择webmagic? 说实话,开源的爬虫框架已经很多了,有各种语言(比如:python.j ...
Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
使用uWSGI+nginx部署Django项目
最近使用django写了一些项目,不过部署到服务器上碰到一些问题,还有静态文件什么的一堆问题,这里总结一下碰到的问题和解决方案,总体思路是按照官方文档走的. 原文地址:http://uwsgi-doc ...

随机推荐

VulnStack - ATT&CK红队评估实战(一) Writeup
VulnStack - ATT&CK红队评估实战(一) Writeup VulnStack(一)环境搭建项目地址 http://vulnstack.qiyuanxuetang.net/vul ...
2.2 PE结构：文件头详细解析
PE结构是Windows系统下最常用的可执行文件格式,理解PE文件格式不仅可以理解操作系统的加载流程,还可以更好的理解操作系统对进程和内存相关的管理知识,DOS头是PE文件开头的一个固定长度的结构体, ...
SpringBoot获取树状结构数据-SQL处理
前言在开发中,层级数据(树状结构)的获取往往可能是我们一大难点,我现在将自己获取的树状结构数据方法总结如下,希望能给有需要的小伙伴有所帮助! 一.测试数据准备 /* Navicat Premium ...
[python] 第一个爬虫, 爬妹子写真集图片
效果图版本以及需要用到的第三方库 python 2.7 bs4 (安装命令: pip install bs4) - 代码 #!/usr/bin/env python #coding:UTF-8 #脚 ...
webapi开发框架实践
项目链接以及目录结构 liuzhixin405/efcore-template (github.com) 这是一个纯webapi的开发框架. 1.支持的orm有efcore6.dapper,可以灵活切 ...
Dami 本地过程调用框架（主打解耦），v0.24 发布
Dami,专为本地多模块之间通讯解耦而设计(尤其是未知模块.隔离模块.领域模块).零依赖,特适合 DDD. 特点结合 Bus 与 RPC 的概念,可作事件分发,可作接口调用,可作异步响应. 支持事务 ...
zxy 简单 dp 大讲堂
讲课讲得非常清楚啊,我绝赞膜拜.节奏可以,思路清晰,解法自然,为讲师点赞. 第一个题是 loj3282 / joisc2020 - Treatment Project.原问题由 \(\left(S, ...
[C++]线段树区间修改单点查询
线段树区间修改单点查询请先阅读上一篇Bolg 算法思想由于是区间修改那就把下放的每一个线段给套上一层标记来表达增加的值单点查询就把那些标记穿起来就行了当然还要加上那原来的值来举个例 ...
Prime Distance 区间筛
给定 l, r,求出相差最小和相差最大的在l,r范围内相邻的质数 1 < l, r < 2,147,483,647, r - l < = le6 主要思路 : 埃氏筛因为 r的最小 ...
2022.7.12 thecold 讲课纪要
前言上午刚学完平衡树,听学长说下午讲 \(LCT\) ,想了想就我这种蒟蒻平衡树还写不明白就搞 \(LCT\) ,绝对会挂,就打算下午去初中集训班摸摸鱼. 一进去就看见了 thecold 学长,真的 ...

Scrapyd、scrapyd-client部署爬虫项目