利用scrapy-client 发布爬虫到远程服务端

侠客云 2024-10-09 08:16:53 原文

远程服务端Scrapyd先要开启

远程服务器必须装有scapyd,并开启。

这里远程服务开启的端口和ip:

192.166.12.80:6800

客户端配置和上传

先修爬虫项目文件scrapy.cfg:如下图

cd 到爬虫项目文件夹下，后执行：

scrapyd-deploy # 上传

scrapyd-deploy -l # 查看

打包项目

1、打包前先查看项目下的爬虫文件：

说明可以开始打包了

2.执行打包命令：

scrapyd-deploy 部署名称 -p 项目名称

上面表示打包成功。

以下是可能出现的问题，以及解决方案：

如果出现后端报错和scrapyd前端页面报错，解决方案：

scrapyd 前端报错：

修改远程服务器（192.168.12.80）上的Twisted的版本改为 18.9.0

pip3 install Twisted==18.9.0

重启 Scrapyd:

在访问192.168.12.80:6800/jobs，正常显示:

3.上传运行爬虫

curl http://远程ip:6800/schedule.json -d project=项目名称 -d spider=爬虫名称
如：
curl http://192.168.12.80:6800/schedule.json -d project=circ -d spider=bjh

说明部署成功：

scrapyd部署已经完成了。

管理　

1、停止爬虫

curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID

2.删除scrapy项目
　　注意：一般删除scrapy项目，需要先执行命令停止项目下在远行的爬虫

curl http://localhost:6800/delproject.json -d project=scrapy项目名称

3.查看有多少个scrapy项目在api中

curl http://localhost:6800/listprojects.json

4.查看指定的scrapy项目中有多少个爬虫

curl http://localhost:6800/listspiders.json?project=scrapy项目名称

5总结几个请求url，通过在浏览器输入，也可以监控爬虫进程。

例子：地址栏访问：http://192.168.12.80:6800/daemonstatus.json，获取到一下页面

1、获取状态

http://127.0.0.1:6800/daemonstatus.json

2、获取项目列表

http://127.0.0.1:6800/listprojects.json

3、获取项目下已发布的爬虫列表

http://127.0.0.1:6800/listspiders.json?project=myproject

4、获取项目下已发布的爬虫版本列表

http://127.0.0.1:6800/listversions.json?project=myproject

5、获取爬虫运行状态

http://127.0.0.1:6800/listjobs.json?project=myproject

6、启动服务器上某一爬虫（必须是已发布到服务器的爬虫）

http://127.0.0.1:6800/schedule.json （post方式，data={“project”:myproject,“spider”:myspider}）

7、删除某一版本爬虫

http://127.0.0.1:6800/delversion.json

（post方式，data={“project”:myproject,“version”:myversion}）

8、删除某一工程，包括该工程下的各版本爬虫

http://127.0.0.1:6800/delproject.json（post方式，data={“project”:myproject}）

利用scrapy-client 发布爬虫到远程服务端的更多相关文章

利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...
利用scrapy和MongoDB来开发一个爬虫
今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装在进行今天的任务之前我们需要安装二个框架,分别 ...
【爬虫】利用Scrapy抓取京东商品、豆瓣电影、技术问题
1.scrapy基本了解 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓 ...
利用scrapy爬取腾讯的招聘信息
利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 ...
Scrapy - 第一个爬虫和我的博客
第一个爬虫这里我用官方文档的第一个例子:爬取http://quotes.toscrape.com来作为我的首个scrapy爬虫,我没有找到scrapy 1.5的中文文档,后续内容有部分是我按照官方文 ...
Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...
python3+scrapy 趣头条爬虫实例
项目简介爬取趣头条新闻(http://home.qutoutiao.net/pages/home.html),具体内容: 1.列表页(json):标题,简介.封面图.来源.发布时间 2.详情页(ht ...
Scrapyd发布爬虫的工具
Scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序.它使您能够使用JSON API部署(上传)您的项目并控制其spider. Scrapyd-client Scrapyd- ...
发布Cocos2d-x的PC端程序
发布Cocos2d-x的PC端程序一.创建一个Release的项目 1.利用根目录下的解决方案生成Release.win32文件夹 2.新建一个cocos2d项目(比如解决方案名称MySolutio ...

随机推荐

C#、winform、wpf将类控件放进工具箱里
有时我们需要将vs自带的控件的某一些方法或属性进行一些修改,我们通常会新建一个类来继承它然后对它的方法或属性进行修改,那么我们如何将修改完成的控件类变成可视化控件放到工具箱中便于使用呢? 很简单,只要 ...
Spring Boot：快速入门（二）
学习完成怎么搭建一个独立Spring Boot项目后,上面是整理出来的一些相关文件以及用途. 原本是一个Excel文件,拷贝到博客园就成了图片,当做几个笔记了,用到的时候可以查阅,也欢迎转载,收藏. ...
Jenkins - ERROR: Exception when publishing, exception message [Failed to connect session for config [IP（projectName）]. Message [Auth fail]]
今天在处理Jenkins的时候出现了一些异常,看着控制台,编译都是通过的,只是没有部署上来,查看了控制台日志,如下: 刚开始以为磁盘满了(参考:https://www.cnblogs.com/yuch ...
nginx解决跨域
location ~* \.(eot|ttf|woff|woff2|svg)$ { add_header Access-Control-Allow-Origin *; add_header Acces ...
VMware Workstation 14永久激活密钥
VMware Workstation是一款功能强大的桌面虚拟计算机软件,简单来说就是最强的中文虚拟机了,可以在桌面上运行不同的操作系统 VMware workstation 14永久激活密钥 : CG ...
IPv4的编址方法
重难点: 1.IP地址有3位标识符,由ICANN进行分配. 2.两级的IP地址分为 ::={<网络号>,<主机号>}. 3.在同一个局域网上的主机或路由器的IP地址中的网络号必 ...
nodejs笔记之事件循环
Event Loop (事件循环或者事件轮询) Event Loop是一个程序结构,用于等待和发送消息和事件. 简单说,就是在程序中设置两个线程:一个负责程序本身的运行,称为"主线程&q ...
第一章 Python程序语言简介
第一节 Python概述 1. 什么是Python Python是一种解释型.面向对象.动态数据类型的高级程序设计语言.由Guido van Rossum与1989年发明,第一个公开发行版本发行于 ...
Node.js建立服务、路径处理与响应
通过Node.js创建一个web服务器,要写的代码可能不是最少的,但是一定是最容易理解的. 用6行代码创建的web服务器当在浏览器中访问http://127.0.0.1:1337会看到自定义的字样 ...
无序hashset与hashmap让其有序
今天迭代hashmap时,hashmap并不能按照put的顺序,迭代输出值.用下述方法可以: HashMap<String,String> hashmap = new LinkedHash ...