scrapdy部署爬虫项目

原文：https://blog.csdn.net/JLaiRen/article/details/82902321

scrapyd安装

打开命令行工具输入
命令：pip install scrapyd

##启动scrapyd服务

在浏览器中输入127.0.0.1:6800
如图启动成功

(4).找到你的爬虫项目进入到拥有scrapy.cfg文件的目录下
如图：

进入命令行输入命令：pip install scrapyd-client
如图就成功了：

(9).到这里就已经成功了可以去127.0.0.1:6800 查看运行状态

部署

通过scrapyd来部署
部署，切换到你的scrapy项目根目录，python c:\Python27\Scripts\scrapyd-deploy localhost -p projectname
调度，curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername
scrapyd执行频率
开机启动
访问安全

(10).常规操作：
停止爬虫
curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID

删除scrapy项目
注意：一般删除scrapy项目，需要先执行命令停止项目下在远行的爬虫
curl http://localhost:6800/delproject.json -d project=scrapy项目名称

查看有多少个scrapy项目在api中
curl http://localhost:6800/listprojects.json

查看指定的scrapy项目中有多少个爬虫
curl http://localhost:6800/listspiders.json?project=scrapy项目名称

总结几个请求url
1、获取状态
http://127.0.0.1:6800/daemonstatus.json
2、获取项目列表
http://127.0.0.1:6800/listprojects.json
3、获取项目下已发布的爬虫列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、获取项目下已发布的爬虫版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、获取爬虫运行状态
http://127.0.0.1:6800/listjobs.json?project=myproject
6、启动服务器上某一爬虫（必须是已发布到服务器的爬虫）
http://127.0.0.1:6800/schedule.json （post方式，data={“project”:myproject,“spider”:myspider}）
7、删除某一版本爬虫
http://127.0.0.1:6800/delversion.json
（post方式，data={“project”:myproject,“version”:myversion}）
8、删除某一工程，包括该工程下的各版本爬虫
http://127.0.0.1:6800/delproject.json（post方式，data={“project”:myproject}）

部署参考文章：

原文：https://www.kancloud.cn/lorne/standard/738625?sss

Scrapy

重新安装了一下python，pip就已经包含在内了

遇到的问题

pip install Scrpay报一堆错误，实质原因是Twisted安装失败了，找到一篇文章解决了，先下载文件，然后本地直接安装。
运行爬虫时Twisted在python3.7下有bug，卸载了python3.7，安装了一个低版本的3.6.6，再安装Twisted一帆风顺。
No module named 'win32api'，安装pip install pypiwin32
最终结果出来：scrapy crawl itcast -o teachers.json -s FEED_EXPORT_ENCODING=utf-8
成果--取cnblogs近期用户，https://gist.github.com/lonlie/547870d1c09946dada53e771131b583e

Python相关

cmd中如需换行在行尾加\

部署

通过scrapyd来部署
部署，切换到你的scrapy项目根目录，python c:\Python27\Scripts\scrapyd-deploy localhost -p projectname
调度，curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername
scrapyd执行频率
开机启动
访问安全

参考资料

Scrapy 框架入门简介，https://segmentfault.com/a/1190000013178839
Scrapy文档，https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
Python3.7下安装scrapy框架，https://blog.csdn.net/dvivily/article/details/81325337
Scrapy爬虫——xpath与css选择器详解，https://www.jianshu.com/p/489c5d21cdc7
Python爬虫防封杀方法集合，https://www.jianshu.com/p/73697828b8f8
scrapyd部署scrapy项目(windows)，https://www.jianshu.com/p/799a5c3195e4
scrapyd windows环境下安装和使用，https://blog.csdn.net/JLaiRen/article/details/82902321