scrapyd--scrapydweb

scrapyd-实际的管理爬虫程序

scrapyd 是由scrapy 官方提供的爬虫管理工具，使用它我们可以非常方便地上传、控制爬虫并且查看运行日志。

scrapyd是c/s架构

所有的爬虫调度工作全部依靠接口实现，（https://scrapyd.readthedocs.io/en/latest/api.html)

不过有直接封装好的模块scrapydWeb，可视化的查看和管理爬虫程序

scrapyd服务器：

安装：pip install scrapyd

运行：‘scrapyd’命令即可启动服务器，访问接口地址：127.0.0.1:5000(可以自行在配置文件中更改)

scrapydweb对scrapyd运行爬虫产生的日志进行了分析整理，借助了logparser模块

scrapyd服务器配置：

更改配置文件default_scrapyd.conf（所在目录C:\python\Lib\site-packages\scrapyd）

外网访问：bind_address = 0.0.0.0

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs   # 配置日志目录
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port   = 6800
debug       = off

scrapyd客户端：

安装：pip install scrapyd-client

部署scrapy 项目：

直接使用scrapyd-client提供的scrapyd-deploy工具

scrapy-client模块中有一个scrapyd-deploy文件,因为此文件只能在linux中打开,所以要自己写一个windoes的bat文件

创建scrapyd-deploy.bat文件并写入以下代码：

@echo off
"C:\Program Files\python_virtual\spider\Scripts\python.exe" "C:\Program Files\python_virtual\spider\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9

修改要部署项目的根目录中的 scrapy.cfg 文件

# 设置部署名称

[deploy: spider_lianjia]

# scrapyd服务器地址，如果scrapyd没有爬虫项目本地，通过这里指定scrapyd的远程地址
url = http://localhost:6800/

# 项目名称
project = lianjia

# 须要注意的是这里的用户密码并不表示访问该项目须要验证，而是登录服务器用的；没有可以不用写

# username = enlong

# password = test

scrapyd-deploy –l 查看当前部署的爬虫项目

发布本地项目到远程scrapyd服务器

scrapyd-deploy <host> -p <project>

host是部署scrapy的服务器，project是你的项目名称

如：

scrapyd-deploy spider_lianjia –p lianjia

发布成功后

原理：

在本地执行部署命令后，会在服务器的python目录(自动放到了安装scrapyd的python环境-site-packages)下产生两个文件eggs/dbs：其中eggs是爬虫文件的打包；运行后还会有logs文件，用来存放运行日志

不会打包需要的依赖模块，需要手动在服务器上安装

linux下：

../site-packages/scrapyd/eggs/zhilian/1574780063.egg

../site-packages/scrapyd/dbs/zhilian.db

windows下：

除非在配置文件中指明egg/dbs/logs目录，否则在执行scrapyd命令的当前目录下创建这几个文件夹

部署参考：https://blog.csdn.net/baoshuowl/article/details/79656701

不需要在服务器上对egg包做操作，直接通过scrapyd提供的接口来启动管理爬虫

scrapyd默认端口6800

如启动爬虫（必须是已发布到服务器的爬虫）：
http://127.0.0.1:6800/schedule.json （post方式，data={"project":myproject,"spider":myspider}）

可以对接口进行封装：

import requests

ip = "194.168.1.126"
project = "zhilian"
class Deploy:
    # 获取状态
    def status(self):
        url = "http://{}:6800/daemonstatus.json".format(ip)
        resp = requests.get(url)
        print("爬虫状态")
        print(resp.content.decode())

    # 获取项目列表
    def project_list(self):
        url = "http://{}:6800/listprojects.json".format(ip)
        resp = requests.get(url)
        print("所有爬虫项目")
        print(resp.content.decode())

    # 获取项目下已发布的爬虫版本列表
    def project_version(self):
        url = "http://{}:6800/listversions.json?project={}".format(ip,project)
        resp = requests.get(url)
        print("某个爬虫项目的所有版本")
        print(resp.content.decode())

    # 获取爬虫运行状态
    def spider_status(self):
        url = "http://{}:6800/listjobs.json?project={}".format(ip,project)
        resp = requests.get(url)
        print("所有爬虫状态")
        print(resp.content.decode())

    # 启动服务器上某一爬虫
    def start(self):
        url = "http://{}:6800/schedule.json".format(ip)
        data = {
            "project": "zhilian",
            "spider": "zhaopin"
        }
        resp = requests.post(url, data=data)
        print("开启某个爬虫项目")
        print(resp.content.decode())

    def stop(self):
        url = "http://{}:6800/cancel.json".format(ip)
        # 每次启动都会有一个新的job的id
        data = {
            "project": "zhilian",
            "job": "f55dbb54106411eab1e9dca6322820ac"
        }
        resp = requests.post(url, data=data)
        print("停止某个爬虫项目")
        print(resp.content.decode())

    # 删除某一版本爬虫,["1574780063", "1574781404"]，最新的在列表最后面
    def delete(self,version):
        url = "http://{}:6800/delversion.json".format(ip)
        data = {
            "project": "zhilian",
            "version": version
        }
        resp = requests.post(url, data=data)
        print("删除某个爬虫项目的某个版本")
        print(resp.content.decode())

    def run(self):
        self.status()
        self.project_list()
        self.project_version()
        # self.spider_status()
        # self.delete("1574781501")
        self.start()
        # self.stop()
        self.spider_status()

if __name__ == '__main__':
    dep = Deploy()
    dep.run()

api参考官方：https://scrapyd.readthedocs.io/en/stable/api.html

scrapydWeb

特点：

Scrapyd 集群管理，可以配置管理多个scrapyd服务器

Scrapy 日志分析，爬虫实时进度可视化，统计信息展示

支持所有 Scrapyd API，不需要再手动的调用接口来管理和查看爬虫状态

状态监控的本质：向scrapyd请求日志，然后分析，运行scrapydweb的机器必须安装logparser模块；管理是通过调用scrapyd提供的api实现的

过程：开启/关闭爬虫，向scrapydweb发生请求，scrapydweb向scrapyd发送请求；scrapydweb不断的向scrapyd请求日志，然后用logparser解析日志，最终做展示。

scrapydweb配置：第一次运行scrapydweb命令，将在当前工作目录生成配置文件 "scrapydweb_settings.py"并使用，可用于自定义 Scrapyd 服务器列表等选项；scrapydweb依赖于配置文件，所以要在自定义的配置目录下运行scrapydweb命令

配置如下：

############################## 快速设置 开始 ###################################

# 配置本地访问scrapyweb的ip和端口，端口默认5000

SCRAPYDWEB_BIND = '127.0.0.1'   # 如果是在远程机器上，写远程地址
SCRAPYDWEB_PORT = 6000

# 是否开启访问认证限制
ENABLE_AUTH = True
USERNAME = 'root'
PASSWORD = '123456'

# ------------------------------ Chinese --------------------------------------
# 请先确保所有远程服务器已经安装和启动了scrapyd
# 如需远程访问 Scrapyd，需在 Scrapyd 配置文件中设置 'bind_address = 0.0.0.0'，然后重启 Scrapyd

# 配置需要远程访问的scrapyd服务器地址，如果有多个服务器，添加各自的ip

# 如果远程服务器需要登录，则需配置用户名/密码

SCRAPYD_SERVERS = [
    '127.0.0.1:6800',
    # 'username:password@localhost:6801#group',
    # ('username', 'password', 'localhost', '6801', 'group'),
]

# ------------------------------ Chinese --------------------------------------
# 假如 ScrapydWeb 和某个 Scrapyd 运行于同一台主机，建议更新如下三个设置项。

# ENABLE_LOGPARSER:The default is False, set it to True to automatically run LogParser as a subprocess at startup

LOCAL_SCRAPYD_SERVER = '127.0.0.1:6800'

# 配置爬虫日志目录

LOCAL_SCRAPYD_LOGS_DIR = r'D:\python\code\spider_review\lianjia\logs'

# 是否解析日志，需要先安装：pip install logparser，通过命令 logparser 启动 LogParser

ENABLE_LOGPARSER = True

############################## Scrapyd ########################################

# 解析的log文件类型

SCRAPYD_LOG_EXTENSIONS = ['.log', '.log.gz', '.txt']

############################## LogParser ######################################

# 是否备份访问过的所留下的本地日志，这样如果远程日志被删除，本地也可以依然使用

BACKUP_STATS_JSON_FILE = True

# 其他的配置默认即可

logparser可以将原来杂乱的日志做整理，进行显示

参看：https://segmentfault.com/a/1190000018006652?utm_source=tag-newest

分布式爬虫部署

每个服务器上都要安装scrapyd

将本地开发的爬虫分别部署到各个服务器上

通过scrapydweb配置，监控管理每个爬虫的运行状态

最终需要开启的服务，scrapyd，scrapydweb

其他：

需要用到scrapy的item，scrapydweb的item界面才会有日志展示

scrapyd--scrapydweb的更多相关文章

Scrapy+Scrapyd+Scrapydweb实现爬虫可视化
Scrapy+Scrapyd+Scrapydweb实现爬虫可视化 Scrapyd是一个服务,用来运行scrapy爬虫的它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫官 ...
【python3】基于scrapyd + scrapydweb 的可视化部署
一.部署组件概览该部署方式适用于 scrapy项目.scrapy-redis的分布式爬虫项目需要安装的组件有: 1.scrapyd 服务端 [运行打包后的爬虫代码](所有的爬虫机器都要安 ...
时隔五年，Scrapyd 终于原生支持 basic auth
Issue in 2014 scrapy/scrapyd/issues/43 Pull request in 2019 scrapy/scrapyd/pull/326 试用 1. 安装: pip in ...
scrapydWeb安装和使用
1. 安装:pip install scrapydweb 2. 启动:scrapydweb 第一次执行,当前目录会生产配置文件:scrapydweb_settings_v8.py 配置账户和密码: # ...
笔记-爬虫部署及运行工具-scrapydweb
笔记-爬虫部署及运行工具-scrapydweb 1. 简介 scrapyd是爬虫部署工具,但它的ui比较简单,使用不是很方便. scrapydweb以scrapyd为基础,增加了ui界面和监 ...
scrapydweb的初步使用（管理分布式爬虫）
https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md 一.安装配置 1.请先确保所有主机都已经安装和启动 Scrapy ...
scrapy的scrapyd使用方法
一直以来,很多人疑惑scrapy提供的scrapyd该怎么用,于我也是.自己在实际项目中只是使用scrapy crawl spider,用python来写一个多进程启动,还用一个shell脚本来监控进 ...
如何将Scrapy 部署到Scrapyd上？
安装上传工具 1.上传工具 scrapyd-client 2.安装方法: pip install scrapyd-client 3.上传方法: python d:\Python27\Scripts\s ...
如何部署Scrapy 到Scrapyd上？
安装上传工具 1.上传工具 scrapyd-client 2.安装方法: pip install scrapyd-client 3.上传方法: python d:\Python27\Scripts\s ...
Scrapyd部署爬虫
Scrapyd部署爬虫准备工作安装scrapyd: pip install scrapyd 安装scrapyd-client : pip install scrapyd-client 安装curl ...

随机推荐

Servlet一次乱码排查后的总结
由来在写一个小小的表单提交功能的时候,出现了乱码,很奇怪request上来的参数全部是乱码,而从数据库查询出来的中文显示到页面正常,锁定肯定是request对象那里出了问题.后来经过排查,发现是我封 ...
Python爬虫大作业
一.题目: 获取并保存目标网站的下图所示的所有英文名,网页转换通过点击more names刷新名字并将各个英文名子目录下,去获取并保存每一个英文名的名字.性别.寓意.简介如下图所示内容红色标记框内的内 ...
super()方法详解
目录一.单独调用父类的方法二.super() 方法基本概念 2.1 描述 2.2 语法 2.3 单继承使用super() 2.4 多继承使用super() 三.注意事项四.练习一.单独调用父类 ...
java（二）变量
基础数据类型: 数值型:整型(byte.short.int.long).浮点型(float.double)java各整数类型有固定的表数范围和字段长度,不受具体os的影响,以保持java的可移植性:j ...
ReactNative: 使用Text文本组件
一.简言初学RN,一切皆新.Text组件主要用于显示文本,Text组件的重要性不言而喻,无论是Web开发还是客户端开发,都离不开它.它具有响应特性,也即表现为当它被触摸时是否显示为高亮状态.在Web ...
pytest框架之rerunfailures失败重运行机制
web自动化测试中,稳定性在整个测试运行中都至关重要,但不能保证测试脚本或者测试环境一直都能够稳定,它牵扯到诸多因素,在这里就不赘述,pytest框架相较于unittest的一大优势就在于拥有用例失败 ...
巧妙利用selenium中的JS操作来处理特殊的文本框
在使用selenium对页面进行相关操作时,有时候会遇到以下三种情况: 1.日期框:无法直接输入文本,必须要选择某一天的日期并点击才会填入文本框: 2.检索框:可以直接输入文本,但必须要点击根据输入的 ...
Jenkins操作学习 --初始化安装
前言说到持续集成,可以说是当下比较热门的话题了,也是很多公司和It从业者推崇的热门技术,但在项目中真正实际应用起来的并不太多,但通过持续集成带来的好处还是值得学习和推广的. 1.什么是jenkins ...
Linux 下编写一个 PHP 扩展
假设需求开发一个叫做 helloWord 的扩展. 扩展里有一个函数,helloWord(). echo helloWord('Tom'); //返回:Hello World: Tom 本地 ...
Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取
爬取的网站类型: 论坛类网站类型涉及主要的第三方模块: BeautifulSoup:解析.遍历页面 urllib:处理URL请求 Flask:简易的WEB框架介绍: 本次主要使用urllib获取网 ...

scrapyd--scrapydweb

scrapyd--scrapydweb的更多相关文章

随机推荐

热门专题