使用Docker Swarm搭建分布式爬虫集群
https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653195618&idx=2&sn=b7e992da6bd1b24fae8a285fbbe1bd38&chksm=8c99ffb8bbee76ae2b6fc5f265fb586edc8ce8e8d67eb0389b5b247c4cde2a063c0d7d9e432b&scene=0&key=b2ddfae992804f5474c3b20abb75e2a5469a814cac9cbb914d843e7b76e1ea6752c8b6fd32fe01dceca2fe2e898436d5691b7190eb90cdca1a9dcd325dbb621675cc529c2992bf58e8def79d5a644a71&ascene=1&uin=MjgwMTEwNDQxNg%3D%3D&devicetype=Windows-QQBrowser&version=6103000b&lang=zh_CN&pass_ticket=rxCIkuKX8bC9GUfoiX05Q%2B8W%2FnX7p%2B9TdnJOkqoSw4N06LIjjrXo0dqYU5hVSkAz
本文转载自公众号 未闻Code
在爬虫开发过程中,你肯定遇到过需要把爬虫部署在多个服务器上面的情况。此时你是怎么操作的呢?逐一SSH登录每个服务器,使用git拉下代码,然后运行?代码修改了,于是又要一个服务器一个服务器登录上去依次更新?
有时候爬虫只需要在一个服务器上面运行,有时候需要在200个服务器上面运行。你是怎么快速切换的呢?一个服务器一个服务器登录上去开关?或者聪明一点,在Redis里面设置一个可以修改的标记,只有标记对应的服务器上面的爬虫运行?
A爬虫已经在所有服务器上面部署了,现在又做了一个B爬虫,你是不是又得依次登录每个服务器再一次部署?
如果你确实是这么做的,那么你应该后悔没有早一点看到这篇文章。看完本文以后,你能够做到:
2分钟内把一个新爬虫部署到50台服务器上:
docker build -t localhost:8003/spider:0.01 .docker push localhost:8002/spider:0.01docker service create --name spider --replicas 50 --network host 45.77.138.242:8003/spider:0.01
30秒内把爬虫从50台服务器扩展到500台服务器:
docker service scale spider=500
30秒内批量关闭所有服务器上的爬虫:
docker service scale spider=0
1分钟内批量更新所有机器上的爬虫:
docker build -t localhost:8003/spider:0.02 .docker push localhost:8003/spider:0.02docker service update --image 45.77.138.242:8003/spider:0.02 spider
这篇文章不会教你怎么使用Docker,所以请确定你有一些Docker基础再来看本文。
Docker Swarm是什么
Docker Swarm是Docker自带的一个集群管理模块。他能够实现Docker集群的创建和管理。
环境搭建
本文将会使用3台Ubuntu 18.04的服务器来进行演示。这三台服务器安排如下:
Master:45.77.138.242
Slave-1:199.247.30.74
Slave-2:95.179.143.21
Docker Swarm是基于Docker的模块,所以首先要在3台服务器上安装Docker。安装完成Docker以后,所有的操作都在Docker中完成。
在Master上安装Docker
通过依次执行下面的命令,在Master服务器上安装Docker
apt-get updateapt-get install -y apt-transport-https ca-certificates curl software-properties-commoncurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu bionic stable"apt-get updateapt-get install -y docker-ce
创建Manager节点
一个Docker Swarm集群需要Manager节点。现在初始化Master服务器,作为集群的Manager节点。运行下面一条命令。
docker swarm init
运行完成以后,可以看到的返回结果下图所示。
这个返回结果中,给出了一条命令:
docker swarm join --token SWMTKN-1-0hqsajb64iynkg8ocp8uruktii5esuo4qiaxmqw2pddnkls9av-dfj7nf1x3vr5qcj4cqiusu4pv 45.77.138.242:2377
这条命令需要在每一个从节点(Slave)中执行。现在先把这个命令记录下来。
初始化完成以后,得到一个只有1台服务器的Docker 集群。执行如下命令:
docker node ls
可以看到当前这个集群的状态,如下图所示。
创建私有源(可选)
创建私有源并不是一个必需的操作。之所以需要私有源,是因为项目的Docker镜像可能会涉及到公司机密,不能上传到DockerHub这种公共平台。如果你的镜像可以公开上传DockerHub,或者你已经有一个可以用的私有镜像源,那么你可以直接使用它们,跳过本小节和下一小节。
私有源本身也是一个Docker的镜像,先将拉取下来:
docker pull registry:latest
如下图所示。
现在启动私有源:
docker run -d -p 8003:5000 --name registry -v /tmp/registry:/tmp/registry docker.io/registry:latest
如下图所示。
在启动命令中,设置了对外开放的端口为8003端口,所以私有源的地址为:45.77.138.242:8003
提示: 这样搭建的私有源是HTTP方式,并且没有权限验证机制,所以如果对公网开放,你需要再使用防火墙做一下IP白名单,从而保证数据的安全。
允许docker使用可信任的http私有源(可选)
如果你使用上面一个小节的命令搭建了自己的私有源,由于Docker默认是不允许使用HTTP方式的私有源的,因此你需要配置Docker,让Docker信任它。
使用下面命令配置Docker:
echo '{ "insecure-registries":["45.77.138.242:8003"] }' >> /etc/docker/daemon.json
然后使用下面这个命令重启docker。
systemctl restart docker
如下图所示。
重启完成以后,Manager节点就配置好了。
创建子节点初始化脚本
对于Slave服务器来说,只需要做三件事情:
安装Docker
加入集群
信任源
从此以后,剩下的事情全部交给Docker Swarm自己管理,你再也不用SSH登录这个服务器了。
为了简化操作,可以写一个shell脚本来批量运行。在Slave-1和Slave-2服务器下创建一个init.sh
文件,其内容如下。
apt-get updateapt-get install -y apt-transport-https ca-certificates curl software-properties-commoncurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu bionic stable"apt-get updateapt-get install -y docker-ceecho '{ "insecure-registries":["45.77.138.242:8003"] }' >> /etc/docker/daemon.jsonsystemctl restart docker docker swarm join --token SWMTKN-1-0hqsajb64iynkg8ocp8uruktii5esuo4qiaxmqw2pddnkls9av-dfj7nf1x3vr5qcj4cqiusu4pv 45.77.138.242:2377
把这个文件设置为可自行文件,并运行:
chmod +x init.sh./init.sh
如下图所示。
等待脚本运行完成以后,你就可以从Slave-1和Slave-2的SSH上面登出了。以后也不需要再进来了。
回到Master服务器,执行下面的命令,来确认现在集群已经有3个节点了:
docker node ls
看到现在集群中已经有3个节点了。如下图所示。
到止为止,最复杂最麻烦的过程已经结束了。剩下的就是体验Docker Swarm带来的便利了。
创建测试程序
搭建测试Redis
由于这里需要模拟一个分布式爬虫的运行效果,所以先使用Docker搭建一个临时的Redis服务:
在Master服务器上执行以下命令:
docker run -d --name redis -p 7891:6379 redis --requirepass "KingnameISHandSome8877"
这个Redis对外使用7891
端口,密码为KingnameISHandSome8877
,IP就是Master服务器的IP地址。
编写测试程序
编写一个简单的Python程序:
import time
import redis
client = redis.Redis(host='45.77.138.242', port='7891', password='KingnameISHandSome8877')
while True:
data = client.lpop('example:swarm:spider')
if not data:
break
print(f'我现在获取的数据为:{data.decode()}')
time.sleep(10)
这个Python每10秒钟从Redis中读取一个数,并打印出来。
编写Dockerfile
编写Dockerfile,基于Python3.6的镜像创建我们自己的镜像:
from python:3.6label mantainer='contact@kingname.info'user rootENV PYTHONUNBUFFERED=0ENV PYTHONIOENCODING=utf-8run python3 -m pip install rediscopy spider.py spider.pycmd python3 spider.py
构建镜像
编写完成Dockerfile以后,执行下面的命令,开始构建我们自己的镜像:
docker build -t localhost:8003/spider:0.01 .
这里需要特别注意,由于我们要把这个镜像上传到私有源供Slave服务器上面的从节点下载,所以镜像的命名方式需要满足localhost:8003/自定义名字:版本号
这样的格式。其中的自定义名字
和版本号
可以根据实际情况进行修改。在本文的例子中,我由于要模拟一个爬虫的程序,所以给它取名为spider,由于是第1次构建,所以版本号用的是0.01。
整个过程如下图所示。
上传镜像到私有源
镜像构建完成以后,需要把它上传到私有源。此时需要执行命令:
docker push localhost:8003/spider:0.01
如下图所示。
大家记住这个构建和上传的命令,以后每一次更新代码,都需要使用这两条命令。
创建服务
Docker Swarm上面运行的是一个一个的服务,因此需要使用docker service命令创建服务。
docker service create --name spider --network host 45.77.138.242:8003/spider:0.01
这个命令创建了一个名为spider
的服务。默认运行1个容器。运行情况如下图所示。
当然也可以一创建就用很多容器来运行,此时只需要添加一个--replicas
参数即可。例如一创建服务就使用50个容器运行:
docker service create --name spider --replicas 50 --network host 45.77.138.242:8003/spider:0.01
但是一般一开始的代码可能会有不少bug,所以建议先使用1个容器来运行,观察日志,发现没有问题以后再进行扩展。
回到默认1个容器的情况下,这个容器可能在目前三台机器在的任何一台上面。通过执行下面的命令来观察这一个默认的容器运行情况:
docker service ps spider
如下图所示。
查看节点Log
根据上图执行结果,可以看到这个运行中的容器的ID为rusps0ofwids
,那么执行下面的命令动态查看Log:
docker service logs -f 容器ID
此时就会持续跟踪这一个容器的Log。如下图所示。
横向扩展
现在,只有1台服务器运行了一个容器,我想使用3台服务器运行这个爬虫,那么我需要执行一条命令即可:
docker service scale spider=3
运行效果如下图所示。
此时,再一次查看爬虫的运行情况,可以发现三台机器上面会各自运行一个容器。如下图所示。
现在,我们登录slave-1机器上,看看是不是真的有一个任务在运行。如下图所示。
可以看到确实有一个容器在上面运行着。这是Docker Swarm自动分配过来的。
现在我们使用下面的命令强行把slave-1上面的Docker给关了,再来看看效果。
systemctl stop docker
回到master服务器,再次查看爬虫的运行效果,如下图所示。
可以看到,Docker Swarm探测到Slave-1掉线以后,他就会自动重新找个机器启动任务,保证始终有3个任务在运行。在这一次的例子中,Docker Swarm自动在master机器上启动了2个spider容器。
如果机器性能比较好,甚至可以在3每台机器上面多运行几个容器:
docker service scale spider=10
此时,就会启动10个容器来运行这些爬虫。这10个爬虫之间互相隔离。
如果想让所有爬虫全部停止怎么办?非常简单,一条命令:
docker service scale spider=0
这样所有爬虫就会全部停止。
同时查看多个容器的日志
如果想同时看所有容器怎么办呢?可以使用如下命令查看所有容器的最新的20行日志:
docker service ps robot | grep Running | awk '{print $1}' | xargs -i docker service logs --tail 20 {}
这样,日志就会按顺序显示出来了。如下图所示。
更新爬虫
如果你的代码做了修改。那么你需要更新爬虫。
先修改代码,重新构建,重新提交新的镜像到私有源中。如下图所示。
接下来需要更新服务中的镜像。更新镜像有两种做法。一种是先把所有爬虫关闭,再更新。
docker service scale spider=0docker service update --image 45.77.138.242:8003/spider:0.02 spiderdocker service scale spider=3
第二种是直接执行更新命令。
docker service update --image 45.77.138.242:8003/spider:0.02 spider
他们的区别在于,直接执行更新命令时,正在运行的容器会一个一个更新。
运行效果如下图所示。
你可以用Docker Swarm做更多事情
本文使用的是一个模拟爬虫的例子,但是显然,任何可以批量运行的程序都能够用Docker Swarm来运行,无论你用Redis还是Celery来通信,无论你是否需要通信,只要能批量运行,就能用Docker Swarm。
在同一个Swarm集群里面,可以运行多个不同的服务,各个服务之间互不影响。真正做到了搭建一次Docker Swarm集群,然后就再也不用管了,以后的所有操作你都只需要在Manager节点所在的这个服务器上面运行。
使用Docker Swarm搭建分布式爬虫集群的更多相关文章
- Docker Compose 搭建 Redis Cluster 集群环境
在前文<Docker 搭建 Redis Cluster 集群环境>中我已经教过大家如何搭建了,本文使用 Docker Compose 再带大家搭建一遍,其目的主要是为了让大家感受 Dock ...
- Docker Swarm(一)集群部署
一.机器环境 机器规划 172.16.0.89 swarm的manager节点 manager-node 172.16.0.90 swarm的node节点 node1 机器版本(均是:CentOS L ...
- S1_搭建分布式OpenStack集群_03 Mysql、MQ、Memcached、ETCD安装配置
一.安装mysql(contorller)controller ~]# yum -y install mariadb mariadb-server python2-PyMySQL 配置my.cnf文件 ...
- S1_搭建分布式OpenStack集群_02 虚拟机环境配置
一.配置主机名及hosts和防火墙(只演示一台,其他机器配置方式一样)vim /etc/hosts 加入 10.10.11.11 controller10.10.11.12 compute11 ...
- S1_搭建分布式OpenStack集群_01 准备虚拟机
Openstack版本:openstack-queen 版本 一.环境准备 网络规划: Management + API Network:10.10.11.0/24 eth1 网桥:br1 VM ...
- Windows10+Docker搭建分布式Redis集群(SSH服务镜像)(二)
前言:上篇文章我们搭建好了Docker,下面我们开始使用Docker创建镜像,Docker命令就不介绍了.这里宿主是Windows10,cmd的管理和后期文件的复制不是很方便,将创建支持SSH的Cen ...
- Windows10+Docker搭建分布式Redis集群(一)
摘要,Docker for Windows 仅支持专业版 目录 第一步:检查系统支持虚拟化 第二步:下载Docker对应版本 第三步:配置镜像加速 第一步:检查系统是否支持虚拟化 Docker前提是需 ...
- 基于Docker Compose部署分布式MinIO集群
一.概述 Minio 是一个基于Go语言的对象存储服务.它实现了大部分亚马逊S3云存储服务接口,可以看做是是S3的开源版本,非常适合于存储大容量非结构化的数据,例如图片.视频.日志文件.备份数据和容器 ...
- rancher1.X+docker+k8s搭建容器管理集群
一, 环境准备 服务器 Linux k8s-m -.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x86_64 x86_64 x86_64 GNU/Li ...
随机推荐
- ::class 意思
自 PHP 5.5 起,关键词 class 也可用于类名的解析.使用 ClassName::class 你可以获取一个字符串,包含了类 ClassName 的完全限定名称.这对使用了 命名空间 的类尤 ...
- leetcode资料整理
注:借鉴了 http://m.blog.csdn.net/blog/lsg32/18712353 在Github上提供leetcode有: 1.https://github.com/soulmachi ...
- Java内存泄漏分析
https://www.javatang.com/archives/2017/11/08/11582145.html?tdsourcetag=s_pcqq_aiomsg
- 关于jenkins旧的构建导致磁盘空间不足问题
简述: Jenkins在每一次的执行构建后,都会对该构建的项目生成一个历史构建记录以及生成一份历史构建的项目发布包,长期累积可能会占用大量磁盘空间 jenkins构建jobs路径如下图: 解决办法: ...
- 从主机A得到id_rsa.pub文件,在主机B创建用户danny加入该文件,实现主机A免密登录主机B
操作步骤: 1.主机A 生成公钥id_rsa.pub文件并导出该文件 root@mytest:~# ssh-keygen Generating public/private rsa key pair. ...
- Springboot中使用Xstream进行XML与Bean 相互转换
在现今的项目开发中,虽然数据的传输大部分都是用json格式来进行传输,但是xml毕竟也会有一些老的项目在进行使用,正常的老式方法是通过获取节点来进行一系列操作,个人感觉太过于复杂.繁琐.推荐一套简单的 ...
- Python图形用户界面
1.使用Tkinter创建图形用户界面的步骤 (1)导入Tkinter模块,使用import Tkinter或from Tkinter import * (2)创建顶层窗口对象容器,使用top = T ...
- WampServer的安装和配置
1.安装WampServer 启动时发现WampServer的图标是红色的,状态为put offline状态:发现无法put online,并报错could not found the menu it ...
- 1.Java简介
第一章 Java简介 开始上传一些自己画的思维导图 画的基本上是根据菜鸟教程Java的对应的图 会有一系列的图陆续放出来,不过博客上只有截图,具体的带注释的具体的图后续会放在git上,更新会加上git ...
- 多线程的实现方式01 Thread
/* * 多线程 有三种实现方式 * 其一 Thread * * 写一个类 * * 1.让他继承 Thread * 2.重写thread中的run方法 * 3.创建子类对象就是在 创建线程! * 3. ...