ubuntu系统下安装pyspider:使用supervisord启动并管理pyspider进程配置及说明
首先感谢segmentfault.com的“imperat0r_”用户的文章和新浪的“小菜一碟”用户的文章。这是他们的配置文件。我参考也写了一个,在最后呢。
重点说明写在前面。本人用supervisord配置好pyspider后,pyspider一直有问题,不能正常运行。找了很久原因。最后想起,supervisord启动的进程是否正常这个问题。于是果断用supervisorctl命令查看所有管理的进程。果然发现有两个进程启动失败。怎么办?马上修改错误的参数啊!
参数!参数!参数!一定要把参数配置正确,这是王道。
“imperat0r_”的配置
如果你使用源代码启动,可以使用这个配置。如果你使用已编译过的pyspider,请参考下面的配置。只有一个区别,就是启动的路径不一样。我自己的配置文件里,我对参数进行了简要的说明。
[group:pyspider]
program=pyspider-webui,pyspider-scheduler,pyspider-processor,pyspider-result_worker,pyspider-fetcher,pyspider-phantomjs
priority= [program:pyspider-webui]
command=/usr/local/bin/pyspider/run.py -c /root/config.json webui
directory=/root
autostart=true
autorestart=true
priority=
user=root [program:pyspider-scheduler]
command=/usr/local/bin/pyspider/run.py -c /root/config.json scheduler
directory=/root
autostart=true
autorestart=true
priority=
user=root [program:pyspider-processor]
command=/usr/local/bin/pyspider/run.py -c /root/config.json processor
directory=/root
autostart=true
autorestart=true
priority=
user=root [program:pyspider-result_worker]
command=/usr/local/bin/pyspider/run.py -c /root/config.json result_worker
directory=/root
autostart=true
autorestart=true
priority=
user=root [program:pyspider-fetcher]
command=/usr/local/bin/pyspider/run.py -c /root/config.json --phantomjs-proxy="localhost:25555" fetcher
directory=/root
autostart=true
autorestart=true
priority=
user=root [program:pyspider-phantomjs]
command=/usr/local/bin/pyspider/run.py -c /root/config.json phantomjs
directory=/root
autostart=true
autorestart=true
priority=
user=root
新浪的“小菜一碟”的配置:
如果你使用已编译过的pyspider,请参考这个配置。只有一个区别,就是启动的路径不一样。
[group:pyspider]
program=pyspider-webui,pyspider-scheduler,pyspider-processor,pyspider-result_worker,pyspider-fetcher,pyspider-phantomjs
priority= [program:pyspider-webui]
command=pyspider -c config.json webui
autostart=true
autorestart=true
priority=
user=root
directory=/usr/pyspider/ [program:pyspider-scheduler]
command=pyspider -c config.json webui scheduler
directory=/usr/pyspider/
autostart=true
autorestart=true
priority=
user=root
directory=/usr/pyspider/ [program:pyspider-processor]
command=pyspider -c config.json processor
directory=/usr/pyspider/
autostart=true
autorestart=true
priority=
user=root [program:pyspider-result_worker]
command=pyspider -c config.json result_worker
directory=/usr/pyspider/
autostart=true
autorestart=true
priority=
user=root [program:pyspider-fetcher]
command=pyspider -c config.json --phantomjs-proxy="localhost:25555" fetcher
directory=/usr/pyspider/
autostart=true
autorestart=true
priority=
user=root [program:pyspider-phantomjs]
command=pyspider -c config.json phantomjs --phantomjs-path ./phantomjs/bin/phantomjs
directory=/usr/pyspider/
autostart=true
autorestart=true
priority=
user=root
本人自己的配置文件。
这个配置文件可以使pyspider每个组件单独启动进程,单独管理,不影响整体运行。我对这个配置文件学了很久,下面记录一下详细信息,希望对新手有用。每个参数的中文说明见下一节。
[group:pyspider]
program=pyspider-webui,pyspider-scheduler,pyspider-processor,pyspider-result_worker,pyspider-fetcher,pyspider-phantomjs
priority=
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log [program:pyspider-webui]
command=/home/chg/py3env-pyspider/bin/pyspider -c /home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/config.json webui
directory=/home/chg/py3env-pyspider/bin/
autostart=true
autorestart=true
priority=
user=chg
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log [program:pyspider-scheduler]
command=/home/chg/py3env-pyspider/bin/pyspider -c /home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/config.json scheduler
directory=/home/chg/py3env-pyspider/bin/
autostart=true
autorestart=true
priority=
user=chg
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log [program:pyspider-processor]
command=p/home/chg/py3env-pyspider/bin/pyspider -c /home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/config.json processor
directory=/home/chg/py3env-pyspider/bin/
autostart=true
autorestart=true
priority=
user=chg
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log [program:pyspider-result_worker]
command=/home/chg/py3env-pyspider/bin/pyspider -c /home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/config.json result_worker
directory=/home/chg/py3env-pyspider/bin/
autostart=true
autorestart=true
priority=
user=chg
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log [program:pyspider-fetcher]
command=/home/chg/py3env-pyspider/bin/pyspider -c /home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/config.json --phantomjs-proxy="localhost:25555" fetcher
directory=/home/chg/py3env-pyspider/bin/
autostart=true
autorestart=true
priority=
user=chg
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log [program:pyspider-phantomjs]
command=/home/chg/py3env-pyspider/bin/pyspider -c /home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/config.json phantomjs
directory=/home/chg/py3env-pyspider/bin/
autostart=true
autorestart=true
priority=
user=chg
stderr_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider_err.log
stdout_logfile=/home/chg/py3env-pyspider/lib/python3./site-packages/pyspider/pyspider.log
参数中文说明
感谢”使用supervisord来管理process“的文章。
; Sample supervisor config file.
;
; For more information on the config file, please see:
; http://supervisord.org/configuration.html
;
; Note: shell expansion ("~" or "$HOME") is not supported. Environment
; variables can be expanded using this syntax: "%(ENV_HOME)s". [unix_http_server] ; supervisord的unix socket服务配置
file=/tmp/supervisor.sock ; socket文件的保存目录
;chmod= ; socket的文件权限 (default )
;chown=nobody:nogroup ; socket的拥有者和组名
;username=user ; 默认不需要登陆用户 (open server)
;password= ; 默认不需要登陆密码 (open server) ;[inet_http_server] ; supervisord的tcp服务配置
;port=127.0.0.1: ; tcp端口
;username=user ; tcp登陆用户
;password= ; tcp登陆密码 [supervisord] ; supervisord的主进程配置
logfile=/tmp/supervisord.log ; 主要的进程日志配置
logfile_maxbytes=50MB ; 最大日志体积,默认50MB
logfile_backups= ; 日志文件备份数目,默认10
loglevel=info ; 日志级别,默认info; 还有:debug,warn,trace
pidfile=/tmp/supervisord.pid ; supervisord的pidfile文件
nodaemon=false ; 是否以守护进程的方式启动
minfds= ; 最小的有效文件描述符,默认1024
minprocs= ; 最小的有效进程描述符,默认200
;umask= ; 进程文件的umask,默认200
;user=chrism ; 默认为当前用户,如果为root则必填
;identifier=supervisor ; supervisord的表示符, 默认时'supervisor'
;directory=/tmp ; 默认不cd到当前目录
;nocleanup=true ; 不在启动的时候清除临时文件,默认false
;childlogdir=/tmp ; ('AUTO' child log dir, default $TEMP)
;environment=KEY=value ; 初始键值对传递给进程
;strip_ansi=false ; (strip ansi escape codes in logs; def. false) ; the below section must remain in the config file for RPC
; (supervisorctl/web interface) to work, additional interfaces may be
; added by defining them in separate rpcinterface: sections
[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface [supervisorctl]
serverurl=unix:///tmp/supervisor.sock ; use a unix:// URL for a unix socket
;serverurl=http://127.0.0.1:9001 ; use an http:// url to specify an inet socket
;username=chris ; 如果设置应该与http_username相同
;password= ; 如果设置应该与http_password相同
;prompt=mysupervisor ; 命令行提示符,默认"supervisor"
;history_file=~/.sc_history ; 命令行历史纪录 ; The below sample program section shows all possible program subsection values,
; create one or more 'real' program: sections to be able to control them under
; supervisor. ;[program:theprogramname]
;command=/bin/cat ; 运行的程序 (相对使用PATH路径, 可以使用参数)
;process_name=%(program_name)s ; 进程名表达式,默认为%(program_name)s
;numprocs= ; 默认启动的进程数目,默认为1
;directory=/tmp ; 在运行前cwd到指定的目录,默认不执行cmd
;umask= ; 进程umask,默认None
;priority= ; 程序运行的优先级,默认999
;autostart=true ; 默认随supervisord自动启动,默认true
;autorestart=unexpected ; whether/when to restart (default: unexpected)
;startsecs= ; number of secs prog must stay running (def. )
;startretries= ; max # of serial start failures (default )
;exitcodes=, ; 期望的退出码,默认0,
;stopsignal=QUIT ; 杀死进程的信号,默认TERM
;stopwaitsecs= ; max num secs to wait b4 SIGKILL (default )
;stopasgroup=false ; 向unix进程组发送停止信号,默认false
;killasgroup=false ; 向unix进程组发送SIGKILL信号,默认false
;user=chrism ; 为运行程序的unix帐号设置setuid
;redirect_stderr=true ; 将标准错误重定向到标准输出,默认false
;stdout_logfile=/a/path ; 标准输出的文件路径NONE=none;默认AUTO
;stdout_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation (default 50MB)
;stdout_logfile_backups= ; # of stdout logfile backups (default )
;stdout_capture_maxbytes=1MB ; number of bytes in 'capturemode' (default )
;stdout_events_enabled=false ; emit events on stdout writes (default false)
;stderr_logfile=/a/path ; stderr log path, NONE for none; default AUTO
;stderr_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation (default 50MB)
;stderr_logfile_backups= ; # of stderr logfile backups (default )
;stderr_capture_maxbytes=1MB ; number of bytes in 'capturemode' (default )
;stderr_events_enabled=false ; emit events on stderr writes (default false)
;environment=A=,B= ; process environment additions (def no adds)
;serverurl=AUTO ; override serverurl computation (childutils) ; The below sample eventlistener section shows all possible
; eventlistener subsection values, create one or more 'real'
; eventlistener: sections to be able to handle event notifications
; sent by supervisor. ;[eventlistener:theeventlistenername]
;command=/bin/eventlistener ; 运行的程序 (相对使用PATH路径, 可以使用参数)
;process_name=%(program_name)s ; 进程名表达式,默认为%(program_name)s
;numprocs= ; 默认启动的进程数目,默认为1
;events=EVENT ; event notif. types to subscribe to (req'd)
;buffer_size= ; 事件缓冲区队列大小,默认10
;directory=/tmp ; 在运行前cwd到指定的目录,默认不执行cmd
;umask= ; 进程umask,默认None
;priority=- ; 程序运行的优先级,默认-
;autostart=true ; 默认随supervisord自动启动,默认true
;autorestart=unexpected ; whether/when to restart (default: unexpected)
;startsecs= ; number of secs prog must stay running (def. )
;startretries= ; max # of serial start failures (default )
;exitcodes=, ; 期望的退出码,默认0,
;stopsignal=QUIT ; 杀死进程的信号,默认TERM
;stopwaitsecs= ; max num secs to wait b4 SIGKILL (default )
;stopasgroup=false ; 向unix进程组发送停止信号,默认false
;killasgroup=false ; 向unix进程组发送SIGKILL信号,默认false
;user=chrism ; setuid to this UNIX account to run the program
;redirect_stderr=true ; redirect proc stderr to stdout (default false)
;stdout_logfile=/a/path ; stdout log path, NONE for none; default AUTO
;stdout_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation (default 50MB)
;stdout_logfile_backups= ; # of stdout logfile backups (default )
;stdout_events_enabled=false ; emit events on stdout writes (default false)
;stderr_logfile=/a/path ; stderr log path, NONE for none; default AUTO
;stderr_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation (default 50MB)
;stderr_logfile_backups ; # of stderr logfile backups (default )
;stderr_events_enabled=false ; emit events on stderr writes (default false)
;environment=A=,B= ; process environment additions
;serverurl=AUTO ; override serverurl computation (childutils) ; The below sample group section shows all possible group values,
; create one or more 'real' group: sections to create "heterogeneous"
; process groups. ;[group:thegroupname]
;programs=progname1,progname2 ; 任何在[program:x]中定义的x
;priority= ; 程序运行的优先级,默认999 ; The [include] section can just contain the "files" setting. This
; setting can list multiple files (separated by whitespace or
; newlines). It can also contain wildcards. The filenames are
; interpreted as relative to this file. Included files *cannot*
; include files themselves. ;[include]
;files = relative/directory/*.ini
ubuntu系统下安装pyspider:使用supervisord启动并管理pyspider进程配置及说明的更多相关文章
- ubuntu系统下安装pyspider:搭建pyspider服务器新手教程
首先感谢“巧克力味腺嘌呤”的博客和Debian 8.1 安装配置 pyspider 爬虫,本人根据他们的教程在ubuntu系统中进行了实际操作,发现有一些不同,也出现了很多错误,因此做此教程,为新手服 ...
- CentOS和Ubuntu系统下安装 HttpFS (助推Hue部署搭建)
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
- Ubuntu系统下安装并配置hive-2.1.0
说在前面的话 默认情况下,Hive元数据保存在内嵌的Derby数据库中,只能允许一个会话连接,只适合简单的测试.实际生产环境中不使用,为了支持多用户会话, 则需要一个独立的元数据库,使用MySQL作为 ...
- ubuntu系统下安装pyspider:安装命令集合。
本篇内容的前提是你已安装好python 3.5.在ubuntu系统中安装pyspider最大的困难是要依赖组件经常出错,特别是pycurl,但把对应的依赖组件安装好,简单了.下面直接上代码,所有的依赖 ...
- CentOS和Ubuntu系统下安装vsftp(助推大数据部署搭建)
不多说,直接上干货! 同时,声明,我这里安装的vsftp,仅仅只为我的大数据着想,关于网上的复杂安装,那是服务和运维那块.我不多牵扯,也不多赘述. 一.CentOS系统里安装vsftp 第一步:使用y ...
- ubuntu系统下安装pip3及第三方库的安装
ubuntu系统下会自带python2.x和python3.x坏境,不需要我们去安装.并且ubuntu系统下还会自动帮助我们安装python2.x坏境下的pip安装工具, 但是没有python3.x坏 ...
- Python 基础之在ubuntu系统下安装双版本python
前言:随着python升级更新,新版本较于老版本功能点也有不同地方,作为一个初学者应该了解旧版本的规则,也要继续学习新版本的知识.为了能更好去学习python,我在ubuntu安装python2和py ...
- ubuntu系统下安装gstreamer的ffmpeg支持
当您在安装gstreamer到您的ubuntu系统中时,为了更好地进行流媒体开发,需要安装ffmpeg支持,但一般情况下,直接使用 sudo apt-get install gstreamer0.10 ...
- Ubuntu系统下安装Eclipse
第一步:查看操作系统位数. 打开终端,输入file /sbin/init 可以看到笔者Ubuntu系统为32位,读者可以使用该命令获取自己机器上的操作系统位数. 这一步是最至关重要的一步,笔者机器处理 ...
随机推荐
- 36. CentOS-6.3安装Mysql集群
安装要求 安装环境:CentOS-6.3安装方式:源码编译安装 软件名称:mysql-cluster-gpl-7.2.6-linux2.6-x86_64.tar.gz下载地址:http://mysql ...
- MySQL设置快速删除
SET FOREIGN_KEY_CHECKS=0; DROP DATABASE ... SET FOREIGN_KEY_CHECKS=1;
- 基于OpenGL编写一个简易的2D渲染框架-07 鼠标事件和键盘事件
这次为程序添加鼠标事件和键盘事件 当检测到鼠标事件和键盘事件的信息时,捕获其信息并将信息传送到需要信息的对象处理.为此,需要一个可以分派信息的对象,这个对象能够正确的把信息交到正确的对象. 实现思路: ...
- 16 python xml模块
1.基本概念 xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单. 不过,古时候,在json还没诞生的黑暗年代,大家只能选择用xml呀. 至今很多传统公司如金 ...
- python远程调试及celery调试
部分来自 from: https://www.xncoding.com/2016/05/26/python/pycharm-remote.html 你是否经常要在Windows 7或MAC OS X上 ...
- Spring Boot中启动HTTPS
一,生成https 的证书 1,在相应的根目录下 keytool -genkey -alias tomcat -storetype PKCS12 -keyalg RSA -keysize -keyst ...
- python生成器(转)
生成器是一种特殊的迭代器,内部支持了生成器协议,不需要明确定义__iter__()和next()方法.生成器通过生成器函数产生,生成器函数可以通过常规的def语句来定义,但是不用return返回,而是 ...
- 【Java杂记】Equals 和 hashCode
equals 和 hashCode含义 equal:判断两个对象是否相等,如果相同,返回true 否则返回false hashcode: 返回一个int数 Object 默认(内部地址转化为一个数字) ...
- 上传 第三方jar包 nexus
手动上传第三方jar包到nexus的步奏: 1)按下图方式进行 2)按下图完成上传 3)点击保存完成
- 唯快不破:Web应用的13个优化步骤
https://mp.weixin.qq.com/s?__biz=MjM5NzA1MTcyMA==&mid=2651163004&idx=2&sn=2b1be8014abf19 ...