利用superlance监控supervisor运行状态
此文已由作者张家裕授权网易云社区发布。
欢迎访问网易云社区,了解更多网易技术产品运营经验。
最近开发问到supervisor管理下的进程重启了,有无办法做到主动通知,楼主最先想到的是supervisor自带的eventlistener,于是找到了下面的解决方法。
supervisor与superlance简介
supervisor是一款非常实用的进程管理工具,可以方便的通过命令开启、关闭、重启等操作,而且它管理的进程一旦崩溃会自动重启。在KM上面已有多篇文章介绍supervisor的优势以及使用技巧,此处对supervisor本身的介绍不予赘述。
这里主要介绍与supervisor协同工作的的利器superlance,是基于supervisor的事件机制实现的一系列命令行的工具集,它实现了许多supervisor本身没有实现的实用的进程监控和管理的特性,包括内存监控,http接口监控,邮件和短信通知机制等。同样的,superlance本身也是使用python编写的。
安装
由于superlance是一个python包,安装起来十分简单,通过easy_install或者pip就可以简单的安装:
- easy_install superlance
- pip install superlance
当然也可以到github上获得最新的源码(https://github.com/Supervisor/superlance)并安装。
- python setup.py install
安装后执行以下httpok命令,如果该命令存在,则说明superlance已经正常安装了。
superlance的组件
superlance是一系列命令行工具的集合,其包括以下这些命令:
httpok
通过定时对一个HTTP接口进行GET请求,根据请求是否成功来判定一个进程是否处于正常状态,如果不正常则对进程进行重启。
crashmail
当一个进程意外退出时,发送邮件告警。
memmon
当一个进程的内存占用超过了设定阈值时,发送邮件告警。
crashmailbatch
类似于crashmail的告警,但是一段时间内的邮件将会被合成起来发送,以避免邮件轰炸。
fatalmailbatch
当一个进程没有成功启动多次后会进入FATAL状态,此时发送邮件告警。与crashmailbatch一样会进行合成报警。
crashsms
当一个进程意外退出时发送短信告警,这个短信也是通过email网关来发送的。
实际使用例子:
注意:在实际配置supervisor使用superlance之前,首先要安装sendmail,superlance使用这个命令行工具来发送email,利用各种包管理工具都可以简单的安装:
- apt-get install sendmail
crashmail使用介绍
supervisor的配置内容如下:
- cat /etc/supervisor/conf.d/redis.conf
- [program:redis]
- command=/usr/local/redis/bin/redis-server /home/redis/etc/redis.conf
- directory=/usr/local/redis/bin/
- user=mysql
- autostart = trueautorestart = true#startsecs = 30stopwaitsecs = 1stopsignal = TERM
- redirect_stderr = true
- [eventlistener:redis_monitor]
- command=crashmail -p redis -m zhangjy@corp.netease.com
- events=PROCESS_STATE_EXITED
- redirect_stderr=false
首先配置了redis进程启动项目,随后配置了一个名为redis_monitor的事件监听器,它接受来自supervisor的PROCESS_STATE_EXITED事件,并且会触发crashmail的命令行调用。
PROCESS_STATE_EXITED是在一个supervisor的监控项对应的进程意外退出时会触发的事件,这就使得一个进程出现意外退出的情况下会通知到crashmail。
command参数中-p参数配置了crashmail只会对名为redis的监控项作出响应,而-m参数中则配置了崩溃邮件会被发送到的地址。
配置了上诉配置后,就可通过supervisorctl看到配置的两条内容,一条是redis监控项,另外一条则是事件监听器redis_monitor:
使用kill来杀掉redis进程
收到进程26039退出的邮件通知
该配置可以在进程重启时通过邮件的方式通知到用户。
memmon使用介绍
这里利用memmon监控进程的内存占用情况,这里有一段测试脚本:
这段脚本在执行的过程中会出现内存泄露的情况,导致内存占用越来越大,直至无法系统无法再分配内存导致程序异常退出,利用这段脚本我们可以配置一个memmon的事件监听来发出内存泄露的告警。
supervisor的配置如下:
- [program:leak]
- command=python /home/zhangjy/memoryleak.py
- user=zhangjy
- directory=/home/zhangjy
- priority=999process_name=%(program_name)s
- numprocs=1autostart = trueautorestart = truestopwaitsecs = 1stopsignal = TERM
- exitcodes=0,2redirect_stderr = falsestdout_logfile_maxbytes = 1024MB
- stdout_logfile_backups = 5stdout_logfile = /home/zhangjy/stdout.log
- stderr_logfile_maxbytes = 1024MB
- stderr_logfile_backups = 5stderr_logfile = /home/zhangjy/stderr.log
- [eventlistener:leak_monitor]
- command=memmon -p leak=1MB -m zhangjy@corp.netease.com
- events=TICK_60
- redirect_stderr=false
这里memmon事件监听器监听的是TICK_60事件,也就是每60秒间隔触发一次的事件,这使得memmon会每60秒检测一次对应的监控项的占用内存情况,这里设置的是监控leak监控项,如果其内存占用超过1MB,则会重启进程,并发送邮件进行告警。 起到该进程后,查看状态
运行60s后,leak进程的内存占用超过了1MB的告警值, leak的uptime也重置了,说明该进程已经被重启了,使得该进程可以保持正常运行,同时也达到了内存泄露告警的目的。
可以看到邮箱中收到了告警邮件:
利用superlance工具可以完成各种各样的告警需求,扩展了supervisor的功能,这些工具的具体使用方法可以参考官方文档:
https://superlance.readthedocs.org/en/latest/index.html
更多网易技术、产品、运营经验分享请点击。
相关文章:
【推荐】 Java web 服务启动时Xss溢出异常处理笔记
【推荐】 react技术栈实践(2)
利用superlance监控supervisor运行状态的更多相关文章
- 利用Superlance监控Supervisor运行状态并实现报警
Superlance是基于supervisor的事件机制实现的一系列命令行的工具集,它实现了许多supervisor本身没有实现的实用的进程监控和管理的特性,包括内存监控,http接口监控,邮件和短信 ...
- 监控MySQL运行状态:MySQLD Exporter
具体监控配置详看这篇文章:https://www.cnblogs.com/sanduzxcvbnm/p/13094580.html 为了确保数据库的稳定运行,通常会关注一下四个与性能和资源利用率相关的 ...
- 利用shell监控cpu、磁盘、内存使用率
利用shell监控cpu.磁盘.内存使用率,达到警报阈值发邮件进行通知 并配合任务计划,即可及时获取报警信息 #!/bin/bash ################################# ...
- C#实现软件监控外部程序运行状态的方法
本文实例讲述了C#实现软件监控外部程序运行状态的方法.分享给大家供大家参考.具体方法如下: 需要外挂一个程序,用于监控另一个程序运行状态,一旦检测到另一程序关闭,就触发一个事件做其他处理. using ...
- Prometheus 监控目标运行状态并邮件通知
Prometheus 监控目标运行状态并邮件通知 邮件服务安装:https://www.cnblogs.com/xiangsikai/p/9809654.html 告警规则示例:https://pro ...
- linux下利用JMX监控Tomcat
利用JMX监控Tomcat,就是相当于部署在tomcat上的应用作为服务端,也就是被管理资源的对象.然后通过程序或者jconsole远程连接到该应用上来.远程连接需要服务器端提供ip和port.如果需 ...
- 利用zabbix监控oracle数据库
一.概述 zabbix是一款非常强大,同时也是应用最为广泛的开源监控软件,本文将给大家介绍如何利用zabbix监控oracle数据库. 二.环境介绍 以下是我安装的环境,实际部署时并不需要跟我的环境一 ...
- C# 利用性能计数器监控网络状态
本例是利用C#中的性能计数器(PerformanceCounter)监控网络的状态.并能够直观的展现出来 涉及到的知识点: PerformanceCounter,表示 Windows NT 性能计数器 ...
- 利用pt-deadlock-logger监控死锁
Percona提供的percona-toolkit提供很多实用功能,这里着重介绍如何监控死锁. pt-deadlock-logger基本用法 Usage: pt-deadlock-logger [OP ...
随机推荐
- 使用MapReduce将HDFS数据导入Mysql
使用MapReduce将Mysql数据导入HDFS代码链接 将HDFS数据导入Mysql,代码示例 package com.zhen.mysqlToHDFS; import java.io.DataI ...
- ML二(决策树学习)
决策树学习 Decision Tree Learning 1 基本概念 属性(attribute):树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应该属性的一个可能值. 熵(en ...
- HDU 4123 Bob's Race:树的直径 + 单调队列 + st表
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4123 题意: 给你一棵树,n个节点,每条边有长度. 然后有m个询问,每个询问给定一个q值. 设dis[ ...
- PLSQL Developer使用技巧整理
Shortcut: =============================================================================== Edit/Und ...
- 分享知识-快乐自己:mongodb 安装部署(linux)
1):下载 mongodb 包 [root@admin tools]# wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6. ...
- docker 基本概念
image 操作系统 应用 registeries image 的远程仓库 containers 类似一个目录,一个容器包含了 应用运行所需要的一切东西, 容器之间互相独立 image包换一系列的层, ...
- Opencv - Android 配置安装
1.道具们: windows 7 64位 OpenCV-2.4.6-android-sdk-r2 ( http://sourceforge.net/projects/opencvlibrary/fil ...
- Execl to HTML
/************************************************************************* * Execl to HTML * 说明: * 这 ...
- 打包AAC码流到FLV文件
AAC编码后数据打包到FLV很简单. 1. FLV音频Tag格式 字节位置 意义0x08, ...
- CF510E. Fox And Dinner
CF510E. Fox And Dinner https://codeforces.com/contest/510 分析: 由于\(a_i>2\), 相邻两个数一定一奇一偶,按奇偶建立二分图. ...