背景

  目前国内各家云联网跨区域数据传输,会将数据流通过哈希运算负载到不同的底层链路上,而底层链路质量差异较大,这种情况导致的现象就是,使用传统的icmp监控线路正常,但是业务一直不稳定,所以才有了使用TCP监控的需求

  使用TCP测试链路质量各RS厂商都有类似的功能,如RPM,NQA等,但缺陷是不能进行绘图,不能准确掌握线路整个周期内的质量,所以考虑使用zabbix自定义脚本来实现TCP监控

zabbix-tcpping脚本如下

#!/usr/bin/env python3
#-*-coding:utf-8-*-
import os,sys,subprocess
import re,datetime,time
import logging,argparse dir_path = os.path.dirname(os.path.abspath(__file__))
tcp_line = dir_path + '/tcping.py {0} {1} 20 '
ping_type = {'tcp':tcp_line} log_name = dir_path + '/log/' + time.strftime('%Y-%m-%d',time.localtime()) + '.log'
def logger():
logger = logging.getLogger()
fh = logging.FileHandler(log_name)
formater = logging.Formatter("%(asctime)s - %(filename)s[line:%(lineno)d] - %(levelname)s: %(message)s")
fh.setFormatter(formater)
logger.setLevel(logging.DEBUG)
logger.addHandler(fh)
return logger
logger = logger() def value(type,value_type,dip,dport):
cmd_line = type.format(dip,dport)
res = subprocess.Popen(cmd_line,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE).communicate()
# return(res[0]) #python2中使用
return(str(res[0],'utf8'))
def get_value(item,res):
res_value = {'pkloss':'100','restime':'0'}
value_cache = re.findall('\d+%',res)[0]
res_value['pkloss'] = re.findall('\d*',value_cache)[0]
restime_cache = re.findall('\d+[.]\d+\s',res)
if item == 'restime':
count = len(restime_cache)
first = 0
for x in restime_cache:
x = float(x)
first+=x
res_value['restime'] = round(float((first/count)),1)
logger.info('%s:%s'%(item,round(float(res_value[item]),1)))
return(round(float(res_value[item]),1)) def main(type,value_type,dip,dport):
s = value(ping_type[type],value_type,dip,dport)
print(get_value(value_type,s)) if __name__ == "__main__":
parser = argparse.ArgumentParser(description='tcp for monitor')
parser.add_argument('-T',action='store', dest='ping_type',default='tcp')
parser.add_argument('-t',action = 'store',dest='tip')
parser.add_argument('-p',action='store',dest='dport')
parser.add_argument('-i',action='store',dest='item')
args= parser.parse_args() type = args.ping_type
tip = args.tip
dport = args.dport
item = args.item main(type,item,tip,dport)

脚本使用方法

$ python3 zabbixtcp.py -T tcp -t 8.8.8.8 -p 53 -i restime
35.5$ python3 zabbixtcp.py -T tcp -t 8.8.8.8 -p 53 -i pkloss
0.0

zabbix配置

编辑zabbix-agent配置文件,允许使用自定义脚本并添加key
vi /etc/zabbix/zabbix_agentd.conf UnsafeUserParameters=1 UserParameter=tcp_loss[*],/etc/zabbix/monitor/tcploss.py -T tcp -t $1 -p $2 -i pkloss
UserParameter=tcp_restime[*],/etc/zabbix/monitor/tcploss.py -T tcp -t $1 -p $2 -i restime

zabbix前端页面添加item

添加graphs

等待一段时间就可以看到图像了

后端log如下

后续需求,当线路丢包率超过10%时自动执行mtr并保存记录,实现很简单,加一段if语句执行一段shell就行,代码如下(只适用于linux)

    if item =='pkloss' and 100 > round(float(res_value[item]),1)  > 9:
global tip
mtr = '/etc/zabbix/bin/mtr_bash %s'%tip
subprocess.Popen(mtr,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)

shell如下

#!/usr/bin/env bash
IP=$1
mtr -r -n -c 30 -w -b $IP >> /etc/zabbix/bin/log/$1-$(date +%Y-%m-%d)

手动触发下看看效果

代码中使用的tcping.py文件下载链接

https://github.com/yantisj/tcpping/blob/master/tcpping.py

2021-04-16

基于原始代码增加指定源ip功能,

#!/usr/bin/env python3
"""
TCP Ping Test (defaults to port 80, 10000 packets)
Usage: ./tcpping.py host [port] [maxCount]
- Ctrl-C Exits with Results
""" import sys
import socket
import time
import signal
from timeit import default_timer as timer host = None
port = 80 maxCount = 10000
count = 0 try:
sip = sys.argv[1]
except IndexError:
print("Usage: tcpping.py host [port] [maxCount]")
sys.exit(1) try:
host = sys.argv[2]
except IndexError:
print("Usage: tcpping.py host [port] [maxCount]")
sys.exit(1) try:
port = int(sys.argv[3])
except ValueError:
print("Error: Port Must be Integer:", sys.argv[4])
sys.exit(1)
except IndexError:
pass try:
maxCount = int(sys.argv[4])
except ValueError:
print("Error: Max Count Value Must be Integer", sys.argv[4])
sys.exit(1)
except IndexError:
pass passed = 0
failed = 0 def getResults():
""" Summarize Results """ lRate = 0
if failed != 0:
lRate = failed / (count) * 100
lRate = "%.2f" % lRate print("\nTCP Ping Results: Connections (Total/Pass/Fail): [{:}/{:}/{:}] (Failed: {:}%)".format((count), passed, failed, str(lRate))) def signal_handler(signal, frame):
""" Catch Ctrl-C and Exit """
getResults()
sys.exit(0) signal.signal(signal.SIGINT, signal_handler) while count < maxCount: count += 1 success = False s = socket.socket(
socket.AF_INET, socket.SOCK_STREAM) s.settimeout(1) s_start = timer() try:
s.bind((sip,0))
s.connect((host, int(port)))
s.shutdown(socket.SHUT_RD)
success = True except socket.timeout:
print("Connection timed out!")
failed += 1
except OSError as e:
print("OS Error:", e)
failed += 1 s_stop = timer()
s_runtime = "%.2f" % (1000 * (s_stop - s_start)) if success:
print("Connected to %s[%s]: tcp_seq=%s time=%s ms" % (host, port, (count-1), s_runtime))
passed += 1 if count < maxCount:
time.sleep(1) getResults()

适配以上代码zabbix脚本需要做以下变更

#!/usr/bin/env python3
#-*-coding:utf-8-*-
import os,sys,subprocess
import re,random,datetime,time
import logging,argparse dir_path = os.path.dirname(os.path.abspath(__file__))
tcp_line = dir_path + '/tcping.py {0} {1} {2} 10 '
ping_type = {'tcp':tcp_line} log_name = dir_path + '/log/' + time.strftime('%Y-%m-%d',time.localtime()) + '.log'
def logger():
logger = logging.getLogger()
fh = logging.FileHandler(log_name)
formater = logging.Formatter("%(asctime)s - %(filename)s[line:%(lineno)d] - %(levelname)s: %(message)s")
fh.setFormatter(formater)
logger.setLevel(logging.DEBUG)
logger.addHandler(fh)
return logger
logger = logger() def value(type,value_type,sip,dip,dport):
cmd_line = type.format(sip,dip,dport)
res = subprocess.Popen(cmd_line,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE).communicate()
# return(res[0]) #python2中使用
return(str(res[0],'utf8'))
def get_value(item,res):
res_value = {'pkloss':'100','restime':'0'}
value_cache = re.findall('\d+%',res)[0]
res_value['pkloss'] = re.findall('\d*',value_cache)[0]
restime_cache = re.findall('\d+[.]\d+\s',res)
if item == 'restime':
count = len(restime_cache)
first = 0
for x in restime_cache:
x = float(x)
first+=x
res_value['restime'] = round(float((first/count)),1)
logger.info('%s:%s'%(item,round(float(res_value[item]),1)))
return(round(float(res_value[item]),1)) def main(type,value_type,sip,dip,dport):
s = value(ping_type[type],value_type,sip,dip,dport)
print(get_value(value_type,s)) if __name__ == "__main__":
parser = argparse.ArgumentParser(description='tcp for monitor')
parser.add_argument('-T',action='store', dest='ping_type',default='tcp')
parser.add_argument('-s',action = 'store',dest='sip')
parser.add_argument('-t',action = 'store',dest='tip')
parser.add_argument('-p',action='store',dest='dport')
parser.add_argument('-i',action='store',dest='item')
args= parser.parse_args() type = args.ping_type
sip = args.sip
tip = args.tip
dport = args.dport
item = args.item main(type,item,sip,tip,dport)

  zabbix 定义key

UserParameter=tcp_pkloss[*],/etc/zabbix/monitor/tcploss.py -T tcp  -s $1 -t $2  -p $3  -i pkloss
UserParameter=tcp_restime[*],/etc/zabbix/monitor/tcploss.py -T tcp -s $1 -t $2 -p $3 -i restime

使用python脚本+zabbix前端监控云联网底层TCP数据流所负载的链路质量,并在丢包时联动保存MTR记录的更多相关文章

  1. 使用shell+python脚本实现系统监控并发送邮件

    1.编辑shell脚本 [root@web03 ~/monitor_scripts]# cat inspect.sh #!/bin/bash # 设置磁盘的阀值 disk_max=90 # 设置监控i ...

  2. Python脚本收集腾讯云CDN日志,并入ELK日志分析

    负责搭建公司日志分析,一直想把CDN日志也放入到日志分析,前些日志终于达成所愿,现在贴出具体做法: 1.收集日志 腾讯云CDN日志一般一小时刷新一次,也就是说当前只能下载一小时之前的日志数据,但据本人 ...

  3. 使用python脚本批量删除阿里云oss中的mp4文件

    #encoding:utf-8 ''' oss中有一些mp4文件需要删除,首先定位出这些文件放在txt文本中 然后通过python操作oss进行批量删除 ''' import oss2 auth = ...

  4. 使用python脚本配置zabbix发送报警邮件

    #前提得在zabbix_server配置文件中配置触发脚本的目录,例如,我配置的在/usr/local/zabbix/server/scripts目录下 编写python脚本如下 因为我的服务器在腾讯 ...

  5. 计算python脚本的运行时间

    首先说一下我遇到的坑,生产上遇到的问题,我调度Python脚本执行并监控这个进程,python脚本运行时间远远大于python脚本中自己统计的程序执行时间. 监控python脚本执行的时间是36个小时 ...

  6. 通过python脚本和zabbix配合监控zookeeper的节点数

    通过python脚本和zabbix配合监控zookeeper的节点数 需求描述: 在日常zabbix监控zookeeper的时候,无法通过shell来获取zookeeper的具体节点信息,没有开放具体 ...

  7. zabbix 调用python脚本监控 磁盘剩余空间(创建模版,创建监控项,创建触发器)

    主要 记录一下  使用zabbix 自己创建模版.监控项.触发器,并调用python脚本. 需求: 监控备份机磁盘剩余空间(windows系统) 一.安装zabbix_agent 比较简单 修改配置文 ...

  8. zabbix增加手机短信、邮件监控的注意要点,SSL邮件发送python脚本

    1.短信接口文档: URL http://xxx.com/interfaces/sendMsg.htm Method POST Description 文字短信调用接口 Request Param L ...

  9. 阿里云zabbix的python脚本

    由于阿里云只能用465端口.所以这个zabbix的脚本修改成了465端口的python脚本. 修改于https://www.jianshu.com/p/9d6941dabb47 #!/usr/bin/ ...

随机推荐

  1. 学习SVN02

    代码发布方案: 1,安装,优化 软件环境,(nginx,lvs)  <-------运维工程师 2,程序代码(不断更新).   <--------开发工程师,(开发,运维都可以发布) 3, ...

  2. vue 3d轮播组件 vue-carousel-3d

    开发可视化项目时,需要3d轮播图,找来找去发现这个组件,引用简单,最后实现效果还不错.发现关于这个组件,能搜到的教程不多,就分享一下我的经验. 插件github地址:https://wlada.git ...

  3. Tomcat安装流程(无图简易)

    笔记:web->3小结

  4. 利用Matlab快速绘制栅格地图

    代码演示 % 基于栅格地图的机器人路径规划算法 % 第1节:利用Matlab快速绘制栅格地图 clc clear close all %% 构建颜色MAP图 cmap = [1 1 1; ... % ...

  5. 破解浏览器同源政策利器之JSONP

    本文是在了解了浏览器的同源规则之后,学习了破解这个规则的一个简单有效的方法->JSONP.主要通过阮一峰老师的博客学习 浏览器的同源规则 有这样一个背景,如果你通过银行的网站进行的取钱的交易,而 ...

  6. CCF201503-1图像旋转

    问题描述 旋转是图像处理的基本操作,在这个问题中,你需要将一个图像逆时针旋转90度. 计算机中的图像表示可以用一个矩阵来表示,为了旋转一个图像,只需要将对应的矩阵旋转即可. 输入格式 输入的第一行包含 ...

  7. JavaScript实现动态表格

    运行效果: 源代码: 1 <!DOCTYPE html> 2 <html lang="zh"> 3 <head> 4 <meta char ...

  8. 网络编程学习——Linux epoll多路复用模型

    前言 后端开发的应该都知道Nginx服务器,Nginx是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器.后端部署中一般使用的就是Nginx反向代理技术. ...

  9. JavaWeb学习day2-web入门&随笔

    Tomcat详解: 1默认端口号: Tomcat:8080 Mysql:3306 http:80 https:443 2默认主机名:localhost 地址:127.0.0.1 3网站应用默认存放位置 ...

  10. 2021.07.19 P2294 狡猾的商人(差分约束)

    2021.07.19 P2294 狡猾的商人(差分约束) [P2294 HNOI2005]狡猾的商人 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 重点: 1.差分约束最长路与最短 ...