zabbix监控常见系统报错
CPU触发器:
1)Processor load is too high on {HOST.NAME} {HOST.NAME}上处理器负载太高
触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5
告警等级:警告
2)Disk I/O is overloaded on {HOST.NAME} 磁盘I/O在{HOST.NAME}上重载
触发器表达式:{Zabbix server:system.cpu.util[,iowait].avg(1h)}>30
告警等级:警告
3){HOST.NAME} [CPU Idle]-[< 10%] CPU空闲小于百分之10
触发器表达式:{Zabbix server:system.cpu.util[,idle].count(#5,10,"lt")}=5
告警等级:一般严重
General触发器:
1)Hostname was changed on {HOST.NAME} 主机名被更改
触发器表达式:{Zabbix server:system.hostname.diff(0)}>0
告警等级:信息
2)Host information was changed on {HOST.NAME} 主机信息给更改
触发器表达式:{Zabbix server:system.uname.diff(0)}>0
告警等级:信息
3)HOST.NAME} has just been restarted 重新启动主机
触发器表达式:{Zabbix server:system.uptime.change(0)}<0
告警等级:信息
Keepalived触发器
1){HOST.NAME}keepalived进程宕机,请运维人员确认
触发器表达式:({TRIGGER.VALUE}=0 and {Zabbix server:proc.num[keepalived,,,keepalived].change(0)}<0 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}=0) or ({TRIGGER.VALUE}=1 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}<>3)
告警等级:严重
Memory触发器
1)Lack of free swap space on {HOST.NAME} 主机上缺少自由交换空间
触发器表达式:{Zabbix server:system.swap.size[,pfree].last(0)}<10
告警等级:警告
2)Lack of available memory on server {HOST.NAME} 主机服务器上缺少可用的内存
触发器表达式:{Zabbix server:vm.memory.size[available].last(0)}<20M
告警等级:一般严重
Security触发器
1)/etc/passwd has been changed on {HOST.NAME} 主机密码文件被更改
触发器表达式:{Zabbix server:vfs.file.cksum[/etc/passwd].diff(0)}>0
告警等级:警告
Processes触发器
1)Too many processes running on {HOST.NAME} 在主机上运行的进程太多
触发器表达式:{Zabbix server:proc.num[,,run].avg(5m)}>30
告警等级:警告
2)Too many processes on {HOST.NAME} 在主机上进程太多
触发器表达式:{Zabbix server:proc.num[].avg(5m)}>1000
告警等级:警告
Performace触发器
1)Processor load is too high on {HOST.NAME} 在主机上处理器负载过高(1分钟)
触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5
告警等级:警告
OS触发器
1)Configured max number of processes is too low on {HOST.NAME} 主机上配置的最大进程数太低
触发器表达式:{Zabbix server:kernel.maxproc.last(0)}<256
告警等级:信息
2)Configured max number of opened files is too low on {HOST.NAME} 在主机上配置的最大打开文件数太低
触发器表达式:{Zabbix server:kernel.maxfiles.last(0)}<1024
告警等级:信息
出现报警首先看
内存瓶颈 free 查看内存使用情况
vmstat 10(间隔时间)100(监控次数) 查看swap in/out 详细定位是否存在性能瓶颈
sar -r 3 查看内存使用情况不包括swap情况
CPU瓶颈 top -H 按照CPU消耗高低排序
ps -Lp 进程号CU 查看某个进程的CPU消耗排序
cat /proc/cpuinfo|grep 'processor'|wc -l 查看cpu核数
top 查看cpu总体消耗,包括分项消耗如user,system,idle,nice等消耗
sar -u 3(间隔时间) 查看cpu总体消耗占比
top -b -n 1 | awk ‘{if (NR<=7)print;else if($8==”D”){print;count++}}END{print “Total status D:”count}’ 计算在cpu load里面的uninterruptedsleep的任务数量
网络瓶颈 cat /var/log/messages 查看内核日志,查看是否丢包
watch more /proc/net/dev 用于定位丢包,错包情况,以便看网络瓶颈
netstat -na|grep ESTABLISHED|wc -l 查看tcp连接成功状态的数量
netstat -na|awk’{print $6}’|sort |uniq -c |sort -nr 看tcp各个状态数量
netstat -i 查看网络错误
ss state ESTABLISHED| wc -l 更高效地统计tcp连接状态为ESTABLISHED的数量
cat /proc/net/snmp 查看和分析240秒内网络包量,流量,错包,丢包 用于计算重传率tcpetr=RetransSegs/OutSegs
ping ip 测试网络性能
traceroute ip 查看路由经过的地址 常用于定位网络在各个路由区段的耗时
dig 域名 查看域名解析地址
dmesg 查看系统内核日志
磁盘瓶颈 iostat -x -k -d 1 详细列出磁盘的读写情况 当看到I/O等待时间所占CPU时间的比重很高的时候,首先要检查的就是机器是否正在大量使用交换空间,同时关注iowait占比cpu的消耗是否很大,如果大说明磁盘存在大的瓶颈,同时关注await,表示磁盘的响应时间以便小于5ms
iotop 查看哪个进程在大量读取IO 一般先通过iostat查看是否存在io瓶颈,再定位哪个进程在大量读取IO
df -hl 查看磁盘剩余空间
du -sh 查看磁盘使用了多少空间
应用瓶颈 ps -ef | grep java 查看某个进程的id号
ps -ef | grep httpd| wc -l 查看特定进程的数量
cat .log | grep Exception | wc -l 统计日志文件中包含特定异常数量
jstack -l pid 用于查看线程是否存在死锁
awk’{print $8}’ 2017-05-22-access_log|egrep ’301|302′| wc -l 统计log中301、302状态码的行数,$8表示第八列是状态码,可以根据实际情况更改 常用于应用故障定位
grep ‘wholesaleProductDetailNew’ cookie_log | awk ‘{if($10==”200″)}’print}’ | awk ‘print $12′ | more 打印包含特定数据的12列数据
grep “2017:05:22″ cookielog | awk ‘($12>0.3){print $12 “–” $8}’ | sort > 目录地址 对apache或者nginx访问log进行响应时间排序,$12表示cookie log中的12列表示响应时间
grep -v ‘HTTP/1.1″ 200′ 取出非200响应码的URL
pgm -A -f 应用集群名称 “grep “’301 ‘ log文件地址 | wc -l 查看整个集群的log中301状态码的数量
ps -efL | grep [PID] | wc -l 查看某个进程创建的线程数
find / -type f -name “*.log” | xargs grep “ERROR” 统计所有的log文件中,包含Error字符的行 这个在排查问题过程中比较有用
-XX:HeapDumpPath=/home/logs -Xloggc:/home/log/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps 在Java启动参数中加入,打印gc日志
-server -Xms4000m -Xmx4000m -Xmn1500m -Xss256k -XX:PermSize=340m -XX:MaxPermSize=340m -XX:+UseConcMarkSweepGC 调整JVM堆大小 xss是栈大小
zabbix监控常见系统报错的更多相关文章
- SAP QA32 做使用决策系统报错:分类数据的不一致性=>交易终止
SAP QA32 做使用决策系统报错:分类数据的不一致性=>交易终止 QA32,对如下检验批做处理,系统报错, 试图使用MSC3N去显示这个批次主数据,同样报错, 原因在于批次的分类数据产生后, ...
- Linux 系统报错 rcu_preempt detected stalls on CPUs/tasks
说在前面的一些废话: 这是什么错误我不知道,为什么出现我不知道! 那为什么还要把他写出来了,只是因为这个错误遇到了,而且浪费了我很多时间和精力. 故事留给自己看,解决办法就是,重新升级一下Linux系 ...
- PHP+mysql系统报错:PHP message: PHP Warning: Unknown: Failed to write session data (files)
PHP+mysql系统报错:PHP message: PHP Warning: Unknown: Failed to write session data (files) 故障现象,后台页面点击没有 ...
- linux运维常见英文报错中文翻译(菜鸟必知)
linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permissio ...
- 由于更换硬盘没有删除系统自启动读取挂载硬盘导致系统报错:fsck.ext4 unable to resolve 'UUID=a4a7a0f7-b54f-4774-9fb1'
由于更换硬盘没有删除系统自启动读取挂载硬盘导致系统报错:fsck.ext4 unable to resolve 'UUID=a4a7a0f7-b54f-4774-9fb1' 此时进入系统已root模式 ...
- Linux常见英文报错中文翻译(菜鸟必知)
Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...
- Linux常见英文报错中文翻译
Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...
- SAP QA32试图做UD,系统报错-工厂 BTYC中的 QM 基选设置需要维护
SAP QA32 试图做UD,系统报错 - 工厂 BTYC 中的 QM 基选设置需要维护 - 检验批 10000062593,试图做使用决策,系统报错, 工厂 BTYC 中的 QM 基选设置需要维护 ...
- Zabbix监控win10系统
Zabbix监控win10系统 1. 在win10下安装zabbix-agent zabbix-agent下载地址:https://www.zabbix.com/downloads/4.2.6/zab ...
随机推荐
- 4. easyui删除功能实例
############实例1############## function delPerson(id) { $.messager.defaults = { ok : "确定", ...
- oracle中查询表是否存在
select count(*) from user_tables where table_name='表名' 或者 select 1 from user_tables where table_name ...
- 机器学习进阶-阈值与平滑-图像平滑操作(去噪操作) 1. cv2.blur(均值滤波) 2.cv2.boxfilter(方框滤波) 3. cv2.Guassiannblur(进行高斯滤波) 4. cv2.medianBlur(进行中值滤波)
1.cv2.blur(img, (3, 3)) 进行均值滤波 参数说明:img表示输入的图片, (3, 3) 表示进行均值滤波的方框大小 2. cv2.boxfilter(img, -1, (3, ...
- C#--构造函数的理解
说白了构造函数就是用来初始化类的数据成员{因为C#语言具有类型安全的特质-->不能使用没有初始化的变量)} 在这里引用一下别人的总结,我觉得挺好的: 构造函数是一种特殊的成员函数,它主要用于为对 ...
- python oracle 查询返回字典
from: https://sourceforge.net/p/cx-oracle/mailman/message/27145597/ I'd do it with a "row facto ...
- webvtt字幕转srt字幕的python程序(附改名程序)
最近写了两个比较简单的python程序,原有都是由于看公开课感觉比较费劲,一个是下载的视频无用的名字太长,另一个就是下载的vtt字幕播放器不识别,写了一个vtt转换成str字幕格式的文件 vtt to ...
- secureCRT工具下载和安装
本文主要提供secureCRT软件下载和安装操作指导,节约软件查找和安装时间. 使用环境 32位Windows系统 软件下载 secureCRT软件和注册机下载:secureCRT 安装步骤和注意事项 ...
- webpack异步加载业务模块
虽然把我们用到的JS文件全部打包一个可以节省请求数,但如果打包后的JS文件过大,那么也容易出现白屏现象,许多操作失灵.而且一些区域是点到才出现,那么相关的JS其实可以剥离出这个大JS文件外.这就涉及到 ...
- gitbash上使用tree
gitbash上使用tree vscode从cmd设置gitbash之后,想在使用windows下的tree命令发现运行不了,有两种解决方案. 1,在gitbash上cmd //c tree,就等同c ...
- springboot配置异常 web页面跳转
第一步 controller中 package cn.itcast.springboot.controller; import org.springframework.stereotype.Contr ...