zabbix监控常见系统报错
CPU触发器:
1)Processor load is too high on {HOST.NAME} {HOST.NAME}上处理器负载太高
触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5
告警等级:警告
2)Disk I/O is overloaded on {HOST.NAME} 磁盘I/O在{HOST.NAME}上重载
触发器表达式:{Zabbix server:system.cpu.util[,iowait].avg(1h)}>30
告警等级:警告
3){HOST.NAME} [CPU Idle]-[< 10%] CPU空闲小于百分之10
触发器表达式:{Zabbix server:system.cpu.util[,idle].count(#5,10,"lt")}=5
告警等级:一般严重
General触发器:
1)Hostname was changed on {HOST.NAME} 主机名被更改
触发器表达式:{Zabbix server:system.hostname.diff(0)}>0
告警等级:信息
2)Host information was changed on {HOST.NAME} 主机信息给更改
触发器表达式:{Zabbix server:system.uname.diff(0)}>0
告警等级:信息
3)HOST.NAME} has just been restarted 重新启动主机
触发器表达式:{Zabbix server:system.uptime.change(0)}<0
告警等级:信息
Keepalived触发器
1){HOST.NAME}keepalived进程宕机,请运维人员确认
触发器表达式:({TRIGGER.VALUE}=0 and {Zabbix server:proc.num[keepalived,,,keepalived].change(0)}<0 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}=0) or ({TRIGGER.VALUE}=1 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}<>3)
告警等级:严重
Memory触发器
1)Lack of free swap space on {HOST.NAME} 主机上缺少自由交换空间
触发器表达式:{Zabbix server:system.swap.size[,pfree].last(0)}<10
告警等级:警告
2)Lack of available memory on server {HOST.NAME} 主机服务器上缺少可用的内存
触发器表达式:{Zabbix server:vm.memory.size[available].last(0)}<20M
告警等级:一般严重
Security触发器
1)/etc/passwd has been changed on {HOST.NAME} 主机密码文件被更改
触发器表达式:{Zabbix server:vfs.file.cksum[/etc/passwd].diff(0)}>0
告警等级:警告
Processes触发器
1)Too many processes running on {HOST.NAME} 在主机上运行的进程太多
触发器表达式:{Zabbix server:proc.num[,,run].avg(5m)}>30
告警等级:警告
2)Too many processes on {HOST.NAME} 在主机上进程太多
触发器表达式:{Zabbix server:proc.num[].avg(5m)}>1000
告警等级:警告
Performace触发器
1)Processor load is too high on {HOST.NAME} 在主机上处理器负载过高(1分钟)
触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5
告警等级:警告
OS触发器
1)Configured max number of processes is too low on {HOST.NAME} 主机上配置的最大进程数太低
触发器表达式:{Zabbix server:kernel.maxproc.last(0)}<256
告警等级:信息
2)Configured max number of opened files is too low on {HOST.NAME} 在主机上配置的最大打开文件数太低
触发器表达式:{Zabbix server:kernel.maxfiles.last(0)}<1024
告警等级:信息
出现报警首先看
内存瓶颈 free 查看内存使用情况
vmstat 10(间隔时间)100(监控次数) 查看swap in/out 详细定位是否存在性能瓶颈
sar -r 3 查看内存使用情况不包括swap情况
CPU瓶颈 top -H 按照CPU消耗高低排序
ps -Lp 进程号CU 查看某个进程的CPU消耗排序
cat /proc/cpuinfo|grep 'processor'|wc -l 查看cpu核数
top 查看cpu总体消耗,包括分项消耗如user,system,idle,nice等消耗
sar -u 3(间隔时间) 查看cpu总体消耗占比
top -b -n 1 | awk ‘{if (NR<=7)print;else if($8==”D”){print;count++}}END{print “Total status D:”count}’ 计算在cpu load里面的uninterruptedsleep的任务数量
网络瓶颈 cat /var/log/messages 查看内核日志,查看是否丢包
watch more /proc/net/dev 用于定位丢包,错包情况,以便看网络瓶颈
netstat -na|grep ESTABLISHED|wc -l 查看tcp连接成功状态的数量
netstat -na|awk’{print $6}’|sort |uniq -c |sort -nr 看tcp各个状态数量
netstat -i 查看网络错误
ss state ESTABLISHED| wc -l 更高效地统计tcp连接状态为ESTABLISHED的数量
cat /proc/net/snmp 查看和分析240秒内网络包量,流量,错包,丢包 用于计算重传率tcpetr=RetransSegs/OutSegs
ping ip 测试网络性能
traceroute ip 查看路由经过的地址 常用于定位网络在各个路由区段的耗时
dig 域名 查看域名解析地址
dmesg 查看系统内核日志
磁盘瓶颈 iostat -x -k -d 1 详细列出磁盘的读写情况 当看到I/O等待时间所占CPU时间的比重很高的时候,首先要检查的就是机器是否正在大量使用交换空间,同时关注iowait占比cpu的消耗是否很大,如果大说明磁盘存在大的瓶颈,同时关注await,表示磁盘的响应时间以便小于5ms
iotop 查看哪个进程在大量读取IO 一般先通过iostat查看是否存在io瓶颈,再定位哪个进程在大量读取IO
df -hl 查看磁盘剩余空间
du -sh 查看磁盘使用了多少空间
应用瓶颈 ps -ef | grep java 查看某个进程的id号
ps -ef | grep httpd| wc -l 查看特定进程的数量
cat .log | grep Exception | wc -l 统计日志文件中包含特定异常数量
jstack -l pid 用于查看线程是否存在死锁
awk’{print $8}’ 2017-05-22-access_log|egrep ’301|302′| wc -l 统计log中301、302状态码的行数,$8表示第八列是状态码,可以根据实际情况更改 常用于应用故障定位
grep ‘wholesaleProductDetailNew’ cookie_log | awk ‘{if($10==”200″)}’print}’ | awk ‘print $12′ | more 打印包含特定数据的12列数据
grep “2017:05:22″ cookielog | awk ‘($12>0.3){print $12 “–” $8}’ | sort > 目录地址 对apache或者nginx访问log进行响应时间排序,$12表示cookie log中的12列表示响应时间
grep -v ‘HTTP/1.1″ 200′ 取出非200响应码的URL
pgm -A -f 应用集群名称 “grep “’301 ‘ log文件地址 | wc -l 查看整个集群的log中301状态码的数量
ps -efL | grep [PID] | wc -l 查看某个进程创建的线程数
find / -type f -name “*.log” | xargs grep “ERROR” 统计所有的log文件中,包含Error字符的行 这个在排查问题过程中比较有用
-XX:HeapDumpPath=/home/logs -Xloggc:/home/log/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps 在Java启动参数中加入,打印gc日志
-server -Xms4000m -Xmx4000m -Xmn1500m -Xss256k -XX:PermSize=340m -XX:MaxPermSize=340m -XX:+UseConcMarkSweepGC 调整JVM堆大小 xss是栈大小
zabbix监控常见系统报错的更多相关文章
- SAP QA32 做使用决策系统报错:分类数据的不一致性=>交易终止
SAP QA32 做使用决策系统报错:分类数据的不一致性=>交易终止 QA32,对如下检验批做处理,系统报错, 试图使用MSC3N去显示这个批次主数据,同样报错, 原因在于批次的分类数据产生后, ...
- Linux 系统报错 rcu_preempt detected stalls on CPUs/tasks
说在前面的一些废话: 这是什么错误我不知道,为什么出现我不知道! 那为什么还要把他写出来了,只是因为这个错误遇到了,而且浪费了我很多时间和精力. 故事留给自己看,解决办法就是,重新升级一下Linux系 ...
- PHP+mysql系统报错:PHP message: PHP Warning: Unknown: Failed to write session data (files)
PHP+mysql系统报错:PHP message: PHP Warning: Unknown: Failed to write session data (files) 故障现象,后台页面点击没有 ...
- linux运维常见英文报错中文翻译(菜鸟必知)
linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permissio ...
- 由于更换硬盘没有删除系统自启动读取挂载硬盘导致系统报错:fsck.ext4 unable to resolve 'UUID=a4a7a0f7-b54f-4774-9fb1'
由于更换硬盘没有删除系统自启动读取挂载硬盘导致系统报错:fsck.ext4 unable to resolve 'UUID=a4a7a0f7-b54f-4774-9fb1' 此时进入系统已root模式 ...
- Linux常见英文报错中文翻译(菜鸟必知)
Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...
- Linux常见英文报错中文翻译
Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...
- SAP QA32试图做UD,系统报错-工厂 BTYC中的 QM 基选设置需要维护
SAP QA32 试图做UD,系统报错 - 工厂 BTYC 中的 QM 基选设置需要维护 - 检验批 10000062593,试图做使用决策,系统报错, 工厂 BTYC 中的 QM 基选设置需要维护 ...
- Zabbix监控win10系统
Zabbix监控win10系统 1. 在win10下安装zabbix-agent zabbix-agent下载地址:https://www.zabbix.com/downloads/4.2.6/zab ...
随机推荐
- <转载> nginx服务器安装及配置文件详解 https://segmentfault.com/a/1190000002797601
nginx在工作中已经有好几个环境在使用了,每次都是重新去网上扒博客,各种编译配置,今天自己也整理一份安装文档和nginx.conf配置选项的说明,留作以后参考.像负载均衡配置(包括健康检查).缓存( ...
- Centos yum 安装软件时出现 except OSError, e: ^ SyntaxError: invalid syntax
错误原因: 系统中装有多个版本的Python,Python脚本运行的时候版本冲突. 解决办法:(以下两步都要执行,这里假设你的python2.7指向python2,如果不是就要针对性的进行修改,反正就 ...
- python 生成器 的send
>>> def f(): c=yield 5 print c d=yield c+5 print d >>> b=f() >>> b.send(N ...
- C#串口通讯,16进制与字符串、字节数组之间的转换。
1.将十进制数的字符串转化成十六进制数的字符串 //十进制转二进制Console.WriteLine("十进制166的二进制表示: "+Convert.ToString(166, ...
- centos 主机名突然变成bogon的解决方法
主机名突然变成bogon,访问网络可能会出现问题(也可能没问题,我的就没问题),可能用到主机名的服务(比如说:mysql)可能也会出现访问不了. 所以我们需要解决以下问题,本人的解决方法: 主机名 ...
- air报错 Error: Error #3000: Illegal path name
配置增加: <supportedProfiles>extendedDesktop desktop</supportedProfiles> fb: flash:
- TCP 协议相关
TCP特点: 提供可靠的,保证数据能够准确的到达目的地,如果不能,需要检测发现并重传 流量可控,管理发送数据的频率,不超过设备的承载能力 滑动窗口:https://blog.csdn.net/wdsc ...
- 尚硅谷springboot学习6-eclipse创建springboot项目的三种方法(转)
方法一 安装STS插件 安装插件导向窗口完成后,在eclipse右下角将会出现安装插件的进度,等插件安装完成后重启eclipse生效 新建spring boot项目 项目启动 方法二 1.创建Mave ...
- 趣味编程:静夜思(Swift版)
func verticalWriting(txt:String, offset:Int) { Dictionary(grouping: txt.enumerated(), by: {$0.0 % of ...
- LeetCode OJ 143. Reorder List(两种方法,快慢指针,堆栈)
Given a singly linked list L: L0→L1→…→Ln-1→Ln,reorder it to: L0→Ln→L1→Ln-1→L2→Ln-2→… You must do thi ...