Zabbix调优不完全指南(https://www.jianshu.com/p/2d911d55448f)
从学习搭建zabbix到完成各类监控、调优、二次开发已经过去了两年,期间通过QQ学习群、zabbix官方社区、各个技术博客整理学习了不少关于各种报错的处理方法,现在将常见的一些报错处理方法整理出来分享给大家。
在这先贴几个链接,给自己过去的简书增加些流量:
Centos7安装Zabbix server3.4
zabbix通过SNMP监控路由器,交换机
zabbix通过IPMI监控服务器硬件
zabbix agent部署及自定义SQL server监控模版
Zabbix+Raspberry pi监控机房温湿度
Zabbix监控服务器系统时间
zabbix监控Vmware运行
好了,广告打完,现在开始介绍常见报错处理方法:
问题一、Zabbix server内存溢出,无法启动
问题原因:
这是由于zabbix默认的缓存配置只有8M,当你zabbix正常运行一段时间后,大批量添加一些被监控设备就会出现这种情况。
解决方法:
打开zabbix_server.conf文件,将CacheSize改一个较大的值,我现在给自己配的是1024M。
vim /etc/zabbix/zabbix_server.conf
CacheSize=1024M #第385行
问题二、Zabbix housekeeper processes more than 75% busy
问题原因:
由于zabbix每天都会产生大量数据(比如我现在监控项有20K+,每30s-5min每个监控项会产生一条数据,一天会产生非常多数据),为了防止数据库爆炸,zabbix会自动定期清理历史数据(这个历史数据保留时间值你可以在监控项中自己配置),但清理历史数据会影响mysql性能,就会出现上面的报错。
解决方法:
这里需要调整两个参数,一个是清理时间间隔、一个是清理的最大删除量。
vim /etc/zabbix/zabbix_server.conf
HousekeepingFrequency=12 #原值是每一小时清理一次,建议改为12或24小时清理一次。第363行
MaxHousekeeperDelete=100000 #原值为每次清理5000条,建议改为上限100000条。 第376行
问题三、Zabbix poller processes more than 75% busy
问题原因:
这里可能有如下两个原因:
1、通过Zabbix agent采集数据的设备死机或其他原因导致zabbix agent死掉server获取不到数据。
2、server向agent获取数据时时间过长,超过了server设置的timeout时间。
解决方法:
1、增加zabbix server启动时初始化的进程数量:
vim /etc/zabbix/zabbix_server.conf
StartPollers=12 #第165行,视自己服务器性能改,上限是1000,如果改完发现启不起来可以改小一点。
2、修改模板自动发现规则中的保留失去的资源期间为0。
问题四:Zabbix discoverer processes more than 75% busy
问题原因:
看问题报警字面意思是自动发现进程忙碌数超过75%,这是因为我们用的监控模版中带着大量自动发现项,每一个自动发现项都会产生一个进程,所以一般我们添加多台被监控设备时就会出现这样的报错。
解决办法:
修改自动发现进程数。
vim /etc/zabbix/zabbix_server.conf
StartDiscoverers=10 #第219行,取掉#号,默认为1,改为10,上限为250请视自己的需求和服务器配置而定
其次还可以通过执行定期重启server脚本来清理进程,释放内存。
[root@m01 ~]# grep 'StartDiscoverers' /etc/zabbix/zabbix_server.conf2 3 ### Option: StartDiscoverers4 5 StartDiscoverers=56 7 [root@m01 ~]# systemctl restart zabbix-server.service
[root@m01 ~]# crontab -e2 3 @daily service zabbix-server restart > /dev/null 2>&14 5
问题五:Zabbix alerter processes more than 75% busy
问题原因:
这个问题通常是因为邮件告警进程过于繁忙导致的,如果邮件动作间隔设置过短,在一些极端情况下(比如核心网络宕了)会发生大量邮件(比如上万条邮件)告警,则会导致邮件进程繁忙或者邮件进程直接挂了。
解决方法:
修改邮件脚本,将邮件的动作改为打印时间,等待邮件完全释放再改回来,如下:
[root@m01 ~]# cat /usr/lib/zabbix/alertscripts/sms 2 3 #!/bin/bash 4 5 echo `date` >>/tmp/sms.txt
问题六:Zabbix poller processes more than 75% busy
问题原因:
1、zabbix消耗的内存过多。
2、某个进程卡住了。
3、僵尸进程太多、出错、导致慢了。
4、网络延时。
解决方案:
这里有两个解决方案,第一是修改zabbix_server.conf文件调优性能,第二是简单粗暴定期重启server释放进程。
vim /etc/zabbix/zabbix_server.conf
StartPollers=12 #第165行,我现在设置为12,如果你服务器性能够强可以继续增加,上限是1000
其次是简单粗暴定期重启
service zabbix-server restart
crontab -e 调出Cron编辑器中增加一个计划:
@daily service zabbix-server restart > /dev/null 2>&1
问题七:server端日志中出现大量first network error, wait for 15 seconds
问题原因:
产生这个问题的主要原因是你的监控项执行时间过长,超过了默认配置的timeout=15s时间,这里只要将你的server、proxy和agent的conf文件中的timeout时间改长一点即可,上限是30s,如果30s还不够那就要改系统源码来突破这个上限了。
解决方法:
vim /etc/zabbix/zabbix_server.conf #这里以修改server端conf文件为例,其他两个类似的就不列举了
Timeout=30 #第448行
问题八:More than 100 items having missing data for more than 10 minutes和Zabbix poller processes more than 75% busy
问题原因:
这两个问题的主要原因是你配置的缓存或者进程数太少,导致监控项很多时服务器来不及处理。
解决方法:
直接增加server端进程数和缓存即可。
vim /etc/zabbix/zabbix_server.conf
StartPollers=500
StartPollersUnreachable=50
StartTrappers=30
StartDiscoverers=6
CacheSize=1G
CacheUpdateFrequency=300
StartDBSyncers=20
HistoryCacheSize=512M
TrendCacheSize=256M
HistoryTextCacheSize=80M
ValueCacheSize=1G #这里把关于该问题的可能性能项配置一起给到大家
问题九:connection to database 'zabbix' failed: [1040] Too many connections
问题原因:
从字面意思上可以看出数据库的连接数已经超出最大限制。
解决方法:
直接修改mysql的最大连接数即可。
vim /etc/my.cnf
max_connections=1000 #将最大链接数调整为1000
systemctl restart mariadb.service #重启SQL
问题十:批量添加大量被监控设备后出现服务端直接宕机,报警提示Zabbix value cache working in low memory mode Less than 25% free in the configuration cache。
问题原因:
由于大量添加被监控设备,导致服务器内存溢出。
解决方案:
vim /etc/zabbix/zabbix_server.conf
CacheSize=1024M #第385行
问题十一:Zabbix alerter processes more than 75% busy
问题原因:
从字面意思可以看出当你产生大量告警是即会出现这个报错,告警进程过多。
解决方案:
调整conf文件中的最大告警进程数即可。
vim /etc/zabbix/zabbix_server.conf
StartAlerters=3 #第254行,去掉#注释,修改为10,上限为100。
问题十二:zabbix unreachable poller processes more than 75 busy
问题原因:
产生这个问题的主要原因是zabbix server端轮询的不可达设备(被监控设备处于死机状态、agent与server数据传输超过timeout时间、mysql或zabbix server的io卡住了)过多导致。
解决方案:
vim /etc/zabbix/zabbix_server.conf
StartPingers=12 #第165行,修改为12,上限是1000
以上这些基本都是因为zabbix的zabbix_server.conf文件中的默认性能配置过低导致的错误,在日常使用中经常会遇到,只要进行简单配置后重新启动zabbix server即可解决。该贴会持续不定期更新我日常工作中遇到的各种问题。
作者:max的vlog
链接:https://www.jianshu.com/p/2d911d55448f
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
Zabbix调优不完全指南(https://www.jianshu.com/p/2d911d55448f)的更多相关文章
- 人体调优不完全指南「GitHub 热点速览 v.22.22」
本周特推又是一个人体调优项目,换而言之就是如何健康生活,同之前的 HowToLiveLonger研究全因死亡率不同,这个项目更容易在生活中实践,比如,早起晒太阳这么一件"小事"便有 ...
- zabbix调优PPT
http://www.slideshare.net/xsbr/alexei-vladishev-zabbixperformancetuning# http://zabbixzone.com/zabbi ...
- 【转】Tomcat调优指南
转载地址:http://blog.csdn.net/woohooli/article/details/3954792 1 概述 本文档主要介绍了Tomcat的性能调优的原理和方法.可 ...
- Bayesian Optimization使用Hyperopt进行参数调优
超参数优化 Bayesian Optimization使用Hyperopt进行参数调优 1. 前言 本文将介绍一种快速有效的方法用于实现机器学习模型的调参.有两种常用的调参方法:网格搜索和随机搜索.每 ...
- 别再说你不会 ElasticSearch 调优了,都给你整理好了
来源:http://tinyurl.com/y4gnzbje 第一部分:调优索引速度 第二部分-调优搜索速度 第三部分:通用的一些建议 英文原文:https://www.elastic.co/guid ...
- ElasticSearch 调优
来源:http://tinyurl.com/y4gnzbje 第一部分:调优索引速度 第二部分-调优搜索速度 英文原文:https://www.elastic.co/guide/en/elastics ...
- 别再说你不会ElasticSearch调优了,都给你整理好了
ES 发布时带有的默认值,可为 ES 的开箱即用带来很好的体验.全文搜索.高亮.聚合.索引文档 等功能无需用户修改即可使用,当你更清楚的知道你想如何使用 ES 后,你可以作很多的优化以提高你的用例的性 ...
- 业务系统请求zabbix图表性能调优
性能调优实践 性能调优实践 背景 问题分析 后端优化排查 前端优化排查 后端长响应排查 zabbix server 优化 总结 背景 用 vue.js 的框架 ant-design vue pro 实 ...
- 【转】XGBoost参数调优完全指南(附Python代码)
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
随机推荐
- 【oracle入门】SQL的命令动词
SQL的功能 命令动词 数据定义 CREATE,DROP,ALTER 数据操纵 SELECT,INSERT,UPDATE,DELETE 数据控制 CRANT,REVOKE
- nginx配置https转发http
生成ssl证书: 1.首先要生成服务器端的私钥,运行时会提示输入密码,此密码用于加密key文件: openssl genrsa -des3 -out server.key 1024 2.去除key文件 ...
- 【python全栈开发】初识python
本人最开始接触python是在2013年接触,写过hello word!在此之前对开发类没有多大兴趣,不知道重要性,属于浑浑噩噩,忙忙乎乎,跌跌撞撞的.随后选择了Linux运维作为就业主攻方向. 经过 ...
- Python多线程的运行及time.sleep()的应用
已知小明和其弟弟小白每月都需要生活费,二人同时从同一个账户中取钱,两人每人每月需要1000元,账户中现有余额3200元,如果卡内余额大于2000元,则父母不会存入,如果卡内余额小于2000元,则父母当 ...
- Jump跳板机的搭建和部署
Jump跳板机简绍 概括 Jumpserver 是一款由python编写开源的跳板机(堡垒机)系统,实现了跳板机应有的功能.基于ssh协议来管理,客户端无需安装agent. Jumpserver ...
- 腾讯地图api 地址解析 js版
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:th="http://www.thymeleaf.org" ...
- JavaScript之更改闭包内的变量值
var f = function( ) { var x = 1 function fo() { console.log( x++ ) } return fo } var fn = f() fn() ...
- python excle写数据
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2019/4/24 10:30 # @File : Excle写.py # @Softw ...
- 在安卓手机上安装完整kali linux系统
俗话说,没图说个JB.好我马上上图 提醒:我在这里只是提供一个思路过程,希望可以帮到你,同时我也做一个记录,有任何问题欢迎 0.0.:I87OI94664 威信 :Z2tsYmI1MjA= (b ...
- 转载 JAVA gc垃圾回收机制
thanks:https://m.oschina.net/u/123553 一.GC概要 JVM堆相关知识 为什么先说JVM堆? JVM的堆是Java对象的活动空间,程序中的类的对象从中分 ...