大浪淘沙,2024 年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。

Prometheus

毫无疑问,Prometheus 是最值得关注的监控系统,因为 Prometheus 的规范和生态都非常厉害,很多中间件、数据库,直接就内置支持了 Prometheus,比如 ETCD、Kubernetes、RabbitMQ、Nginx VTS 等等,这个势能是非常强大的。

尤其是在容器和微服务监控场景,Prometheus 生态是不二之选,因为:

  • 由于资源的生命周期比较短,通常是基于服务发现来发现监控目标,而不是资产管理式(Zabbix就是资产管理式)。
  • 多维度筛选的需求强烈,比如通过标签聚合、过滤、分组等。需要一个针对性的 Query Language。PromQL 就是为此而生。

当然,这里我们说的是 Prometheus 生态,至于是否真的使用 Prometheus 二进制倒不一定,因为 Prometheus 本身的存储和查询性能并不是很好,所以很多公司会选择使用 Prometheus 的兼容产品,比如 VictoriaMetrics、Thanos 等。

Grafana

Prometheus 可以搞定数据采集、存储问题,并提供查询接口、查询语言,但是对于数据的展示,Prometheus 本身并不是很强大,通常大家会选择使用 Grafana 作为展示工具。

Grafana 不仅仅为 Prometheus 提供了很多的 Dashboard 模板,而且还支持多种数据源,比如 InfluxDB、Elasticsearch、Loki、MySQL、PostgreSQL、CloudWatch、Zabbix 等等。Grafana 的可视化能力,基本就是开源领域的标杆甚至事实标准了。

Nightingale

很多公司有多套 Prometheus,我在社区里见过一个公司有 200 多套 Prometheus,四五套、八九套的更是比比皆是,此时,大家就很想统一管理,比如公司有 8 套 Kubernetes,每套 Kubernetes 都有一个 Prometheus,这些 Prometheus 的数据类似,告警规则通用,每次修改一个告警规则,要修改 8 套 Prometheus,这就很麻烦了。另外,监控能力作为基础能力,通常是开放给公司所有业务研发团队,需要一些权限管控、知识沉淀的能力,Nightingale 可以帮助你解决这些问题。

Nightingale 的核心是做一个告警引擎,支持对接 Prometheus、VictoriaMetrics、Thanos、M3DB、Loki 等多种数据源,统一管理告警规则。而且考虑了边缘机房网络割裂的场景,即便是边缘机房和中心机房之间的网络坏掉了,边缘机房内部也可以自闭环生成、发送告警。

Zabbix

Zabbix 相对比较老了,擅长服务器、网络设备的监控,不擅长 Kubernetes、微服务的监控,由于越来越多的公司采用公有云,公有云自然搞定了硬件、网络设备的监控,所以 Zabbix 的市场份额在逐渐下降。

国内很多公司在使用 Zabbix,社区较为活跃,很多公司基于 Zabbix 封装了商业化产品,如果你是网工或系统运维,Zabbix 还是值得关注的。

其他

当然,还有一些其他的监控系统,比如:Cacti、Nagios,都太老了,不推荐使用。Cacti 在网工圈子里还是有一定的市场份额,Nagios 基本销声匿迹了。

监控作为稳定性保障的重要手段,涉及到的内容非常驳杂,如果您找乙方协助构建监控、可观测性方案,欢迎联系我们做产品技术交流:https://flashcat.cloud/contact/

2024 年了,IT 运维监控系统都有哪些推荐?的更多相关文章

  1. Lnmp搭建zabbix运维监控系统

    使用目的? 在公司项目中需要做一个日志监控,最开始选择的是efk,但是efk的资料相对较少并且之前对这几个产品都没接触过,使用起来难度.于是选择了zabbix作为项目的运维监控系统. zabbix能做 ...

  2. 运维监控系统之Open-Falcon

    一.Open-Falcon介绍 1.监控系统,可以从运营级别(基本配置即可),以及应用级别(二次开发,通过端口进行日志上报),对服务器.操作系统.中间件.应用进行全面的监控,及报警,对我们的系统正常运 ...

  3. 建设DevOps统一运维监控平台,全面的系统监控 Zabbix VS Nagios VS Open-Falcon OR Prometheus

    前言 随着Devops.云计算.微服务.容器等理念的逐步落地和大力发展,机器越来越多,应用越来越多,服务越来越微,应用运行基础环境越来多样化,容器.虚拟机.物理机不一而足.面对动辄几百上千个虚拟机.容 ...

  4. 优化系统资源ulimit《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》

    优化系统资源ulimit<高性能Linux服务器构建实战:运维监控.性能调优与集群应用> 假设有这样一种情况,一台Linux 主机上同时登录了10个用户,在没有限制系统资源的情况下,这10 ...

  5. 优化Linux内核参数/etc/sysctl.conf sysctl 《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》

    优化Linux内核参数/etc/sysctl.conf  sysctl  <高性能Linux服务器构建实战:运维监控.性能调优与集群应用> http://book.51cto.com/ar ...

  6. CentOS服务器运维监控Nagios(一)

    CentOS下搭建Nagios 王尚 2014.11.09 操作系统:CentOS-6.5-i386-bin-DVD1.iso 安装在VM中进行测试的. 本章需要的软件链接: php-5.3.2.ta ...

  7. 运维监控-基于yum的方式部署Zabbix Server 4.0 版本

    运维监控-基于yum的方式部署Zabbix Server 4.0 版本 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.如何选择zabbix版本 1>.打开zabbix官方 ...

  8. 运维监控-Open-Falcon介绍

    运维监控-Open-Falcon介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Open-Falcon 介绍 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事 ...

  9. 详解Linux运维工具:运维流程管理、运维发布变更、运维监控告警

     概述 应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作.服务监控.应用状态统计.日常服务状态巡检.突发故障处理.服务日常变更调整.集群管理.服务性能评估优化.数据库管理优化.随着应用 ...

  10. Telegraf+Influxdb+Grafana自动化运维监控

    概述:Telegraf收集信息,influxdb时序数据库存储数据,grafana平台展示数据,并进行监控告警,组成一个自动化运维监控平台. 一.influxdb ​ InfluxDB是一个由Infl ...

随机推荐

  1. [一句话说iOS]dispatch如何造成死锁

    dispatch_sync执行了两件事:把代码块放入指定线程的任务队列中.堵塞当前线程直到代码块执行结束,如果出现了堵塞的线程和代码块所在的线程为同一线程的话,这个时候代码无法在此线程执行继续下去,即 ...

  2. RTThread 自动网卡使用问题

    最近使用 STM32 测试了一下 lwip 和 esp8266 的网络连接问题,使用 RTThread 的自动网卡时,发现不能很好的自动切换默认网卡,不能满足需求,所以自己简单的改了一下. 一.准备材 ...

  3. Docker Harbor的安装配置

    1.先安装docker-compose curl -L http://github.com/docker/compose/releases/download/1.21.2/docker-compose ...

  4. Top cluster 树分块

    写点基础的东西.随便写的,勿喷. top cluster 一个 cluster 是一个联通子图,且至多有两个点与其他部分连接 这两个点被称为 boundary node 其余点被称为 internal ...

  5. 使用gitea搭建源码管理【0到1架构系列】

    使用开源搭建Git源码方案,gitlab和gitea是两个不错的方案,gitlab以前简单易用,现在功能复杂且对开源并不友好,gitea一直保持功能单一易用且完全开源,个人推荐gitea. 通过容器安 ...

  6. mac idea 设置类注解说明

    类注解 打开file->setting->Editor->File and Code Templates->Includes->File Header #if (${PA ...

  7. SpringBoot2.X新版本配置拦截器在项目中的使用

    拦截器:和过滤器用途基本类似 SpringBoot2.X新版本配置拦截器 implements WebMvcConfigure 自定义拦截器 HandlerInterceptor preHandle: ...

  8. Flask API 如何接入 i18n 实现国际化多语言

    ​ 1. 介绍 上一篇文章分享了 Vue3 如何如何接入 i18n 实现国际化多语言,这里继续和大家分享 Flask 后端如何接入 i18n 实现国际化多语言. 用户请求 API 的多语言化其实有两种 ...

  9. socket通讯原理及例程(一看就懂

    来源:https://blog.csdn.net/jiushimanya/article/details/82684525 里面有疑问或者不正确的地方可以给我留言 对TCP/IP.UDP.Socket ...

  10. 暑假Java自学每日进度总结1

    今日所学: 一.常用的cmd命令: 1>盘符: 2>dir(显示当前文件所有目录) 3>cd 目录(打开该目录) 4>cd..(回到上一目录) 5>cd(回到当前盘符初始 ...