# 前言

睿象云前段时间发表了一篇[《 Zabbix 实现电话、邮件、微信告警通知的实践分享》](https://www.toutiao.com/i6734876723126469127/)的技术文章。它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类似或者相关联告警,短信太多,难免会出现漏看情况,告警通知几乎变成垃圾短信。为此 [Cloud Alert 智能告警平台](https://www.aiops.com/CAIntroduce.html)(以下简称 CA 平台)提供了一个适配方案:【告警智能降噪】
备注:CA 平台目前正在支持更多告警方式,例如:电话、短信、微信、邮件、APP、钉钉等。

# Cloud Alert 集成

首先需要安装 Cloud Alert Agent ,详情操作步骤如下:

一. 注册账号:

1. 进入[官网链接](www.aiops.com),然后注册账号登录。如下图1;

![](https://img.xiumi.us/xmi/ua/24qBb/i/652a110379c8d72d11a1b81e437c1d11-sz_171860.png)

图1

2. 点击 CA 平台。如下图2;

![](https://img.xiumi.us/xmi/ua/24qBb/i/c6177b223d2fad3a0a131fffa2a173d4-sz_198885.png)

图2

二. 集成接入

1. 在点击【集成】-【监控工具】,选择 Zabbix ,如图3;

![](https://img.xiumi.us/xmi/ua/24qBb/i/d54b3729239f9aa76b667eb6220aac0d-sz_24782.png)

图3

2. 点击之后,填写自定义的【应用名称】和【自动关闭时间】,如图4;填好信息之后,点击【保存并获取应用key】;

![](https://img.xiumi.us/xmi/ua/24qBb/i/082fbf93529f2b49309e406b40ffd0ec-sz_76567.png)

图4

3. 保存之后会出现该应用的【AppKey】,如图5;

![](https://img.xiumi.us/xmi/ua/24qBb/i/d1c270ef9a20952de071e39529f812b8-sz_13448.png)

图5

同时在该页面的下方可以看到在 Zabbix 环境上安装 Agent 的详细步骤,如图6;

![](https://img.xiumi.us/xmi/ua/24qBb/i/861cc1f24f13fd04c000c2aeb470ed2e-sz_26465.png)

图6

4. 安装 Agent

(1)查看 Zabbix 脚本目录,如图7;

![](https://img.xiumi.us/xmi/ua/24qBb/i/879fbb800d2480dfc00971e27637c0cd-sz_30815.png)

图7

(2)获取Cloud Alert Agent包并解压,如图8;

![](https://img.xiumi.us/xmi/ua/24qBb/i/b1fc08991edf43e786c0e161c141ef07-sz_24864.png)

图8

(3)使用命令安装,如图9;

![](https://img.xiumi.us/xmi/ua/24qBb/i/b4e020ec2d58bd412ddf704646bb7f08-sz_16221.png)

图9

(4)安装成功,如图10;

![](https://img.xiumi.us/xmi/ua/24qBb/i/1caf78d144df8921f7b9e818d4efecb3-sz_64623.png)

图10

## 设置分派策略

Agent 安装完毕之后, CA 平台可以接收到 Zabbix 所有触发器事件. 接下来配置分派策略,告知 CA 平台应该将什么级别、类型的告警分配给谁。

1. 点击【配置】-【分派策略】-【新建分派】

![](https://img.xiumi.us/xmi/ua/24qBb/i/bc4b23c4bf301ac10c60c490bdf8d597-sz_4963.png)

2. 设置分派名称-选择应用-选择分派人,然后点击保存

![](https://img.xiumi.us/xmi/ua/24qBb/i/b61c72e5f9a81c58ec201d7f5e43bbd7-sz_5412.png)

## 设置通知策略

CA 平台已经能成功将一个告警分配给一个用户,但是如何通知到用户呢?规则是什么?这个时候就需要用到设置通知策略!

1. 点击【配置】-【通知策略】-【新建通知】

![](https://img.xiumi.us/xmi/ua/24qBb/i/cbaeea6863bb0dbf63634bba1cd4aba9-sz_5205.png)

2. 选择【告警状态】-选择【告警级别】-选择【通知方式】-选择【时间】-选择【延迟策略】-选择【通知人】

![](https://img.xiumi.us/xmi/ua/24qBb/i/5a7e1d2dbfcd14a193b63d25389f9cc1-sz_40764.png)

例子:任何时间所有级别的告警在发生时立刻电话通知

告警状态:发生 — 告警级别:所有 — 通知方式:电话 — 时间设置:任何时间 — 延迟策略:立刻 — 通知人:选择接收通知的人

备注:重要告警电话比短信靠谱的多!有时候晚上也接到电话,为避免接到一些不必要的电话,请大家严格设定。

# 告警智能降噪

为何要压缩告警

运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:

- 故障期间,告警风暴,手机/邮箱会被海量告警淹没;

- 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;

- 固定阈值控制,频繁误报、漏报告警;

## CA告警压缩机制

CA 平台,适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度降噪,帮助您在不遗漏重要告警前提下,快速减少告警。

CA 平台实现告警降噪根据降噪程度不同,分为三种方式:

1:自动去重压缩;

2:规则压缩;

3:算法智能降噪。

## 自动去重

全量告警推送到 CA 平台后, CA 平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。

- 事件ID不为空:系统中有未关闭的告警,若事件ID相同,则自动合并告警;- 事件ID为空:系统中有未关闭的告警,若告警对象响应,则自动合并告警。

提示:

• 是否合并告告警,以系统中是否有未关闭的告警,如告警一直不关闭,则后推送到 CA 平台具有相同事件ID的告警会一直被合并压缩。

• 被合并的告警不会再次通知。如想收到通知,需先关闭历史告警。

## 规则压缩

去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:

1:算法智能降噪

2:自定义压缩规则降噪

## 算法智能降噪设置方法

1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面

2:设置应用名称,选择应用-勾选“算法智能降噪”

![](https://img.xiumi.us/xmi/ua/24qBb/i/599e434ec175525e4d0f56a69766c288-sz_5097.png)

3:选择降噪参数—选择压缩指定时间内的告警

![](https://img.xiumi.us/xmi/ua/24qBb/i/6448d7953eec546e20508973103eabdf-sz_18328.png)

4:设置分派策略

![](https://img.xiumi.us/xmi/ua/24qBb/i/d407a86d05a50c3cc19767b9452c426d-sz_13937.png)

5:(可选)设置风暴预警

![](https://img.xiumi.us/xmi/ua/24qBb/i/a5a2f362546c7fba7f9b5ff28aae4f41-sz_19529.png)

## 自定义压缩规则设置方法

1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面

2:设置应用名称,选择应用

![](https://img.xiumi.us/xmi/ua/24qBb/i/8f8faffeabdc7654543575850208b8cd-sz_7172.png)

3:设置压缩条件:

- 按照 主机 、服务 、告警内容 、告警对象 进行关联;

- 支持 等于 、不等于 、包含 条件,支持正则匹配;

- 支持添加 且 、或 条件。

![](https://img.xiumi.us/xmi/ua/24qBb/i/ef318e70016a38d16b55a67452d6a13c-sz_7474.png)

4:设置分派策略

![](https://img.xiumi.us/xmi/ua/24qBb/i/0fe7270d83a9291cf4f82300f3ffb42c-sz_9034.png)

5:(可选)设置风暴预警

![](https://img.xiumi.us/xmi/ua/24qBb/i/a9cdd6b7ef4a6499e87bff28e27b38b5-sz_10985.png)

#  APP

CA 平台提供了一个简便、轻量级的 APP 给我们使用,目前支持:任务处理(待处理、处理中、已解决)、分派策略、通知策略、成员信息查看、集成论坛交流。一个 APP 便能支持配置与接收告警通知。

![](https://img.xiumi.us/xmi/ua/24qBb/i/7024c0c3318ffef1662aa2d148ec8a3d-sz_16385.png)

![](https://img.xiumi.us/xmi/ua/24qBb/i/046c3915ac28751af97b7af57d722fff-sz_24994.png)

# 总结

告警压缩将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性。

Cloud Alert 实现告警智能降噪,成功规避告警风暴的更多相关文章

  1. 有了Cloud Alert电话报警,再也不怕遗漏告警了

    Cloud Alert 的部分应用部署在阿里云上,使用了多方面的监控服务: 阿里自身的ECS服务器和网站. Zabbix 监控服务器应用程序. OneAPM 的应用级监控. 腾讯云拨测,做网站监控. ...

  2. 应对告警风暴,Cloud Alert 实现告警风暴智能降噪

    前言 睿象云前段时间发表了一篇< Zabbix 实现电话.邮件.微信告警通知的实践分享>的技术文章.它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类 ...

  3. Zabbix + Cloud Alert 实践分享

    前言 如果要问老牌开源监控工具泰斗,当zabbix莫属.之前已分享过 [Kubernetes+Promethues+Cloud Alert实践分享],本篇将继续分享 Zabbix + Cloud Al ...

  4. Kubernetes+Promethues+Cloud Alert实践分享

    前言 容器集群管理系统 Kubernetes(简称K8s),为容器化的应用提供部署运行.容器编排.负载均衡.服务发现和动态伸缩等一系列完整功能,Prometheus 对 K8s 支持非常棒,能够自动发 ...

  5. 运维告警排班太复杂?试试Cloud Alert智能告警排班

    前言: 之前的几篇文章有说过,通过智能告警平台Cloud Alert,将指定条件的告警以多样化的通知方式,通知到指定的人,其中的通知的方式包含电话.短信.邮件.微信.APP.钉钉等. 本篇文章就来说下 ...

  6. 微信告警如何配置?用Cloud Alert快速实现微信告警

    在当下互联网蓬勃发展的时代里,微信已经成为了人们生活中不可分割的一部分.作为苦逼的运维人员,我们自然也得跟得上时代的步伐,将微信添加进告警的通知方式里.如果能够将告警消息第一时间发送到微信中,更清楚地 ...

  7. Zabbix集成Cloud Alert(睿象云)实现电话短信预警

    Zabbix 集成 睿象云智能告警平台 CA ( Cloud Alert ) 一 .简介与前期了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析 ...

  8. zabbix 集成cloud alert

    1.       了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析.这个平台最先了解和使用是在 2017 年下半年,之前的名称叫 oneits ...

  9. 如何把关联性的告警智能添加到 Nagios 上?(2)

    上节回顾 对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒.一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性:但是另一方面,Nagios 也 ...

随机推荐

  1. woocommerce如何隐藏SKU

    有时我们不想在woocommerce网站前台显示SKU,如下图所示,因为sku一多整个排版可能会乱,那么要如何隐藏sku呢?随ytkah一起来看看 在当前主题的function.php文件中加入如下代 ...

  2. Failed to register dubbo:

    无法把dubbo注册到zookeeper,我的错误原因是引入的curator的版本过高,curator中会引入zookeeper,而dubbo的版本又过低,所以无法注册进zookeeper,把cura ...

  3. Codeforces Round #606 (Div. 2, based on Technocup 2020 Elimination Round 4) 题解

    Happy Birthday, Polycarp! Make Them Odd As Simple as One and Two Let's Play the Words? Two Fairs Bea ...

  4. 8.19 NOIP模拟测试26(B) 嚎叫响彻在贪婪的厂房+主仆见证了 Hobo 的离别+征途堆积出友情的永恒

    T1 嚎叫响彻在贪婪的厂房 以前做过一个等比数列的题「序列」,这个类似 是等差数列且公差不为1的条件就是各项差的绝对值的$gcd!=1$,每次拿出序列前两个数,求出差值,插入到set里,每次向后扩展, ...

  5. [LeetCode] 907. Sum of Subarray Minimums 子数组最小值之和

    Given an array of integers A, find the sum of min(B), where B ranges over every (contiguous) subarra ...

  6. oracle--错误笔记(二)--ORA-16014

    ORA-16014错误解决办法 01.问题以及解决过程 SQL> select status from v$instance; STATUS ------------ MOUNTED SQL&g ...

  7. java OutOfMemorry

    首先需要明确OOM并不一定会导致程序挂掉,导致服务不可用的是堆内存被耗尽,从而使得主线程直接退出,或者所有工作线程频繁因为OOM异常终止,java分配数组会直接消耗内存,一个对象引用会占用四个字节. ...

  8. 基于JRebel开发的MybatisPlus热加载插件

    前言 前天项目中使用了mybatis-plus,但是搭配Jrebel开发项目时,发现修改mapper的xml,或者mapper方法中的注解,Jrebel并没有能够reload mapper.于是就有了 ...

  9. AbstractExecutorService源码

    public class RunnableFutureTask { static FinalizableDelegatedExecutorService executorService = (Fina ...

  10. 《Game Programming Patterns》游戏设计模式

    转载自:https://blog.csdn.net/poem_qianmo/article/details/52505170 https://blog.csdn.net/poem_qianmo/art ...