一、前置知识

对于被Prometheus监控的服务器，我们都有一个up指标，可以知道该服务是否在线。

up == 0  可以任务服务下线了。

up == 1 可以任务服务在线。

二、需求

对于下线超过1分钟的服务，产生告警信息。

三、实现步骤

1、编写告警规则

groups:

- name: Test-Group-001 # 组的名字，在这个文件中必须要唯一

  rules:

  - alert: InstanceDown # 告警的名字，在组中需要唯一

    expr: up == 0 # 表达式, 执行结果为true: 表示需要告警

    for: 1m # 超过多少时间才认为需要告警(即up==0需要持续的时间)

    labels:

      severity: warning # 定义标签

    annotations:

      summary: "服务 {{ $labels.instance }} 下线了"

      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."

注意：
1、for 指定达到告警阈值之后，一致要持续多长时间，才发送告警数据。
2、labels中可以指定自定义的标签，如果定义的标签已经存在，则会被覆盖。可以使用模板。
3、annotations 中的数据，可以使用模板，$labels表示告警数据的标签，{{$value}}表示时间序列的值。

2、修改prometheus.yml执行告警规则的位置

rule_files:

  - "rules/*_rule.yaml"

表示加载 prometheus.yaml目录上级目录下的rules目录下所有的以 _rule.yaml结尾的文件。

注意：
./promtool check config prometheus.yml 可以检测我们的配置文件是否编写正确。

3、配置文件截图

4、页面上看告警数据信息

从上图中可以告警数据，存在3个状态，Inactive、Pending和Firing。

5、查询prometheus产生的告警数据

四、告警数据的状态

1、Inactive

表示没有达到告警的阈值，即expr表达式不成立。

2、Pending

表示达到了告警的阈值，即expr表达式成立了，但是未满足告警的持续时间，即for的值。

3、Firing

已经达到阈值，且满足了告警的持续时间。
经测试发现，如果同一个告警数据达到了Firing，那么不会再次产生一个告警数据，除非该告警解决了。
eg：
比如：192.168.1.1:9080 这个服务的宕机时间超过了1分钟，并且产生了一个Firing的告警数据，如果这台机器没有恢复，则不会再次产生相同的告警数据。

五、参考文档

1、https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/

Prometheus之告警规则的编写的更多相关文章

Prometheus告警规则增删改自动化
Prometheus告警规则增删改自动化前言: 随着容器技术的发展,zabbix监控方式与k8s的结合不完善,导致不得不放弃zabbix,而新的监控工具prometheus的使用就越来越多了.但是经 ...
Prometheus 编写告警规则案例
Prometheus 编写告警规则案例注:确保alertmanager配置完毕! 1.创建编辑文件:vim /usr/local/prometheus/rules/node.yml # groups ...
Prometheus监控学习笔记之Prometheus 2.0 告警规则介绍
0x00 变化 Prometheus 2.0 已经发布一段时间了,从今天开始我将分几篇文章为大家介绍其中的一些变化. 此篇文章主要介绍 2.0 的告警规则声明的新写法. 从 1.x 到 2.0 规则声 ...
prometheus linux系统告警规则实例
#prometheus linux系统告警规则实例 #根据实际情况修改参数 #rules.linux.yml groups: - name: linux rules: - alert: Node-D ...
实用干货丨如何使用Prometheus配置自定义告警规则
前言 Prometheus是一个用于监控和告警的开源系统.一开始由Soundcloud开发,后来在2016年,它迁移到CNCF并且称为Kubernetes之后最流行的项目之一.从整个Linux服务器 ...
Prometheus中使用的告警规则
参考网站:https://awesome-prometheus-alerts.grep.to/rules 这个网站上有好多常用软件的告警规则,但是有些并不一定实用,有些使用起来会有错误,这里就把这些都 ...
Prometheus自身的监控告警规则
1.先在 Prometheus 主程序目录下创建rules目录,然后在该目录下创建 prometheus-test.yml文件,内容如下: 内容很多,可以根据实际情况进行调整. 规则参考网址:http ...
Prometheus监控告警浅析
前言最近有个新项目需要搞一套完整的监控告警系统,我们使用了开源监控告警系统Prometheus:其功能强大,可以很方便对其进行扩展,并且可以安装和使用简单:本文首先介绍Prometheus的整个监控 ...
记录规则(recording rules)与告警规则(alerting rule)
记录规则(recording rules) 配置规则 Prometheus支持两种类型的规则,可以对其进行配置,然后定期进行评估:记录规则和警报规则.要在Prometheus中包含规则,请创建一个包含 ...

随机推荐

Junit5快速入门指南-3
Fixtures 是测试中非常重要的一部分.他们的主要目的是建立一个固定/已知的环境状态以确保测试可重复并且按照预期的方式运行.比如在app测试中基类@BeforeClass 配置初始化,初始化d ...
IMAP协议笔记
1. IMAP客户端接收流程简介 1) 遍历所有的邮箱,获取邮箱状态,然后遍历所有邮箱获取到更新的邮件头部信息(包含收件人.发件人.主题.以及时间信息) 2)获取最新邮件的完整信息,其中也包括在第一步 ...
Abp Vnext3 vue-admin-template(三获取用户信息)
因为获取用户比较简单,只需要把用户名及头像地址赋值即可(也许理解错误,如果发现请告知谢谢), 首先将src\api\usr.js中的url请求地址改为以下代码 export function getI ...
tomcat快速发布备份脚本
一.说明我们每次在tomcat中发布新war包,总是要经历[备份-停机-上传-启动]这几个部分,其中上传的环节和网速有极大相关性,要是网速很慢,那么整个发布的时间就会很长. 如果我们不借助于自动化发 ...
docker部署rabbitmq集群
docker版本:18.09.6 或以上 rabbitmq镜像版本:rabbitmq:3.9.5-management 一.拉镜像: docker pull rabbitmq:3.9.5-manage ...
go build 与go install
相同点都能生成可执行文件不同点go build 不能生成包文件, go install 可以生成包文件go build 生成可执行文件在当前目录下, go install 生成可执行文件在bin目录 ...
js设计模式之发布订阅模式
1. 定义发布-订阅模式其实是一种对象间一对多的依赖关系,当一个对象的状态发送改变时,所有依赖于它的对象都将得到状态改变的通知. 订阅者(Subscriber)把自己想订阅的事件注册(Subscri ...
dede图片集关联的数据库用表：
如果在本地的环境中,安装目录不在根目录,搬到外网上的时候,就需要对数据库里的图片路径数据进行字段替换: dede图片集关联的数据库用表:1.dede_addonimages 2.dede_arctin ...
oracle 基础SQL语句增删改
一.SQL操作查询已创建的数据库:SELECT datname FROM pg_database; 创建数据库:CREATE DATABASE wzxdb; 删除数据库:DROP DATABASE ...
docker挂载目录问题：touch: cannot touch '/var/jenkins_home/copy_reference_file.log': Permission denied
docker 运行后, 执行docker logs -f myjenkins时报错:touch: cannot touch '/var/jenkins_home/copy_reference_file ...

Prometheus之告警规则的编写