# 前言 睿象云前段时间发表了一篇[< Zabbix 实现电话.邮件.微信告警通知的实践分享>](https://www.toutiao.com/i6734876723126469127/)的技术文章.它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类似或者相关联告警,短信太多,难免会出现漏看情况,告警通知几乎变成垃圾短信.为此 [Cloud Alert 智能告警平台](https://www.aiops.com/CAIntroduce.html)(以下简…
Cloud Alert 的部分应用部署在阿里云上,使用了多方面的监控服务: 阿里自身的ECS服务器和网站. Zabbix 监控服务器应用程序. OneAPM 的应用级监控. 腾讯云拨测,做网站监控. 腾讯云和阿里云的网站监控,总体来说腾讯云的云拨测告警延迟大一些.所以我们就强烈要求 Cloud Test 云测开发网站监控功能,这里就不打广告了. 使用过程中存在一些问题: 监控工具多,告警不是很方面集中跟踪,所以需要集中告警平台. 漏告警,深更半夜基本上很容易遗漏.阿里云监控告警仅告一次,不小心就…
前言 睿象云前段时间发表了一篇< Zabbix 实现电话.邮件.微信告警通知的实践分享>的技术文章.它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类似或者相关联告警,短信太多,难免会出现漏看情况,告警通知几乎变成垃圾短信,也就形成了一种告警风暴.为此 Cloud Alert 智能告警平台(以下简称 CA 平台)提供了一个适配方案:[告警智能降噪] 备注:CA 平台目前正在支持更多告警方式,例如:电话.短信.微信.邮件.APP.钉钉等. Cloud Ale…
前言 如果要问老牌开源监控工具泰斗,当zabbix莫属.之前已分享过 [Kubernetes+Promethues+Cloud Alert实践分享],本篇将继续分享 Zabbix + Cloud Alert 实践,在 Zabbix Server 端,一键安装 Cloud Alert 探针,将 Zabbix 产生的告警,推送到 Cloud Alert,快速实现电话.短信通知. 本文导览: Zabbix 集成 Cloud Alert 安装步骤 Zabbix 集成 Cloud Alert 原理解析 Z…
前言 容器集群管理系统 Kubernetes(简称K8s),为容器化的应用提供部署运行.容器编排.负载均衡.服务发现和动态伸缩等一系列完整功能,Prometheus 对 K8s 支持非常棒,能够自动发现 K8s 的监控目标!Prometheus 产生的告警,可以通过 Alertmanager 转发到 Cloud Alert,实现告警的降噪.分派和通知. Kubernetes K8s 是 Google 开源的容器集群管理系统.用于管理云平台中多个主机上的容器化的应用,K8s的目标是让部署容器化的应…
前言: 之前的几篇文章有说过,通过智能告警平台Cloud Alert,将指定条件的告警以多样化的通知方式,通知到指定的人,其中的通知的方式包含电话.短信.邮件.微信.APP.钉钉等. 本篇文章就来说下,在之前通知的基础上,如何实现将告警在不同的时间段通知到指定的人.这就是Cloud Alert的灵活排班和自动分派. 告警的种类很多,告警级别也不一样,可是如果一直通知给一个人,实在是有点不够人性化,所以对于运维人员来说在不同时间段把不同级别的告警发给相应的值班人员,就成为了大多数运维人员的迫切需求…
在当下互联网蓬勃发展的时代里,微信已经成为了人们生活中不可分割的一部分.作为苦逼的运维人员,我们自然也得跟得上时代的步伐,将微信添加进告警的通知方式里.如果能够将告警消息第一时间发送到微信中,更清楚地看到告警内容,并在第一时间进行处理,何乐而不为呢⊙(・◇・)? 不过碍于告警设置的繁琐,特别现在运维人员的头顶普遍日益荒凉的时候,确实不想再花费更多精力加快自己的秀发流失速度了 ╮(╯﹏╰)╭ 诶嘿,那我现在告诉你,仅需三步,便能将你的监控实现微信告警,听起来是不是很美滋滋呢?那如此让人心动的办法怎…
Zabbix 集成 睿象云智能告警平台 CA ( Cloud Alert ) 一 .简介与前期了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析. 这个平台最先了解和使用是在 2017 年下半年,之前的名称叫 oneitsM.预警产品名称为 : OneAlert, 现在该产品已经迁移到 睿象云,并更名为 CloudAlert .本文主要是介绍和记录下该预警产品的使用. 我们首先要注册一个账号:官网链接,然后登陆我们的账号.选择我们的 Clo…
1.       了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析.这个平台最先了解和使用是在 2017 年下半年,之前的名称叫 oneitsM.预警产品名称为 : OneAlert, 现在该产品已经迁移到 睿象云,并更名为 CloudAlert . https://docs.aiops.com/ca/integration/zabbix/官方zabbix集成教程 2.       控制台操作: 注册并登陆https://user.aio…
上节回顾 对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒.一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性:但是另一方面,Nagios 也能够生成超级多的告警,对于任何一个运维人员或是运维团队来说都是 hold 不住的. 由于告警浪潮的原因,我们收件箱时常会爆满,移动电话也会被逼调成静音状态.更令人沮丧的是,这些告警只不过仅仅是噪音而已. Nagios 所欠缺的就是一个智能的管理系统,可以在噪音背景中,帮助运维人员挑选出真正的有意义的…
Nagios 是一个插件式的监控系统,可以监控服务的运行状态和网络信息等,并能监视所指定的本地或远程主机参数以及服务,同时提供异常告警通知功能等.Nagios 支持客户端的数据采集,通过编写客户端插件,可以获取各种监控数据,并提供了 Web 管理界面进行数据查询.其产品的主要功能侧重于监控服务的可用性,根据设置的阀值进行告警,但大部分告警逻辑都是通过监控插件实现的. 目前 Nagios 告警支持的通知方式有短信和邮件,但是很明显,这两种通知方式会导致重要级别的告警无法及时查看,并解决相关问题,而…
Open-Falcon 是小米运维部开源的一款互联网企业级监控系统解决方案.其中有着如下的特点: ①强大灵活的数据采集:自动发现,支持falcon-agent.snmp.支持用户主动push.用户自定义插件支持.opentsdb data model like(timestamp.endpoint.metric.key-value tags) ②水平扩展能力:支持每个周期上亿次的数据采集.告警判定.历史数据存储和查询 ③高效率的告警策略管理:高效的portal.支持策略模板.模板继承和覆盖.多种…
1.概述 在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂.那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三方开源的调度系统,来尽量减轻和降低我们日常工作的复杂度,也是极好的.今天,笔者给大家比较几种常见的调度系统,供大家去选择. 2.内容 2.1 Oozie Oozie目前是托管在Apache基金会的,开源.在之前的…
如果要讨论下当下热门的监控系统,我想zabbix应该能够占有自己的一席之地,拥有不小的话语权吧.然而身为一名苦逼的运维,为了不错过重大的告警信息,就需要配置个[电话告警]来进行最快速的通知. zabbix的电话告警通知的方式,在配置的时候总会出现些大大小小的毛病,这其中有着我自己学艺不精的问题,也有着莫名其妙出现的问题(我发誓我是按照说明配置的),我的双手告诉我,我的配置完全正确.然而我的zabbix似乎总是有着它自己的想法,不肯轻易就范--但这一定是他配置太复杂的问题(╬ ̄皿 ̄). 那我为什么…
一:前言 一个服务上线了后,你想知道这个服务是否可用,需要监控.假如线上出故障了,你要先于顾客感知错误,你需要监控.还有对数据库,服务器的监控,等等各层面的监控. 近年来,微服务架构的流行,服务数越来越多,监控指标变得越来越多,所以监控也变得越来越复杂,需要新的监控系统适应这种变化. 以前我们用zabbix,StatsD监控,但是随着容器化,微服务的流行,我们需要新的监控系统来适应这种变化.于是监控项目Prometheus就应运而生. 二:Prometheus介绍 介绍 网站地址:https:/…
每当我们谈及监控工具的时候,Zabbix 总是最惹人瞩目的那一个.如同清晨荷叶上的剔透露珠,卓尔不凡:如同巷子末头的百年酒香,让人倾心.我们都知道 Zabbix 是监控工具里当仁不让的龙头大哥,却没几人能清楚掰扯出背后的走马历史,今天,小编略献拙笔,给大家浅析一下 Zabbix 大热下的因果缘由. ​ 起初 作为一项"舶来品",Zabbix 初来中国之时,便受到了美团.小米.360 等互联网公司的热爱,包括文青聚集地-豆瓣,以经营业务广泛著称的58同城,和活跃于影视行业里的 PPTV…
众所周知Zabbix 是一款用来监控IT基础设施的监控套件,同时也具有很多方便运维人员使用的优秀功能,如:支持多条件告警,支持多种告警方式,支持多组模板.支持模板继承,因此在众多的开源运维监控软件中独占鳌头,受到了众多企业青睐. 暇瑜不掩,Zabbix在告警方式还是有一定局限性,如Email发送告警配置繁琐,需要调用邮件引擎脚本通过 SMTP 发送邮件:如用微信接收告警,需要申请一个微信公众号,接入复杂周期较长:如用短信接收告警,短信网关良莠不齐稳定性无法保证:如用语音接收告警,模板定义重口难调…
转载自:https://cloud.tencent.com/developer/article/1486483 文章目录1.Prometheus & AlertManager 介绍2.环境.软件准备3.启动并配置 Prometheus3.1.Docker 启动 Prometheus3.2.Docker 启动 node-exporter3.3.Prometheus 配置 node-exproter4.启动并配置 AlertManager4.1.AlertManager 配置邮件告警4.2.Prom…
Cacti是一套基于PHP,MySQL,SNMP及RRD Tool开发的网络流量监测图形分析工具.Cacti提供了一个快速轮询器,高级图表模板,多种数据采集方法和用户管理功能.所有这一切都被包装在一个直观的,易于使用的界面中,这对于局域网以及成千上万个设备的复杂网络来说是有意义的. 但是为了不错过重要的阀值告警,往往邮件通知是不够的,电话通知的方式往往是最直接方式.在产生重要的告警的时候,可以第一时间接收到告警电话,使得用户可以第一时间进行处理.睿象云智能告警平台 Cloud Alert就可以简…
sendEmail是一个轻量级,命令行的SMTP邮件客户端.如果你需要使用命令行发送邮件,那么sendEmail是非常完美的选择:使用简单并且功能强大.这个被设计用在php.bash perl和web站点使用. 1.下载软件 wget http://caspian.dotconf.net/menu/Software/SendEmail/sendEmail-v1.56.tar.gz 2.创建目录 mkdir /usr/local/bin 3.解压软件 tar zxf sendEmail-v1.56…
原文  https://zhuoroger.github.io/2016/08/20/redis-monitor-and-alarm/? 对于任何应用服务和组件,都需要一套完善可靠谱监控方案. 尤其redis这类敏感的纯内存.高并发和低延时的服务,一套完善的监控告警方案,是精细化运营的前提. 本文分几节,细说Redis的监控和告警: 1.Redis监控告警的价值 2.Redis监控的数据采集 3.Redis告警策略 4.基于Open Falcon的Redis监控告警方案 Redis监控告警的价值…
zabbix 告警小试 1. 实验内容简述 本次实验,旨在通过zabbix监控,实现对告警信息的实时通知,主要用到了zabbix中的item.trigger.action.user.user group.media等内容,通过item监控特定的对象,当item返回值满足一定条件的时候,触发触发器的action动作,通知相关的用户.实现的功能有以下几点: 监控的内容是什么 在什么样的情况下属于异常,需要通知 以什么样的方式通知用户,怎么通知 通知用户的内容是什么 2. 实验步骤 2.1 创建触发器…
群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步.例如:通过聚合GitHub,GitLab等源码管理服务,实现源码更新同步:通过聚合Trello,JIRA等项目协调服务,实现项目信息同步.不仅如此,群机器人支持Webhook协议的自定义接入,支持更多可能性. 比如我们可将Zabbix运维报警提醒通过自定义机器人聚合到钉钉群中,以实现钉钉告警.下面记录下Zabbix通过钉钉告警的设置过程: 一. 钉钉机器人创建登录钉钉客户端,创建一个群,把需要收到报…
zabbix版本:3.0.7 短信服务商:云片网 首先在云片网添加相应签名和模板 参照格式 签名:xxx告警 模板: [xxx告警]故障:#status# 服务器:#host# 发生:#triggername# 状态值:#value# 时间:#time#!    #告警模板 [xxx告警]恢复:#status# 服务器:#host# 发生:#triggername# 状态值:#value# 时间:#time#!    #恢复模板 在zabbix AlertScriptsPath 路径中添加脚本…
导读 OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性.它能以史上第二快的速度,对事件进行智能的组织.排序和分类,从而极大地提高团队在处理运维告警与事件时的协作能力 1. 认识OneAlrt 通过使用 OneAlert 的监控工具集成功能,轻松对接第三方监控工具告警事件.每一个需要集成的第三方工具,都是一个OneAlert App应用,每个应用的安装方式有些差异. 通过Agent集成,如Zabbix…
abbix可以通过多种方式把告警信息发送到指定人,常用的有邮件,短信报警方式,但是越来越多的企业开始使用zabbix结合微信.钉钉作为主要的告警方式,这样可以及时有效的把告警信息推送到接收人,方便告警的及时处理. 一.Zabbix整合微信实现实时告警 1.1.微信企业号申请 要实现将告警信息发送到微信,需要申请一个企业微信号,当然个人也可以申请,登录http://work.weixin.qq.com/, 然后选择注册即可,如下图所示:这是注册企业微信的步骤,企业名称可以填写企业.政府或组织,个人…
↵ [编者的话]微服务的概念源于 2014 年 3 月 Martin Fowler 所写的一篇文章“Microservices”.文中内容提到:微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间互相协调.互相配合,为用户提供最终价值. 背景 应用系统的架构历史 什么是微服务? 起源:微服务的概念源于2014年3月Martin Fowler所写的一篇文章“Microservices”.文中内容提到:微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间互…
目录 一.Alertmanager简介 二.Alertmanager部署 三.Alertmanager配置 四.自定义告警规则和发送 五.自定义告警模板 一.Alertmanager简介 Prometheus是一个划分平台,metrics的收集和存储与警报是分开的,警报是由Alertmanager负责,这是监控环境的独立部分.警报的规则是在Prometheus server上进行定义的,这些规则可以触发时间,然后将其传到alertmanager,alertmanager随后决定如何处理各自的警报…
Prometheus作为时下最为流行的开源监控系统,其庞大的生态体系:包括针对各种传统应用的Exporter,完整的二次开发工具链,与Kubernetes等主流平台的高度亲和以及由此带来的强大的自发现能力,使得我们通过简单的配置就能获取大量的监控指标且包含的维度及其丰富.一方面,如此多样的指标极大地提高了集群的可观测性,配合Grafana等Dashboard就能让我们实时了解集群各个维度的状态:另一方面,基于监控数据进行实时地告警也是在可观测性得到满足之后必然要实现的需求.当然,Promethe…
前 言 Prometheus是一个用于监控和告警的开源系统.一开始由Soundcloud开发,后来在2016年,它迁移到CNCF并且称为Kubernetes之后最流行的项目之一.从整个Linux服务器到stand-alone web服务器.数据库服务或一个单独的进程,它都能监控.在Prometheus术语中,它所监控的事物称为目标(Target).每个目标单元被称为指标(metric).它以设置好的时间间隔通过http抓取目标,以收集指标并将数据放置在其时序数据库(Time Series Dat…