SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台
简介: SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台
1.目标定位
1.1背景
- 告警管控平台种类繁多
- 告警出现后未及时发现处理最终导致故障产生
- 专有云监控能力拉起依赖版本升级,操作复杂,迭代慢
- 异常问题和故障的感知力不如客户
1.2目标
- 制定告警数据接入规范
- 实现告警统一集中展示
- 建设多种告警外发通知
- 独立部署、快速迭代
- 告警严重程度区分,提升感知力
1.3定位
2.平台简介
2.1介绍
SRE技术保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云平台快速发现、定位异常问题,协助产品团队促进产品改进。
2.2特点
2.2.1告警汇聚
- 默认集成:云平台、大数据、云实例、站点应用
- 支持扩展:自定义监控
2.2.2报警通道
- 钉钉&本地化钉钉
- 短信服务
- 企业邮箱
- 警务微信
2.3业务服务流程
3.主要功能及界面展示
3.1告警盯屏中心
- 实时展示云平台当前所有的告警数据以及列出近7天的产品告警TOP排行, 一目了然告警数据, 提升感知力。
3.2SRE运维大盘
- 通过指标化,更方便查看产品的健康状况,判断是否有故障;
- 指标项包含:健康率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。
3.3告警工作台
- 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警。
- 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学。
- 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸。
- 自动恢复的告警无需手动认领关闭,在历史告警中可以进行查看。
3.4事件服务中心
打破签字、短信、邮件式古老的运维管理方式,为客户将众多的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,可以统一管理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐步代替线下管理。
3.5告警控制策略
- 支持设置自动分派策略,当指定产品出现告警自动认领告警;
- 当天首次出现的告警立即通知,非首次出现的告警遵循1440分钟的静默期后通知;
- 支持控制告警发送时的状态,“发生时”、“认领时”、“关闭时”;
- 支持预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效;
- 支持对告警推送的告警类型,产品,级别,部门,项目等进行自定义配置。
3.6告警推送策略
- 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警;
- 提供钉钉、短信、邮件的外发的webhook,api接口的配置;
- 可以选择的一个或多个告警策略自定义配置推送告警
3.7监控网关
- 支持在监控任务页面配置用户关心的网站、机器或某个接口,TAC根据规则进行监控;
- 若现场之前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC以第三方告警来展示和外发。
3.8钉钉通知
4.结语
目前,混合云多数项目已通过TAC实现告警通知功能。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。
作者:黄家亮 阿里云智能GTS-SRE团队资深技术支持工程师
本文为阿里云原创内容,未经允许不得转载
SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台的更多相关文章
- 《开源安全运维平台OSSIM最佳实践》
<开源安全运维平台OSSIM最佳实践> 经多年潜心研究开源技术,历时三年创作的<开源安全运维平台OSSIM最佳实践>一书即将出版.该书用80多万字记录了,作者10多年的IT行业 ...
- 《开源安全运维平台:OSSIM最佳实践》内容简介
<开源安全运维平台:OSSIM最佳实践 > 李晨光 著 清华大学出版社出版 内 容 简 介在传统的异构网络环境中,运维人员往往利用各种复杂的监管工具来管理网络,由于缺乏一种集成安全运维平台 ...
- sso 自动化运维平台
单点登录SSO(Single Sign-On)是身份管理中的一部分.本文中作者开发了一个自动化运维平台中的统一认证接口,单点登录平台通过提供统一的认证平台,实现单点登录.因此,应用系统并不需要开发用户 ...
- #研发解决方案#iDB-数据库自动化运维平台
郑昀 创建于2015/12/2 最后更新于2015/12/2 关键词:数据库,MySQL,自动化运维,AutoDDL,刷库,帐号授权,审核,回滚 提纲: 数据库自动化运维什么?别人家是怎么玩的? 我们 ...
- saltstack---自动化运维平台
https://github.com/ixrjog/adminset[自动化运维平台:CMDB.CD.DevOps.资产管理.任务编排.持续交付.系统监控.运维管理.配置管理 ] https://ww ...
- 运维平台cmdb开发-day1
序读项目由来 终极目标,运维平台.自动化.装机,监控,安装软件,部署基础服务,资产管理,之前是excel,现在是客户端自动获取,变更记录 后台管理 api 采集资产 四种模式agent 定时,每天执行 ...
- CentOS 7.5 部署蓝鲸运维平台
环境准备 官方建议 准备至少3台 CentOS 7 以上操作系统的机器 最低配置:2核4G 建议配置: 4核12G 以上 部署前关闭待安装主机之间防火墙,保证蓝鲸主机之间通信无碍 部署前关闭SELin ...
- 【I·M·U_Ops】------Ⅱ------ IMU自动化运维平台之CMDB
说明本脚本仅作为学习使用,请勿用于任何商业用途.本文为原创,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. #A 我理解的 CMDB CMDB翻译过来,Configuratio ...
- 运维平台之CMDB系统建设
CMDB是运维的基础核心系统,所有的元数据和共享数据管理源,类似于业务中的账号平台的作用.本篇文章,我将从概念篇.模型篇.到实现与实施篇具体的进行阐述. CMDB也称配置管理,配置管理一直被认为是 I ...
- 数据库运维平台~Yearning测试与总结
一 部署 1 docker-compose up -d 即可非常方便 2 mysql安装 3 inception安装二 默认账号 默认用户admin 密码: Yearning_admi ...
随机推荐
- SQL注入的原理与分析
SQL注入的原理与分析 1.SQL注入的本质 2.部分SQL语句 3.SQL注入流程 一.SQL注入的本质 SQL注入的本质,就是把用户输入的数据当作代码执行 Web应用程序对用户输入的数据校验处理不 ...
- System.out.print重定向到文件实例
该代码可以实现让System.out.print输出内容不再打印到控制台,而是输出到指定的文件中 <strong><span style="font-size:24px;& ...
- FFmpeg命令行之ffmpeg调整音视频播放速度
FFmpeg对音频.视频播放速度的调整的原理不一样.下面简单的说一下各自的原理及实现方式: 一.调整视频速率 视频的倍速主要是通过控制filter中的setpts来实现,setpts是视频滤波器通过改 ...
- Error: Command failed: C:\windows\system32\cmd.exe /s /c "./configure --disable-shared
错误记录之: Error: Command failed: C:\windows\system32\cmd.exe /s /c "./configure --disable-shared 错 ...
- 可视化学习:WebGL实现缩放平移
前言 在上篇文章中,我们使用WebGL实现了网格背景,当时有提到说使用WebGL来实现的好处之一,是网格背景可以与画布上的其他元素更好地融合,比如一起缩放平移,那么在WebGL中怎么实现缩放和平移呢? ...
- 记录--JS-SDK页面打开提示realAuthUrl错误
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 测试环境好好地功能,上了生产,莫名其妙报错,开始以为是没有设置Js安全接口域名,结果让相应人员一查,已经设置了相应的域名,再看下公众号内的 ...
- centos7上单机安装fastdfs6.0.9
目录 1.背景 2.fastdfs的一些知识 2.1 fastdfs的特点 2.2 架构图 2.2.1 client 介绍 2.2.2 tracker-server 介绍 2.2.3 storage- ...
- KingbaseES 可更新的视图
可更新视图 可简化视图可自动更新:系统将允许在视图上使用 INSERT.UPDATE 和 DELETE 语句,就像在常规表上一样.如果视图满足以下所有条件,就是可简化视图,则视图可自动更新: 该视图的 ...
- RabbitMQ 6种模式的练习,以及知识梳理
常用的模式有Simple.Work.Fanout.Direct.Topic.Headers,可以通过设置交换机类型和配置参数来实现各个模式 简单模式(Simple) 工作模式(Work) 工作模式是考 ...
- 学习 Tensorflow 的困境与解药
我构建的预测模型 在过去的一段时间里我抓去了小宇宙内上万条播客节目的首日播放量的数据,并利用这些数据构建了一个用于预测播客节目播放量的模型.包含以下六个输入参数: 节目发布于一周中的哪一天 节目发布于 ...