产品经理说|AIOps 让告警管理变得更智能
AIOps 人工智能和IT运营支撑 Ops 之间的故事,愈演愈烈,已经成为当今运维圈的热门话题,我打算从2篇文档分享我们在 AIOps 上一些探索和实践。(本篇)为什么事件(告警)处理需要 AIOps;(下篇)OneAlert事件处理平台在 AIOps 方面的探索。
一、 规模化
现在的企业 IT 规模,软硬件都与以往有数十倍/上百倍递增,如何管理 IT 可用性和高效性,成为 IT 运营 DevOps 团队重要职责。规模化带来两个显著特点:1、更多的变更;2、更大的规模
企业的 IT 想跑的更快,就必须将工作给分解的更细,让团队能够以独立小分队作战。所以敏捷 Agile、DevOps、云和微服务大行其道。
为了保障高可用和高性能,现在企业基本上会用多个不同的工具,例如 Zabbix、Nagios、Open-Falcon、Solarwinds、Prometheus、ELK 等以及云平台自带的监控工具,实现网络和基础设施、应用和中间件等服务。这些系统每天会产生数以万计的事件/告警,这些时间都需要去分析、优先级甄别、并执行预案操作。随着时间的推移,可能是数十万、百万事件需要关注。
二、 人力有限
研究证明,人类大脑在短时间内(10-15秒),只能同时处理7-9件事情。这有点扯,习惯多线程工作的程序猿们,也就2-3个事情而已。所以工程师的生产效率其实是可期的。相信如果采用敏捷模式的工作模式,最后统计人均工作量(如 Jira)的时候,基本上一个团队/每个人的输出是一定量的。
这里就存在一个重要的矛盾:日益增长的 IT 运营需要,同落后的 IT 生产力之间的矛盾 :
以事件管理(告警管理)为例,我们看看人工智能结合后,有什么不同。事件管理是 IT 运营支撑过程中最为高频的事情,也是最费时费力的事情。
大多企业都有类似于 NOC,服务台或者是一线支持团队,及时分析、甄别重要事件,第一时间处理,如果处理不了,一般会协同他人,或者派发工单。这些有一个前提,一般都是有一个集中的事件中心(告警平台),例如 OneAlert。通过接口、邮箱等方式收集各类监控事件过来。
告警集中化便于集中处理事件的同时,也带来了一些问题:常见的是告警疲劳(太多事件无感)和噪音过多(不知道什么是重要的),重要事情淹没在汪洋大海里面。 一线团队识别重要问题的难度如大海捞针,所以大多人会做一个事情:禁用告警。只将需要处理的事件发送至告警平台,这样人为控制的方式,能够有效甄别;但也有问题,会有可能忽略大量的预警信息,不能及时在故障前发现问题;可能会造成对业务服务和终端用户的影响。
在进入AI模式前,有很多人包括 OneAlert 团队都在寻找合适的解决方案,常见的是事件的去重、关联、合并,尽可能识别根源,为此有些团队花巨大精力构建 CMDB、并强化拓扑关联等等,以及建立合并策略规则,目的只有一个,就是尽快甄别重要问题,以及识别根源,是否影响业务影响。然而事实证,大量的人为干预和规则设定,大量的前置规则,都需要投入,而实际产出可能各异,最终效果不见的理想。特别是在规模化(云化、分布式和动态微服务)以后,维持准确的 CMDB 和拓扑关联更加困难。
三、 人工智能与 AIOps
在谈 AIOps 前,我们先了解下什么是 AI。大数据发展、高性能硬件、更先进的算法三驾马车推进下,人工智能迎来第三轮发展浪潮。利用人工智能高效实现海量数据的分析和挖掘;处理数百万事件乃至千万,基本都是秒级甚至毫秒级。通过监督学习(人干预)和非监督学习(不干预),非常适合去处理大数据事情,这一点往往是人力达不到的。
Gartner 在2016年预测2019年,有25%的全球企业将会使用 AIOps 技术或平台去实现IT运营支撑,现在已经2018年,有理由相信下半年到明年 AIOps 的爆发。
从 Gartner 定义范畴来说,AIOps 是包括监控 Monitor、服务管理 Service Desk、自动化操作Automation,基于大数据和机器学习技术的持续优化过程。核心思路是通过海量数据的异常检测和多维度关联飞、增强或取代 ITOM 领域的三个重要能力:监控、服务管理和自动化,进一步帮助IT运维人员准确甄别系统异常、快速定位故障根因、并对潜在系统运行风险进行预警、实现IT和业务的持续洞察和改进。
国内不少一线互联网企业已经在监控 Monitor 领域上做了不少尝试,而也有不少专业厂商在这领域发力。我们另外一个产品 I2(Intelligence Insight)聚焦监控,更多详细内容参见《AIOps 一场颠覆传统运维的盛筵》www.aiops.com。
今天讨论的其实重点是服务管理 ServiceDesk 的事件(告警)管理,实际上还有更多IT服务管理(ITSM)的人工智能化。我和团队的OneAlert事件处理平台,更多聚焦的是监控产生事件到人员处理响应这个过程,而且是一个高频场景,苦活累活较多。
我们对人工智能的期望是将数以万计的事件,经过漏斗式过滤,剩下的都是金子,缩减为数十个重要事情(不是单粒度事件),这样一线就可以保持更高的专注力和较高的工作效率。与传统人工模式相比,期望人工智能算法可以相对轻松的快速(秒级)处理事件,实现去重、关联和甄别重要事件,并创建工单/通知提醒,实现知识重用。
工程师通过人工智能技术辅助,可以更快更高效的处理重要事件,减少故障时间和业务中断时间,从而提升 IT 系统的可靠性和高性能。所以 AIOps 是一个新的途径,也是技术发展的必然选择。
我们期望事件(告警)处理可以实现:
(1)自动减少告警数量和噪音,去芜存菁。
(2)智能的关联/聚类能够快速的识别问题,分门别类。
(3)快速识别根源。
(4)协作自动化,实现团队沟通和协作。
(5)知识积累和自动复用,决策支持,越用越智能。
假设一个场景:
“某商城,网络交换机的端口故障,引发了一系列应用主机故障闪断(如 Zabbix Agent Ping),以及相关的商城和门户业务系统不稳定。”
OneAlert 的 AIOps 方案预期效果:
(1) 将短时间数百/数千事件,缩减至数类问题:网络交换机、主机闪断、应用商城不稳定和门户不稳定。
(2) 其中网络交换机端口故障和应用主机故障,需要重点关注,前者的根源概率为80%。
(3)上个月该交换机曾经出现过类似问题,解决方案是什么样的,如xx流量过大,需要限流干预。
(4) 自动通知相关基础设施团队、商城和门户支持团队。通知出问题,而不是某个业务系统100个进程闪断的逐条详细。
相比传统的人工方式,事无巨细的做法,人工智能的优势在于能够从大量的事件中提取关键重要信息,并甄别、识别优先级类型,并自动的实现人员协作通知,复用知识,实现决策支持,从而提升工作效率。
下一篇《OneAlert 事件处理平台在 AIOps 方面的探索》将针对以上几点,展开分享。
OneAPM 全新推出新一代 AIOps 平台 I2,欢迎您随时联系我们,即刻开启贵公司的智能运维之旅。点击进入 AIOps 官网了解更多信息。
来源:http://blog.oneapm.com/apm-tech/822.html
产品经理说|AIOps 让告警管理变得更智能的更多相关文章
- 产品经理说| AIOps 让告警变得更智能 (下)
AIOps 人工智能和IT运营支撑 Ops 之间的故事,愈演愈烈,已经成为当今运维圈的热门话题,我打算从2篇文档分享我们在 AIOps 上一些探索和实践.(上篇)主要介绍了为什么事件(告警)处理需要 ...
- 【总结整理】AI产品经理大会2017(转载)
从企业大数据到企业 AI | 易观智慧院院长 李智 1.AI 不是目的,而是要了解 AI 是什么,真正意义上的强人工智能在前沿领域尚未取得突破,暂时只能在影视文学作品中去思考人机关系.机器人三定律在未 ...
- toB的产品经理和toc产品经理区别
腾讯产品经理现身说法 曾经在UC做过2年to c的app,现在在腾讯做to b的产品. 做to c产品的时候,我很瞧不起做to b产品的同学,认为他们不过是做支撑的. 后来,我参与了一个to b平台级 ...
- 产品经理如何使用 CODING 进行项目规划
CODING 为您的企业提供从概念到软件开发再到产品发布的全流程全周期软件研发管理,为您的研发团队提供全程助力,帮助研发团队捋清需求.不断迭代.快速反馈并能实时追踪项目进度直到完成.同时 CODING ...
- B端产品经理的金字塔能力模型
工作这几年,时长思考,作为B端产品经理自己应该具备什么样的能力? 虽然工作依旧在有条不紊的进行,但是时常会陷入到对知识或者能力的焦虑当中.特别时是工作三五年,产品经理进阶门槛时. 虽然产品经理的能力是 ...
- RBAC权限管理模型 产品经理 设计
RBAC权限管理模型:基本模型及角色模型解析及举例 | 人人都是产品经理http://www.woshipm.com/pd/440765.html RBAC权限管理 - PainsOnline的专栏 ...
- INSPIRED启示录 读书笔记 - 第7章 管理产品经理
产品总监的关键职责 1.组建优秀的产品经理团队 如果产品经理不称职,只能退而求其次,请其他团队成员(比如主程序员)越俎代庖 新产品经理必须经过约三个月刻苦学习才能开始管理产品,管理者应该为新人创造学习 ...
- 花十分钟,让你变成AI产品经理
花十分钟,让你变成AI产品经理 https://www.jianshu.com/p/eba6a1ca98a4 先说一下你阅读本文可以得到什么.你能得到AI的理论知识框架:你能学习到如何成为一个AI产品 ...
- 人人都是产品经理<2.0>
之前有看过<人人都是产品经理1.0>,还认真的做了笔记,看完后不久,得知作者在第一版的内容基础上,升华性的出了第二版,即<人人都是产品经理2.0>.注:第一版和第二版跨度有6年 ...
随机推荐
- MMORPG战斗系统随笔(一)、战斗系统流程简介
前言 转载请标明出处http://www.cnblogs.com/zblade/ 很久没有更新博客,中间迁移过一次博客,后来一直忙于项目的开发,忙的晚上回去没时间写博客,周日又要自我调整一下,所以空闲 ...
- 函数式编程之-Partial application
上一篇关于Currying的介绍,我们提到F#是如何做Currying变换的: let addWithThreeParameters x y z = x + y + z let intermediat ...
- 【bioinfo】生物信息学——代码遇见生物学的地方
注:从进入生信领域到现在,已经过去快8年了.生物信息学包含了我最喜欢的三门学科:生物学.计算机科学和数学.但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案.于是便有了这篇博客. ...
- C#4并行计算
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
- java基础系列--volatile关键字
原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/7833881.html 1.volatile简述 据说,volatile是java语言中最轻 ...
- Go Web:自带的ServeMux multiplexer
ServeMux简介 ServeMux扮演的角色是Multiplexer,它用来将将请求根据url路由给已注册的handler.如下图: 上图中为3个路径注册了handler,一个是"/&q ...
- Flask入门第一天
一.flask介绍 flask诞生于2010年,是Armin ronacher用python语言基于Werkzeug工具箱编写的轻量级web开发框架.flask本身相当于一个内核,其他所有的功能都需要 ...
- SpringCloud学习(一):微服务简介
一.前情概要 1.单体架构是什么 1).一个归档包包含了应用所有功能的应用程序, 我们通常称之为单体应用. 2).架构单体应用的架构风格, 我们称之为单体架构, 这是一种比较传统的架构风格. 2.单体 ...
- Docker虚拟机实战
安装Docker虚拟机 ◆ 先更新yum软件管理器,然后再安装Docker #更新yum软件管理器 yum -y update #安装Docker yum install -y ...
- JQuery官方学习资料(译):Attributes
Attributes 元素的属性可以为你的应用程序包含有用的信息,重要的是能够获取和设置它. .attr()方法 .attr()方法是可获取和可设置的,在设置状态下,.attr()可以 ...