Flashduty 案例分享 - 途游游戏
Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。
本次有幸在邹老板支持下访谈到途游资深运维工程师高工,聊一下“途游游戏”在 Flashduty 的实践经验。另外,也欢迎大家下载途游的游戏放松一下,哈哈。
除了途游,莉莉丝、悠星等游戏用户也是Flashduty的用户,场景大抵是类似的,废话不多说,让我们一起来揭开游戏公司 OnCall 的面纱。
1. 辛苦高工先简要介绍一下您所在的团队以及贵司的业务领域特点。
我们主要是游戏项目加平台服务,以非容器环境为主,部分平台类业务有使用K8s; 游戏项目大多是 go、python、java、c# 类后端,部署运行于虚拟机或者物理机上,通过运用开源的中间件、数据库构建起来游戏业务后端环境,整体资源以多云+机房IDC构成,部分项目资源使用云服务+虚拟机,部分为自建服务;整体监控场景和需求面涉及相对较为复杂。
2. 在使用 FlashDuty 之前,贵司是通过什么方式发告警的?主要痛点是什么?
我们一直是 Falcon、夜莺系 用户,之前没有 Flashduty 之前,我们通过自研的告警发送代理服务来对接 Falcon、夜莺 进行告警发送,最开始因为无任何收敛处理,有遇到 P0 电话告警把手机打爆只能关机的情况(抖动导致的大面积告警),也有把钉钉机器人发死的情况,短信发的无法正常接收短信,后来经过一些判断收敛处理,有一定的缓解,但自已改造的收敛逻辑仍是无法更高效的收敛,且处理逻辑相对较为复杂,同时也怕逻辑处理 BUG 掩盖掉正常的有效告警;还有一点是我们自己的告警发送服务没有值班机制,所有告警所有运维人接收,对短信、电话成本也是一种浪费,更为严重的问题是全组发送严重干扰大家的休息时间。
3. 贵司应该也用了多个监控系统吧,云上的、云下的,现在都对接了 Flashduty 么?效果如何?
现在我们夜莺 V6 通过对接 Flashduty,有效帮助我们落地监控 Oncall 值班机制,同时在告警收敛上,更为便捷有效;同时我们在云平台侧的云告警也对接到 Flashduty 后就也解决了告警无法有效触达以及无法值班处理的机制。
4. 在对接 Flashduty 过程中是否遇到一些问题呢?请问是如何解决的呢?
在对接 Flashduty 的过程倒是很顺利,使用较为便捷,只是告警模板上花了点时间进行定制修改,另外在 Flashduty平 台上的告警统计分析中,我们开始查看不太方便,后来通过告警事件的不同维度聚合(告警级别、告警标题等)展示更方便我们进行值班告警事件回顾闭环,使用起来很方便。
5. 您对 Flashduty 中哪几个功能设计最为认可?哪些功能切实解决了您的痛点?
- 多平台对接,把不同平台的告警统一一个地方进行告警发送、OnCall值班,开箱即用;
- 告警收敛效果很好,在默认收敛配置下降噪比平均在 80% 以上;
6. 对于未来有计划采用 Flashduty 的客户,您这边有什么实践经验分享么?
利用好值班功能及对应的升级,做好告警的责任分权,谁是第一负责人谁接收谁处理谁跟进,让用户自服务使用监控,运维做好指导培训;
小编注:途游的运维工程师在和研发工程师的协作过程中,扮演的是教练和 Platform 提供方的角色,这应该是一种典型的组织架构,让研发自助服务可以大幅提升人效,当然,前提是得有好 Platform 做支撑。
7. 这段时间下来,你使用 Flashduty 感受如何?对我们是否有一些建议?
当前很好用了,后面可以加一些智能的告警分析,比如哪些告警策略需要什么样的优化,在数据运营层面给我们做一些赋能。
另外目前其实已经能接入事件源,是否能把事件墙功能集成一下在 Flashduty 中,毕竟生产环境的故障 70% 都来自变更,如果能把变更事件统一化到一个地方呈现,对于故障定位是一个极大的助力。
小编注:这个功能其实已经提供了,可能高工不清楚,回头需要单独介绍一下这个功能啦,哈哈。
关于Flashduty
️ Flashduty 中心化告警处理,在正确的时间通知正确的人
每一分钟都很关键,降低故障时间,就是赚钱
️ 您常用的监控系统,我们都可以集成
告警事件的及时处理,对于线上稳定性保障至关重要。一款中心式的告警事件 OnCall 中心,去除告警风暴,确保告警不遗漏,还能分析故障处理的MTTA、MTTR等效率指标,先进的团队需要拥有,快来免费体验吧:https://flashcat.cloud/product/flashduty/
Flashduty 案例分享 - 途游游戏的更多相关文章
- JavaScript案例开发之扑克游戏
随着时代的发展,知识也在日益更新,但是基础知识永远不会过时,它是新时代的基石,更是我们进一步学习的保障,下面带着大家用JavaScript开发一款真正的扑克游戏,和大家一起分享,希望你们能够喜欢:闲话 ...
- ArcGIS Add-in插件开发从0到1及实际案例分享
同学做毕设,要求我帮着写个ArcGIS插件,实现功能为:遍历所有图斑,提取相邻图斑的公共边长及其他属性(包括相邻图斑的ID),链接到属性表中.搞定后在这里做个记录.本文分两大部分: ArcGIS插件开 ...
- Office 2010 KMS激活原理和案例分享
Office 2010 KMS激活原理和案例分享 为了减低部署盗版(可能包含恶意软件.病毒和其他安全风险)的可能性,Office 2010面向企业客户推出了新的批量激活方式:KMS和MAK.这 ...
- Office 2010 KMS激活原理和案例分享 - Your Office Solution Here - Site Home - TechNet Blogs
[作者:葛伟华.张玉工程师 , Office/Project支持团队, 微软亚太区全球技术支持中心 ] 为了减低部署盗版(可能包含恶意软件.病毒和其他安全风险)的可能性,Office 2010面向企 ...
- 老李案例分享:Weblogic性能优化案例
老李案例分享:Weblogic性能优化案例 POPTEST的测试技术交流qq群:450192312 网站应用首页大小在130K左右,在之前的测试过程中,其百用户并发的平均响应能力在6.5秒,性能优化后 ...
- 性能调优案例分享:Mysql的cpu过高
性能调优案例分享:Mysql的cpu过高 问题:一个系统,Mysql数据库,数据量变大之后.mysql的cpu占用率很高,一个测试端访问服务器时mysql的cpu占用率为15% ,6个测试端连服务 ...
- 老李案例分享:MAT分析应用程序服务出现内存溢出过程
老李案例分享:MAT分析应用程序服务出现内存溢出过程 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loa ...
- 老李案例分享:定位JAVA内存溢出
老李案例分享:定位JAVA内存溢出 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loadrunner的培 ...
- 性能调优案例分享:jvm crash的原因 1
性能调优案例分享:jvm crash的原因 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq: ...
- [转载]DevOps在传统企业的落地实践及案例分享
内容来源:2017年6月10日,优维科技高级解决方案架构师黄星玲在“DevOps&SRE 超越传统运维之道”进行<DevOps在传统企业的落地实践及案例分享>演讲分享.IT 大咖说 ...
随机推荐
- 牛客网-SQL专项训练25
①批处理是指包含一条或多条T-SQL语句的语句组,下列选项中,关于批处理的规则描述正确的是(B) 解析: A选项:不能定义一个check约束后,立即在同一个批处理中使用: C选项:Create def ...
- 力扣394(java)-字符串解码(中等)
题目: 给定一个经过编码的字符串,返回它解码后的字符串. 编码规则为: k[encoded_string],表示其中方括号内部的 encoded_string 正好重复 k 次.注意 k 保证为正整数 ...
- 力扣372(java)-超级次方(中等)
题目: 你的任务是计算 ab 对 1337 取模,a 是一个正整数,b 是一个非常大的正整数且会以数组形式给出. 示例 1: 输入:a = 2, b = [3]输出:8示例 2: 输入:a = 2, ...
- HarmonyOS NEXT应用开发——Navigation开发 页面切换场景范例
简介 在应用开发时,我们常常遇到,需要在应用内多页面跳转场景时中使用Navigation导航组件做统一的页面跳转管理,它提供了一系列属性方法来设置页面的标题栏.工具栏以及菜单栏的各种展示样式.除此之外 ...
- 宏杉科技加入阿里云PolarDB开源数据库社区
简介: 宏杉科技签署阿里巴巴开源CLA(Contribution License Agreement, 贡献许可协议), 正式与阿里云PolarDB 开源数据库社区牵手. 宏杉科技签署阿里巴巴开源CL ...
- 智能数据构建与管理平台Dataphin的前世今生:缘起
简介: 阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务. Dataphin 智能数据构建与 ...
- dotnet 在国产 UOS 系统利用 dotnet tool 工具做文件传输
我在一台设备上安装了 UOS 系统,但是我如何在我的主开发设备上和 UOS 系统传输文件?通过 dotnet tool 工具可以完成大部分的工作,当然,使用 dotnet tool 不仅做文件传输,还 ...
- Pod进阶篇:污点-容忍度-亲和性-Affinity-调度(5)
一.Pod资源清单详细解读 apiVersion: v1 #版本号,例如 v1 kind: Pod #资源类型,如 Pod metadata: #元数据 name: string # Pod 名字 n ...
- XAMPP安装与部署使用
#注:本文章资料借鉴自于Sunny王维,地址:https://blog.csdn.net/qq_36595013/article/details/80373597 [一]XAMPP介绍 XAMPP. ...
- CPU是什么?
在程序是怎样跑起来的这本书中我们首先被询问的一个问题是"程序是什么?它是有什么组成的?而CPU又与程序有什么关系呢?",若我们能知道前两个,其实更容易将你带入讨论"CPU ...