过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维
摘要:华为云站点数字化平台CloudMap携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。
本文分享自华为云社区《构建站点数字孪生,支撑确定性运维:华为云九洲云图CloudMap》,作者:HWCloudAI 。
随着云计算产业的蓬勃发展,站点数字化进程方兴未艾,如何管理云站点中数目众多的云资源和日益复杂的关系数据,通过数字化技术提前识别和发现现网风险,保证现网不出重大事故成为当前SRE面临的巨大挑战。面对海量业务和运维数据,如何构建站点级数字孪生平台,让数据发挥自身价值为SRE所用,是迈入DataOps的我们亟需解决的问题。为此,华为云站点数字化平台CloudMap(以下简称“九洲平台CloudMap”)携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。
1、传统云资源运维面临的挑战
传统的云资源的运维存在诸多问题:对风险的管控仍然依赖人工而不是工具系统,风火水电基础设施在遇到问题时因无法定位影响只能全局管控,使影响面无故扩大。由于缺乏云资源的拓扑信息,部分资源依赖获取不到会导致许多问题的搁置……提升云资源的自动化运维能力,面临诸多挑战:
缺乏拓扑信息,依赖分析难
不同的云资源(如租户信息、云服务信息、机柜机房信息)来源于不同的系统中,从软件层面的云服务,到硬件层面的机房机柜等,都可能出现各种各样的问题,并且不同的云服务之间存在着一些依赖关系,一个云服务出问题可能影响其他云服务。
自动化程度低,问题定位依赖人工
即使拥有这些依赖关系并存储在配置管理数据库中,传统运维手段也只能定位问题节点,对于问题的爆炸半径(如问题节点依赖的机柜机房信息、或者受到其依赖的其他云服务)往往要依赖手工定位。
运维诉求杂,查询类型多
此外运维例行维护、故障定位需要进行类型繁多的查询,既需要有实时性要求的单点深度链路查询支撑运维,也需要全局类链路统计等偏离线任务的查询支撑下游任务。
2、九洲平台CloudMap的解决方案
图 1 九洲平台CloudMap数据概览
九洲平台CloudMap携手华为云图引擎GES完成了亿级空间数据构建,通过租户资源拓扑构建、网络流量路径分析、服务动态依赖发现打造全链路可视能力,构筑基于站点视角的数字化平台,实现分钟级问题定界。
图 2 云上资源拓扑关系示意图
2.1 租户资源拓扑构建
租户资源拓扑是将实体抽象成与其大小、形状无关的“点”,而把连接实体的线路抽象成“线”。CloudMap通过整合各类系统中的数据信息,将华为云的租户与其相关租赁的物理机、虚拟机进行关系的构建并存储到华为云图引擎GES中,构建租户资源拓扑,使得依赖分析成为可能。在租户出现问题时第一时间能够通过“线”溯源回对应的租赁机器,并快速定位和解决其中的问题。
2.2 网络流量路径分析
华为云作为国内TOP云服务厂商,每日网络流量数据是比较庞大的,对于网络流量路径的管理和可视就如百度地图之于道路交通一样重要。而在运维场景下,掌握了网络流量路径可以进一步的补充由基础设施、基础服务到高阶服务之间的链路关系。CloudMap通过将请求流量进行监控,绘制出一个整体、清晰的物理和虚拟网络路径,可以准确截断问题的蔓延,提高自动化运维水平。
2.3 服务动态依赖发现
服务依赖发现是发现分布式软件系统中各组件依赖关系的过程,随着华为云的规模扩张,服务往往会被拆分为多个子服务。分布式软件系统通过不同子服务之间的组合,提供了稳定多样化的服务。与此同时,由于这些错综复杂的依赖关系,也伴随着很多连锁反应。其中最经典的案例就是由于单个服务的故障导致其在分布式软件系统中快速传播,导致大量的服务失效。在华为云的日常运维中,掌握各个服务的动态依赖是让云稳定可靠不可或缺的一项技术,它关系到了能否快速的找到保障服务的各个关联服务,避免其他服务引火烧身。CloudMap通过对服务间依赖的动态探测,构造全链路微服务依赖关系;同时借助GES的多跳查询能力,及时定位单服务问题的影响范围,避免大量服务失效,解决爆炸半径求解难的问题。
图 3 服务资源视图查询示例
3、华为云图引擎GES助力CloudMap高效检索图数据
从数据入库到计算查询,华为云图引擎GES为九洲平台CloudMap的存储、查询和分析提供了一站式解决方案。
3.1 图数据建模
- 在复杂、庞大数据量的背景下很难使用传统的结构化数据库进行数据建模,图引擎帮助快速构建点到点、点到边之间的数据建模;
- 从基础设施到云服务,使用图引擎构建全栈元数据,创建了过亿的点边关系,同时这些点、边支持增加属性机制,让每个点、边都能存储对应的属性;
- 数亿级属性数据实现小时级数据导入能力,保证了数据的时效性。
图 4 简化后的元数据截选
3.2 多样接口能力
华为云图引擎GES提供了丰富的API接口查询能力,CloudMap通过调用GES API,实现接口化的查询逻辑。目前CloudMap有数十个查询请求通过GES的Cypher、PipelineQuery、PathQuery等接口完成,这些请求响应和返回格式统一,便于处理,简化了CloudMap的处理逻辑,降低了运维诉求杂,查询类型多带来的业务开发成本。查询请求的高效响应,让长链路的空间关系数据得以快速查询并消费。
3.3 计算分析
- 秒级响应能力:在图引擎的强大算力支持下,九洲平台CloudMap实现了多点、多跳查询的能力,在复杂的空间关系中快速、准确的找到需要的数据及关系。其中利用业界领先的技术,图引擎将大量6-8跳查询的响应控制在秒级,使得CloudMap进行实时故障影响面分析、设备依赖关系查询成为可能;
- 离线计算能力:在对于需要庞大计算量、大量数据的分析型任务中,图引擎提供了异步任务能力,通过提前执行离线查询/算法任务并缓存结果,保证了结果获取的效率,支撑了CloudMap向下游应用提供数据;
- 强大索引机制:图引擎支持像关系型数据库一样的索引构建能力,可以基于label、属性等进行索引创建,实现全图属性过滤任务的快速响应;
- 稳定可靠的查询能力:由于数据量大、查询链路长的原因,在查询过程中往往会使用大量内存,图引擎通过内存管理技术控制总内存使用量,让查询稳定可靠。
图 5 CloudMap数据示例
4、九洲平台CloudMap的应用
作为站点数字化平台,九洲平台CloudMap在图引擎GES上搭建运维图谱图模型,建立站点空间数据关系。通过叠加空间数据和运维作业数据,从而打破数据孤岛、消除数据断裂点,形成运维知识图谱,释放数据价值,助力故障快速定位定界:
- 空间数据:通过提供华为云站点三类空间数据(租户资源拓扑、网络流量路径与服务架构依赖),提供从租户资源实例、物理网络到基础设施风火水电等全局视野,支撑快速识别服务影响与租户影响范围;
- 知识图谱:基于以上空间数据,结合告警、变更、监控与事件等核心运维数据,通过整合整理,再提取出故障线索,形成发现即定界能力,提升黑盒和自愈恢复触达效率。
- 专家经验:在各个运维场景下不断固化专家经验并进行实践和沉淀,使得专家经验真正使能运维数据。
截止目前,CloudMap空间关系数据已覆盖30+云服务,在分布式缓存服务DCS、云数据库服务RDS、文档数据库服务DDS和大数据服务MRS等高阶服务故障快恢场景应用落地。除此之外,CloudMap还为站点风控、变更风控、故障快恢等多个运维场景提供了数据底座和计算能力,极大提升了现网运维效率,为华为云稳定可靠,为SRE确定性运维而持续努力。
过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维的更多相关文章
- 硬核评测:企业上云的极速存储挑战,华为云全新极速IO云硬盘性能评测
来源:至顶网 作者:董培欣 借助华为云全新一代极速IO云硬盘开启邀测的时机,至顶网评测实验室展开了一次华为云极速IO云硬盘与超高IO云硬盘的性能对比测试活动,并且尝试通过相关测试成绩,对云硬盘的应用能 ...
- 三伏天里小试牛刀andriod 开发 #华为云·寻找黑马程序员#【华为云技术分享】
2019年07月,北京,三伏天,好热啊.越热自己还越懒得动换(肉身给的信号),但是做为产品经理/交互设计师的,总想着思考些什么(灵魂上给的信号),或者是学习些什么,更有利于将来的职业发展吧,哈哈哈.工 ...
- 从阿里云迁移分布式redis实例到华为云解决方案(详细)
如果要换多数是经济因素啦- 一. 准备工作 先在华为云上买一台redis数据库,配置一定要注意多数要保持一致,至于4.0还是5.0倒问题不大亲测兼容 可用区要找现有ECS云主机中的相同的机器.记下:这 ...
- 通过Canal将云上MySQL数据同步到华为云ES(CSS)中
背景: A部门想将mysql中多张表join成一个sql查询语句,然后将结果同步到es中供搜索使用 环境信息: 源端mysql在阿里云上,有公网ip 目标端es在华为云上,三节点 操作步骤与目的: 配 ...
- 【华为云技术分享】智能诊断和优化,华为云DAS服务云DBA平台让您无忧运维
摘要:随着时代的发展,传统的“人工”运维方式,已经逐渐跟不上企业业务发展的需要.如何更好的保证数据库系统的稳定性.安全性.完整性和高性能,实现运维工具化.产品化.自助化.自动化,是当前数据管理和运维面 ...
- 使用wget下载百度云资源
目录 使用wget下载百度云资源 一.材料准备: 二.步骤 三.总结 使用wget下载百度云资源 一.材料准备: [BaiduPan explorer]谷歌插件,可以加载文件的真实下载地址 [Chro ...
- 华为云FusionInsight湖仓一体解决方案的前世今生
摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...
- 【云享专刊】开源遇上华为云,OCP架构变身“云原生框架”
摘要:华为云DTSE团队出品云原生改造指南,助力轻松实践OCP上云. 本文分享自华为云社区<[云享专刊]开源遇上华为云,OCP架构变身"云原生框架">,作者:华为云社区 ...
- 华为云亮相QCon2020深圳站,带你体会大厂的云原生玩法与秘诀
摘要:在QCon全球软件开发大会上,华为云开发者生态总监张全文作为"云原生应用开发实践"专题出品人,携手华为云四位资深技术专家带来精彩分享. 作为当下技术领域最火热的技术趋势之一, ...
- 华为云API Arts:用“1+1+5”的模式,为你带来API-First体验
摘要:华为云API Arts是API全生命周期一体化协作平台,支持开发者一站式高效实现API设计.API开发.API测试.API托管.API运维.API变现,助力企业数字化转型. 本文分享自华为云社区 ...
随机推荐
- vue之留言板
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Jenkins相关概念
1,Jenkins相关工具概念: 要熟练掌握Jenkins持续集成的配置.使用和管理,需要了解相关的概念.例如代码开发.编译.打包.构建等名称,常见的代码相关概念包括:JDK.JAVA.MAKE.AN ...
- PolygonCollider2D.OverlapPoint()在小scale下失效的一种解决办法
偶然发现PolygonCollider2D的方法OverlapPoint()有时会失效(一直返回false),测试后发现在scale(这里指世界空间的scale,后同)很小的情况下(通常在UI Can ...
- 【数字图像处理】Matlab实现-图像增强-灰度图像增强
灰度图像增强的大致原理以及操作方法 面向作业编程 上图是大概对灰度图的增强处理 就是想让图片变得更好看 那么如何具体操作就看下面的代码了 这是一个简单的线性分段处理,相信在注释的帮助下应该能看懂. % ...
- 手撕Vuex-提取模块信息
前言 在上一篇[手撕Vuex-模块化共享数据]文章中,已经了解了模块化,与共享数据的注意点. 那么接下来就要在我们自己的 Nuex 中实现共享数据模块化的功能.那么怎么在我们自己的 Nuex 中实现共 ...
- 如何正确执行 DORA 指标
DevOps 研究与 DORA 评估指标可帮助我们深入了解软件开发和交付流程的性能和效率.这些指标包括部署频率.变更交付时间.变更失败率和平均恢复时间等方面.DORA 指标对于管理开发团队(从团队领导 ...
- HTML基础_01
HTML 基础_01 01.初识 HTML 什么是 HTML! Hyper Text Markup Language(超文本标记语言).超文本包括文字.图片.音频.视频.动画等. HTML5,提供了一 ...
- Wampserver搭建DVWA和sqli-labs问题总结
Wampserver 搭建 DVWA 和 sqli-labs 问题总结 遇到问题解决的思路方法 百度,博客去搜索相关的问题,人工智能 chatgpt 查看官方文档,查看注释. 本次解决方法就是在文档的 ...
- C#Winform使用NPOI获取word中的数据
公众号「DotNet学习交流」,分享学习DotNet的点滴. 需求 想要获取word里面的内容,如下图所示: 有一张表和一段文本,并将它们存入数据库或者Excel. 步骤 添加NPOI的库,如下图所示 ...
- 《深入理解 FFmpeg》第一章彩色插图汇总
layout: post title: "<深入理解 FFmpeg>第一章彩色插图" tags: - "FFmpeg" 这是<深入理解 FFm ...