华为云FusionInsight MRS在金融行业存算分离的实践
摘要:华为云FusionInsight MRS的大数据存算分离解决方案,实现资源价值最大化,存储与计算资源全面云化、灵活配置、弹性伸缩,降本增效。
在大数据、云计算、5G、AI等技术日新月异,数字经济加速发展的背景下,数据成为新的生产资料,数字化转型成为政企高速发展的关键。作为数字化转型的先行者,金融行业利用大数据平台进行客户体验提升、精准营销等业务。这些大数据平台在金融行业业务中发挥着至关重要的作用,但庞大的数据量也给他们带来了新的挑战,企业在大数据平台的建设及扩容方面每年均保持着一定规模的投入,降本增效的矛盾在发展过程中进一步被放大;海量数据驱动业务敏捷响应,传统大数据平台从建设到落地的长周期,不利于业务的高速发展;平台建成后,维护、升级、扩容均以集群为单位,管理离散,操作繁重。
传统大数据平台建设采用存算一体的架构建设,在进行扩容时计算、存储资源会同步扩充,在部分场景下造成了资源冗余,利用率偏低。基于此,中国工商银行(以下简称工行)联合华为云FusionInsight MRS落地大数据存算分离解决方案,实现资源价值最大化,存储与计算资源全面云化、灵活配置、弹性伸缩,降本增效。
存算分离实现成本降低60%
工行大数据平台批量业务普遍采用存算一体架构,原始数据、数据表、导出数据均存储在本地HDFS,在现网部分批量集群中,CPU利用率50%,而存储利用率超过70%。
工行采用了华为云FusionInsight MRS大数据存算分离方案,实现了大数据平台与OBS对象存储服务的对接,将原有的HDFS数据无缝迁移到OBS上。在保证性能的前提下,实现了计算与存储独立按需扩容,轻松应对业务浪涌,提升资源整体利用率。
大数据存算分离演进示意图
此次实践不仅实现了计算与存储资源的按需扩容,还在存储、计算和易用性方面做到了最优。
存储方面,工行原有大数据平台使用HDFS存储数据,1:3的备份方式使得较多存储空间被消耗,华为独有的Flex-EC技术可将副本率降低至1:1.25,存储资源优化提升2.4倍。在云存储性能上,单流性能达到300MB/s,为业界的3倍+。
计算方面,华为云基于存算分离的大数据解决方案进行软硬件垂直优化,充分利用自研处理器的高并发能力,提供芯片级的全栈自主优化能力,使用华为自研的操作系统EulerOS、华为JDK及数据加速层,充分释放硬件算力,为大数据计算提供高算力输出,实现高性价比。在性能相当情况下,端到端的大数据解决方案成本下降。
易用性方面,华为云OBS实现了原生POSIX语义,并补充了Append,hFlush/hSync、HDFS垃圾桶机制,rename原子操作性能,大幅领先业界同类产品。这些都使得用户可以平滑、无感知的从原有平台切换到存算分离平台。
集群快速发放,业务敏捷上线,运维省心省力
传统大数据平台的群部署,依赖 “硬件->操作系统->组网->大数据平台”的部署模式,部署周期以周粒度计算,并涉及多个业务部门协同操作。针对扩容、业务迁移和后期运维,也是“一集群一方案”的操作模式,工作量大,物料和人工成本都偏高。
工行联合华为云部署的存算分离大数据解决方案,全面兼容主流的大数据生态,100%兼容开源原生接口,结合周边丰富的数据及应用迁移工具,基于MRS WrapperFS的特性,提供OBS的翻译能力,兼容HDFS到OBS的平滑迁移,快速完成大数据平台的平滑迁移至存算分离架构,整个迁移过程做到“代码0修改,业务0中断”。
云端集群快速发放特性,可以实现小时级集群发放,提升效率数10倍,同时具备后台、前台和API接口三种任务提交模式,快速对接业务。针对后期扩容、运维场景,通过统一的运维管理平台, 对多个大数据集群进行集中运维管理,并能够实现资源的弹性伸缩和灵活扩容。
总结:
中国工商银行大数据平台全面构建在IaaS云之上,本次华为与工行联合创新借助新一代华为云底座进行存算分离架构试点工作,全面验证了全新架构下的产品功能、技术水平和性能状况,全方位评估存算分离架构的优缺点,总结经验,积累技术实力,为后续工行大数据平台演进至下一代“存算分离”与“存算一体”协同混合架构打下坚实基础,并为金融业大数据平台架构转型提供成熟解决方案。
本次存算分离实践顺利实施标志着工行首次完成大数据体系由存算一体架构向“存算分离”与“存算一体”协同混合架构的转型工作,全新的架构具有性能与成本最优,兼具灵活性、云化集约管维的特点,能够有效地支撑中国银行业智慧化转型,同时为全国金融同业大数据平台架构转型实施提供参考。
本文分享自华为云社区《华为云FusionInsight MRS在金融行业存算分离的实践》,原文作者:Sailing27 。
华为云FusionInsight MRS在金融行业存算分离的实践的更多相关文章
- 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”
摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...
- 解密华为云FusionInsight MRS新特性:一架构三湖
摘要:华为云安全网关产品总监郭冕在"华为云TechWave云原生2.0专题日"上发表<华为云FusionInsight MRS,一个架构实现三种数据湖>的主题演讲,分享 ...
- 腾讯云 CHDFS — 云端大数据存算分离的基石
随着网络性能提升,云端计算架构逐步向存算分离转变,AWS Aurora 率先在数据库领域实现了这个转变,大数据计算领域也迅速朝此方向演化. 存算分离在云端有明显优势,不但可以充分发挥弹性计算的灵活,同 ...
- 【技术干货】华为云FusionInsight MRS的自研超级调度器Superior Scheduler
Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器. Superior Sch ...
- 华为云FusionInsight湖仓一体解决方案的前世今生
摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...
- 存算分离实践:JuiceFS 在中国电信日均 PB 级数据场景的应用
01- 大数据运营的挑战 & 升级思考 大数据运营面临的挑战 中国电信大数据集群每日数据量庞大,单个业务单日量级可达到 PB 级别,且存在大量过期数据(冷数据).冗余数据,存储压力大:每个省公 ...
- “3+3”看华为云FusionInsight如何引领“数据新基建”持续发展
摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景. 近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景. 一.数据基建架构全景 数据流向显示,左侧 ...
- 从 Hadoop 到云原生, 大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...
- 存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?
引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此 ...
- ClickHouse 存算分离架构探索
背景 ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用.区别于 Hadoop 生态组件通常依赖 HDFS 作为底层的数据存储,ClickHouse 使用 ...
随机推荐
- 【sqli-labs】学习--待续
预备知识: 数字型注入: 这种sql语句中处理的是整型,不需要使用单引号来闭合变量的值. 首先输入id=1',此时因为不是整型,sql语句会执行出错,抛出异常. 然后输入id=1 and 1=1,此时 ...
- js排序算法--冒泡排序
<!DOCTYPE html> <html> <head> <title></title> </head> <body&g ...
- 安装 Android x86 并开启 arm 兼容
安装 Android x86 并开启 arm 兼容 Win 11 下开启了 Hyper-v,尝试了各种安卓模拟器,要么不能设置代理(BlueStacks),要么/system目录没办法设置. 获取 A ...
- Spring Boot整合OAuth2实现GitHub第三方登录
Github OAuth 第三方登录示例 1.第三方登录原理 第三方登录的原理是借助OAuth授权来实现,首先用户先向客户端提供第三方网站的数据证明自己的身份获取授权码,然后客户端拿着授权码与授权服务 ...
- 深度解析NLP文本摘要技术:定义、应用与PyTorch实战
在本文中,我们深入探讨了自然语言处理中的文本摘要技术,从其定义.发展历程,到其主要任务和各种类型的技术方法.文章详细解析了抽取式.生成式摘要,并为每种方法提供了PyTorch实现代码.最后,文章总结了 ...
- 计算网络之IPv6配置DHCP服务及acl
一.DHCPv6服务 DHCP即动态主机地址分配协议,在前面已经启动过IPv4的动态主机分配了, 还是来介绍两种方式 接口模式 全局模式 现在需要了解的就是DHCHv6,即基于IPv6的动态主机地址分 ...
- 使用 LCM LoRA 4 步完成 SDXL 推理
LCM 模型 通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步,而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数.蒸馏 ...
- Jenkins从Ubuntu迁移至AlmaLinux问题及相关解决记录
相关背景 之前在Ubuntu平台上搭建了Jenkins(在Ubuntu机器上使用war包安装Jenkins),现在由于一些需求,需要将系统迁移到AlmaLinux平台.由于AlmaLinux属于Cen ...
- 吉客云与用友U8的系统数据集成对接方案
吉客云与用友U8之间的系统数据集成方案.吉客云作为一款电商ERP产品,旨在为企业的数字化升级提供全方位的支持.用友U8是一个经过多年发展的信息化管理系统,见证了企业信息化从简单到精细.从局部到全面的转 ...
- pta三次实验的总结
第一次pta作业 在pta第一次作业,因为是第一次作业所以大体是比较容易,但是也有几个要注意的点,就是两个double的值相加减相乘的值与实际值会有一定的误差,误差大小为0.0000001,所以在写p ...