Data Fabric(数据编织),自 2019 年开始就在 Gartner 年度技术趋势榜单上安家,并在 2022 年被列为数据分析领域十大技术趋势之首,它究竟有哪些价值?又如何在企业落地?

在近日举办的全球软件开发大会 QCon 广州站上,网易数帆大数据产品技术负责人郭忆做了题为《基于 Data Fabric 的逻辑数据湖架构实践》的分享,介绍了 Data Fabric 的最新实践。

Data Fabric:好处与误区

Data Fabric,Gartner 将其定义为一种设计理念——构建一个数据和连接过程的集成层(Fabric),以支持数据系统跨平台的设计、部署和使用,实现灵活的数据交付。网易数帆在 Data Fabric 方向上,进行了落地实践,我们将其称之为逻辑数据湖,网易数帆认为,这个集成层就是跨平台的逻辑模型,我们认为通过逻辑模型,可以帮助业务人员屏蔽底层复杂的数据架构,业务人员在逻辑模型层之上,只需要选择数据集合,即可达到开箱即用的目的。从结果来看,无论数据存储在何处,这种架构模式都可以帮助企业低成本、及时地获得正确的数据,并且实现数据端到端的治理。郭忆总结了 Data Fabric 的两大关键词:逻辑统一、物理分散——这也是网易数帆逻辑数据湖实践的指导思想。

Data Fabric 的好处显而易见。郭忆介绍道,首先,它可以帮助我们节省 70% 的工作量,包括在数据发现、数据分析以及数据开发工作;其次,可以帮助我们的业务人员更快速的使用数据进行商业分析,不需要所有的数据只有入湖才能进行分析;再次,它在业务人员和数据团队之间构建了一个统一的界面,也就是逻辑模型层,让数据团队和业务团队之间的协作更加高效;此外,它支持业务人员可以自助完成数据的消费,使得数据使用的范围大幅度扩大。

实现这些效果,Data Fabric 自然需要一系列完善的核心能力,贯穿数据源到数据消费。

有了真香的 Data Fabric,是否意味着企业之前耗费大量精力与资源建设的数据湖、数据仓库就没用了?并非如此!

结合网易数帆的实践经验,郭忆给出了 4 点提醒:首先,Data Fabric 并不是真的要去湖或者去仓,而是构建一个去中心化的数据访问层,湖或者仓可以作为其中的一个数据源存在。其次,在数据量大的情况下,Data Fabric 会有性能问题,我们可以按需将数据固化到湖或者仓中,Data Fabric 并不是一定要直接去访问数据源。再次,Data Fabric 只是提供了一种更丰富的数据访问界面,既可以直接去访问数据源,也可以通过固化的方式,提供更加高效的访问。还有很重要的一点,Data Fabric 并不是要去除 ETL,恰恰相反,DataOps 和数据治理是 Data Fabric 基础。

网易数帆逻辑数据湖:元数据管理是关键

逻辑数据湖是网易数帆落地 Data Fabric 的技术方案。驱动网易数帆研发逻辑数据湖的因素,是支撑网易业务时面临的复杂数据架构、数据分析效率问题、数据部门成为瓶颈以及资源利旧的问题。郭忆分享了网易数帆的逻辑数据湖架构,包括数据源管理、数据目录、元数据管理、DataOps 全生命周期开发、数据模型层、物化视图等重要模块,覆盖数据的管、算、用。

其中元数据管理是连接不同数据源实现 Data Fabric 的关键。网易数帆逻辑数据湖通过流程引擎、指标系统、安全中心、数据地图、数据标准、模型设计中心和数据质量中心等七大组件来支撑元数据管理,并严格定义了湖外和湖内元数据发布的核心流程,以前述组件确保这些流程得以执行。

客户实践证明了网易数帆逻辑数据湖架构的价值。以一家大型企业客户为例,客户引入逻辑数据湖构建一站式开发运营模式,以中台集约数据开发推动数据作业五统一:统一逻辑入湖、统一开发、统一调度、统一治理、统一服务,提升数据交付效率和共享能力,从而获得多方面的收益。从平台能力来看,客户成功引入了成熟的数据中台产品,以及配套相关的管理规范。从数据工作模式来看,逻辑数据湖让业务人员由需求者成为生产者,让数据开发人员没有难找的数据。

运营目标的实现,首先是开发效率提升,报表开发效率提升 50%,可视化数据应用页面开发效率提升 1 倍;其次是数据自助分析能力,自助模式占各部门所有取数分析工作的比例到 30%,并培养 200 个自助分析的业务人员;而长期运营目标方面,客户通过数据中台能力提升,割接本地网部署的数据集市和数据平台,改变省内当前 1+N 的模式,进一步提升作业效率和数据安全。

小结

企业数字化转型的核心目标是降本增效,数据价值的发挥是至关重要,Data Fabric 提供了一种低成本的方式支持企业平滑、快速地落实这一目标,逻辑数据湖则是一种验证行之有效的落地方案。逻辑数据湖也使得网易数帆数据技术栈能够灵活地与不同行业不同企业的数据架构水乳交融,帮助客户实现数据存储到生产力的转换,满足数据驱动业务创新的需求。

QCon 回顾 | Data Fabric:逻辑统一、物理分散的更多相关文章

  1. ​知识图谱与机器学习 | KG入门 -- Part1 Data Fabric

    介绍 如果你在网上搜索机器学习,你会找到大约20500万个结果.确实是这样,但是要找到适合每个用例的描述或定义并不容易,然而会有一些非常棒的描述或定义.在这里,我将提出机器学习的另一种定义,重点介绍一 ...

  2. 基于ActiveMQ的消息中间件系统逻辑与物理架构设计具体解释

    1. 基本介绍与组件架构图 维基百科对消息中间件的定义是"Message-oriented Middleware is software infrastructure focused on ...

  3. MongoDB【第二篇】MongoDB逻辑与物理存储结构

    基本的操作 一.常用的命令和基础知识 1.进入MongoDB sehll 首先我们进入到MongoDB所在目录执行 cd /work/app/mongodb/bin/ #启动 ./mongo 为了方便 ...

  4. Python 逻辑行/物理行

    物理行是你在编写程序时所看见的. 逻辑行是Python看见的单个语句.Python假定每个物理行对应一个逻辑行 . 默认地,Python希望每行都只使用一个语句,这样使得代码更加易读. 如果你想要在一 ...

  5. 如何修改SQL Server 2000的数据库逻辑与物理名称

    在项目中使用SQL Server 2000创建了一个数据库,发现名称与另一个数据库太相似,于是决定更改名称,包括: 在企业管理器中看到的数据库名,也是实际应用程序中连接用的数据库名称: 在磁盘上看的物 ...

  6. SQLSERVER预读逻辑读物理读

    预读:用估计信息,去硬盘读取数据到缓存.预读100次,也就是估计将要从硬盘中读取了100页数据到缓存. 物理读:查询计划生成好以后,如果缓存缺少所需要的数据,让缓存再次去读硬盘.物理读10页,从硬盘中 ...

  7. 华为云FusionInsight湖仓一体解决方案的前世今生

    摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...

  8. linux下查看cpu物理个数、核数、逻辑cpu数

    一.首先要明确物理cpu个数.核数.逻辑cpu数的概念 1.物理cpu数:主板上实际插入的cpu数量,可以数不重复的 physical id 有几个(physical id) 2.cpu核数:单块CP ...

  9. 物理CPU、物理核跟逻辑核的区分

    一般来说,物理CPU个数×每颗核数就应该等于逻辑CPU的个数,如果不相等的话,则表示服务器的CPU支持超线程技术 ,所以您的电脑是双核的. 一 概念① 物理CPU 实际Server中插槽上的CPU个数 ...

  10. CSS中的px与物理像素、逻辑像素、1px边框问题

    一直不太清楚CSS中的1px与逻辑像素.物理像素是个什么关系(作为一名前端感觉很惭愧 -_-!),今天终于花时间彻底弄清楚了,其实弄清楚之后就觉得事情很简单,但也只有在弄清楚之后,才会觉得简单(语出& ...

随机推荐

  1. .NET周刊【5月第2期 2024-05-12】

    国内文章 C#在工业数字孪生中的开发路线实践 https://mp.weixin.qq.com/s/b_Pjt2oii0Xa_sZp_9wYWg 这篇文章探讨了C#在工业数字孪生技术中的应用,介绍了三 ...

  2. PageOffice6 实现 word 全文检索

    在文档服务器中存储有成千上万个文档的情况下,用户想要找到并打开包含特定关键字的文档,无疑是一项艰巨的任务.如何高效地管理和检索大量的Word文档呢? 在现有的技术解决方案中,许多方法都依赖于服务器端的 ...

  3. uniapp-vue3-oadmin手机后台实例|vite5.x+uniapp多端仿ios管理系统

    原创vue3+uniapp+uni-ui跨端仿ios桌面后台OA管理模板Uni-Vue3-WeOS. uniapp-vue3-os一款基于uni-app+vite5.x+pinia等技术开发的仿ios ...

  4. golang开发 gorilla websocket的使用

    很多APP都需要主动向用户推送消息,这就需要用到长连接的服务,即我们通常提到的websocket,同样也是使用socket服务,通信协议是基本类似的,在go中用的最多的.也是最简单的socket服务就 ...

  5. 题解 P2497 [SDOI2012]基站建设

    解题思路 CDQ优化DP 下文中 \(pos_i\) 表示编号为 \(i\) 的位置或者说坐标. 暴力 DP 转移方程是 \(f_i=\min\limits_{1\le j<i}\{f_j+\d ...

  6. Vue3组件通信方式

    Vue3组件通信方式 不管是vue2还是vue3,组件通信方式很重要,不管是项目还是面试都是经常用到的知识点. 比如:vue2组件通信方式 props:可以实现父子组件.子父组件.甚至兄弟组件通信 自 ...

  7. gRPC入门学习之旅(十)

    gRPC入门学习之旅目录 gRPC入门学习之旅(一) gRPC入门学习之旅(二) gRPC入门学习之旅(三) gRPC入门学习之旅(四) gRPC入门学习之旅(七)  gRPC入门学习之旅(九) 3. ...

  8. Kettle调优教程(推荐收藏)

    1.调整JVM大小 linux文件路径:data-integration/spoon.sh windows路径: -Xms1024m:设置JVM初始内存为1024m.此值可以设置与-Xmx相同,以避免 ...

  9. 关于 Elasticsearch 不同分片设置的压测报告

    摘要 为了验证当前集群经常出现索引超时以及请求拒绝的问题,现模拟线上集群环境及索引设置,通过压测工具随机生成测试数据,针对当前的 850 个分片的索引,以及减半之后的索引,以及更小分片索引的写入进行压 ...

  10. 2 分钟,搞懂 SLO 最佳实践

    本文是<SRE,Google运维解密>读书笔记,连载第三篇.微信公众号修改了推文逻辑,尤其是 iOS,建议对本公众号 SRETalk 加星标,以免错过后续系列推文. 本文介绍 SLO,曾经 ...