更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

摘要

Data Catalog 产品，通过汇总技术和业务元数据，解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景，并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Data Catalog系统的构建和迭代过程，概要介绍核心设计以及部分关键实现。

背景

元数据与Data Catalog

元数据，一般指描述数据的数据，对数据及信息资源的描述性信息。在当前大数据的上下文里，通常又可细分为技术元数据和业务元数据。

Data Catalog，是一种元数据管理的服务，会收集技术元数据，并在其基础上提供更丰富的业务上下文与语义，通常支持元数据编目、查找、详情浏览等功能。

元数据是Data Catalog系统的基础，而Data Catalog使元数据更好的发挥业务价值。

Data Catalog的业务价值

火山引擎 DataLeap 套件下Data Catalog系统主要服务于两类用户的两种核心场景。

对于数据生产者来说，他们利用Data Catalog系统来组织、梳理自己负责的各类元数据。生产者大部分是大数据开发的同学。通常，生产者会将某一批相关的元数据以目录等形式编排到一起，方便维护。另外，生产者会持续的在技术元数据的基础上，丰富业务相关的属性，比如打业务标签，添加应用场景描述，字段解释等。

对于数据消费者来说，他们通过Data Catalog查找和理解他们需要的数据。在用户数量和角色上看，消费者远多于生产者，涵盖了数据分析师、产品、运营等多种角色的同学。通常，消费者会通过关键字检索，或者目录浏览，来查找解决自己业务场景的数据，并浏览详情介绍，字段描述，产出关系等，进一步的理解和信任数据。

另外，Data Catalog系统中的各类元数据，也会向上服务于数据开发、数据治理两大类产品体系。

在大数据领域，各类计算和存储系统百花齐放，概念和原理又千差万别，对于元数据的采集、组织、理解、信任等，都带来了很大挑战。因此，做好一个Data Catalog产品，本身是一个门槛低、上限高的工作，需要有一个持续打磨提升的过程。

旧版本痛点

字节跳动Data Catalog产品早期为能较快解决Hive的元数据收集与检索工作，是基于LinkedIn Wherehows进行二次改造。Wherehows架构相对简单，采用Backend + ETL的模式。初期版本，主要利用Wherehows的存储设计和ETL框架，自研实现前后端的功能模块。

随着字节跳动业务的快速发展，公司内各类存储引擎不断引入，数据生产者和消费者的痛点都日益明显。之前系统的设计问题，也到了需要解决的阶段。具体来说：

用户层面痛点：
- 数据生产者: 多引擎环境下，没有便捷、友好的数据组织形式，来一站式的管理各类存储、计算引擎的技术与业务元数据
- 数据消费者: 各种引擎之间找数难，元数据的业务解释零散造成理解数难，难以信任
技术痛点：
- 扩展性：新接入一类元数据时，整套系统伤筋动骨，开发成本月级别
- 可维护性：经过一段时间的修修补补，整个系统显的很脆弱，研发人员不敢随便改动；存储依赖重，同时使用了MySQL、ElasticSearch、图数据库等系统存储元数据，维护成本很高；接入一种元数据会增加2~3个ETL任务，运维成本直线上升

新版本目标

基于上述痛点，火山引擎 DataLeap 研发人员重新设计实现Data Catalog系统，希望能达成如下目标：

产品能力上，帮助数据生产者方便快捷组织元数据，数据消费者更好的找数和理解数
系统能力上，将接入新型元数据的成本从月级别降低为星期甚至天级别，架构精简，单人业余时间可运维

调研与思路

业界产品调研

站在巨人的肩膀上，动手之前火山引擎 DataLeap 研发人员针对业界主流DataCatalog产品做了产品功能和技术调研。因各个系统都在频繁迭代，数据仅供参考。

产品分类	产品名称	支持元数据种类	重要产品功能	机器学习能力	获取信息途径	特点分析
独角兽	C**	40+	搜索、血缘、标签、评价与打分、认证、问答、Connector市场等	有	demo和文档	功能丰富，成熟度高，产品设计上有诸多可借鉴之处
独角兽	A**	60+	搜索、血缘、标签、问答、Connector市场等	有	demo和文档	功能较丰富，成熟度较高，产品能力可做参考
开源	A A	10+	搜索、血缘、标签等	无	源码和文档	离线相关数据源支持较好，类型系统和存储系统设计巧妙，但产品侧能力弱。近期迭代较缓慢
开源	L D	40+	搜索、血缘、标签、统计大盘等	无	源码和文档	发展较快，背后商业化公司支持力度大，有在线demo环境可随时体验，功能简单直接
商业化	A P	30+	搜索、血缘、标签、统计大盘等	无	产品体验和文档	功能较简单，与其公有云结合紧密，部分功能有借鉴意义

升级思路

根据调研结论，结合字节已有业务特点，火山引擎 DataLeap 研发人员敲定了以下发展思路：

对于搜索、血缘这类核心能力，做深做强，对齐业界领先水平
对于各产品间特色功能，挑选适合字节业务特点的做融合
技术体系上，存储和模型能力基于Apache Atlas改造，应用层支持从旧版本平滑迁移

点击跳转大数据研发治理套件 DataLeap了解更多

火山引擎 DataLeap 构建Data Catalog系统的实践（一）：背景与调研思路的更多相关文章

火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
如何又快又好实现 Catalog 系统搜索能力？火山引擎 DataLeap 这样做
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...
字节跳动构建Data Catalog数据目录系统的实践（上）
作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系.本文介绍了字节跳动 Data ...
火山引擎 DataLeap：3 个关键步骤，复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
火山引擎 DataLeap：揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
火山引擎 DataLeap：一家企业，数据体系要怎么搭建？
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
以字节跳动内部 Data Catalog 架构升级为例聊业务系统的性能优化
背景字节跳动 Data Catalog 产品早期,是基于 LinkedIn Wherehows 进行二次改造,产品早期只支持 Hive 一种数据源.后续为了支持业务发展,做了很多修修补补的工作,系统 ...
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
使用 Kafka 和 Spark Streaming 构建实时数据处理系统来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技 ...
基于MRS-ClickHouse构建用户画像系统方案介绍
业务场景用户画像是对用户信息的标签化.用户画像系统通过对收集的各维度数据,进行深度的分析和挖掘,给不同的用户打上不同的标签,从而刻画出客户的全貌.通过用户画像系统,可以对各个用户进行精准定位,从而将 ...

随机推荐

2020年第十一届蓝桥杯第二场C/C++ B组省赛题解
2020年第十一届蓝桥杯C/C++ B组省赛题解试题A:门牌制作 [问题描述] 小蓝要为一条街的住户制作门牌号. 这条街一共有 $2020$ 位住户,门牌号从 $1$ 到 $2020$ ...
Excel表格存在不同大小的合并单元格怎么排序？
当Excel表格中存在不同大小的合并单元格时,进行排序可能会出现一些难题.因为合并单元格会影响数据的布局,导致排序结果不符合预期. 下面我将详细介绍如何在包含不同大小合并单元格的Excel表格中进行排 ...
基于DotNetty实现自动发布 - 项目的配置与发现
前言上一篇,我们实现了基于 DotNetty 的通信基础模块的搭建,本篇,主要实现待发布 Web 项目的集成. 创建待发布项目为了测试, 我创建了一个基于 .NET 4.8 的 Web 项目 Op ...
[NOI online2022普及B] 数学游戏
题目描述 Kri 喜欢玩数字游戏. 一天,他在草稿纸上写下了 $t$ 对正整数 $(x,y)$,并对于每一对正整数计算出了 $z=x\times y\times\gcd(x,y)$. 可是 ...
[ABC263D] Left Right Operation
Problem Statement You are given an integer sequence of length $N$: $A=(A_1,A_2,\ldots,A_N)$. You wil ...
Docker命令之export|import、save|load
1.export|import export docker export -o /ly/myexport-redis 49c26f7431d1 -o : 指定一个不存在的文件夹,存放导出的镜像 imp ...
python获取已安装程序列表
python获取已安装程序列表本文主要讲述通过python脚本获取android 设备已安装列表. 首先,Python本身无法直接获取Android设备上已安装的程序列表,所以这里主要借助adb命令 ...
BUUCTF 加固题 Ezsql WriteUp
文章目录想直接要加固代码的点这里题目一.查看二.进入目标机器加固修改前的文件: 添加如下代码: 修改后的文件三.Check 想直接要加固代码的点这里题目靶机地址解释: 第一行:目标机器 ...
Map的特性（有序和无序）讨论
目录什么是红黑树? 在 Java 中,基础java.util.Map 接口本身并不保证元素的顺序.具体的实现类 HashMap 和 TreeMap 的行为(无序.有序)有所不同: HashMap 类 ...
JavaFx 打包jar（六）
JavaFx 打包jar(六) JavaFX 从入门入门到入土系列我们编写了不少javafx,那么如何打包成jar给用户呢?下面我给出比较全的打包方式. 打包jar 下面我给出比较全的打包方式. 1 ...

火山引擎 DataLeap 构建Data Catalog系统的实践（一）：背景与调研思路

摘要

背景