一体化元数据管理平台——OpenMetadata入门宝典
大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。今天给大家分享一体化的元数据管理平台——OpenMetadata。
本文档基于官网及个人实践资料整理。后续的文档请关注公众号 大数据流动,会持续的更新~
本文分四个部分,分别从开源元数据管理平台,OpenMetadata简介,安装过程和功能演示四个方面来进行。
一、开源元数据管理平台
元数据管理是企业全面开展数据治理的起点。各种元数据管理工具,元数据管理平台也层出不穷。
开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和管理数据的工具,它们提供了一种可扩展的方式来组织和维护数据的元数据信息。以下是一些常见的开源元数据管理平台:
- Apache Atlas:Apache Atlas是一个开源的大数据元数据管理和数据治理平台,旨在帮助组织收集、整理和管理数据的元数据信息。它提供了丰富的元数据模型和搜索功能,可以与各种数据存储和处理平台集成。
- LinkedIn DataHub:LinkedIn DataHub是LinkedIn开源的元数据搜索和发现平台。它提供了一个集中式的元数据存储库,用于管理和浏览各种类型的数据集和数据资产的元数据信息。
- Amundsen:Amundsen是Lyft开源的数据发现和元数据管理平台。它提供了一个用户友好的界面,使用户可以搜索、浏览和贡献数据集的元数据信息。Amundsen还支持与其他数据工具和平台的集成。
- Metacat:Metacat是Netflix开源的数据发现和元数据管理平台。它提供了一个统一的接口来查找和浏览各种数据集的元数据信息,并支持与其他数据工具和服务的集成。
这些开源元数据管理平台都提供了各种功能,如元数据存储、搜索、浏览、数据资产关系管理、数据血统跟踪等,帮助组织更好地管理和利用数据的元数据信息。
而今天我们要介绍的OpenMetadata,希望提供一种元数据的管理标准,来让我们更好的管理元数据。
二、OpenMetadata简介
OpenMetadata是一个用于数据发现、数据沿袭、数据质量、可观察性、治理和团队协作的一体化平台。它是发展最快的开源项目之一,拥有充满活力的社区,并被各行业垂直领域的众多公司采用。OpenMetadata 由基于开放元数据标准/API 的集中式元数据存储提供支持,支持各种数据服务的连接器,可实现端到端元数据管理,让您可以自由地释放数据资产的价值。
目前OpenMetadata在Github标星2.5k,并刚刚更新了1.1版本。
考虑部分同学网络问题,可在大数据流动后台回复“OpenMetadata1.1”进行源码和安装包下载,有效期一个月。


OpenMetadata 包括以下内容:
元数据模式- 使用类型、实体和实体之间关系的模式定义元数据的核心抽象和词汇。这是开放元数据标准的基础。还支持具有自定义属性的实体和类型的可扩展性。
元数据存储- 存储连接数据资产、用户和工具生成的元数据的元数据图。
元数据 API - 用于生成和使用基于用户界面模式以及工具、系统和服务集成构建的元数据。
摄取框架- 用于集成工具并将元数据摄取到元数据存储的可插入框架,支持大约 55 个连接器。摄取框架支持众所周知的数据仓库,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服务。
OpenMetadata 用户界面- 用户发现所有数据并就所有数据进行协作的单一位置。

核心功能
- 数据协作- 通过活动源获取事件通知。使用 webhook 发送警报和通知。添加公告以通知团队即将发生的更改。添加任务以请求描述或术语表术语批准工作流程。添加用户提及并使用对话线程进行协作。
- 数据质量和分析器- 标准化测试和数据质量元数据。将相关测试分组为测试套件。支持自定义SQL数据质量测试。有一个交互式仪表板可以深入了解详细信息。
- 数据血缘- 支持丰富的列级沿袭。有效过滤查询以提取沿袭。根据需要手动编辑谱系,并使用无代码编辑器连接实体。
- 全面的角色和策略- 处理复杂的访问控制用例和分层团队。
- 连接器- 支持连接到各种数据库、仪表板、管道和消息传递服务的 55 个连接器。
- 术语表- 添加受控词汇来描述组织内的重要概念和术语。添加词汇表、术语、标签、描述和审阅者。
- 数据安全- 支持 Google、Okta、自定义 OIDC、Auth0、Azure、Amazon Cognito 和 OneLogin 作为 SSO 的身份提供商。此外,还支持 AWS SSO 和 Google 基于 SAML 的身份验证。
三、安装过程
主要使用Docker的安装方式,几分钟就可以搞定。
首先查看python版本。
python3 --version
需要python 3.7 3.8 3.9三个版本都可以。
查看docker版本。
docker --version
20.10.0或者更高的版本。
docker compose version
需要docker compose 2.1.1或者更高的版本。
建立文件夹
mkdir openmetadata-docker && cd openmetadata-docker
创建虚拟环境。
python3 -m venv env
虚拟环境生效。
source env/bin/activate
更新pip
pip3 install --upgrade pip setuptools
安装openmetadata
pip3 install --upgrade "openmetadata-ingestion[docker]"
确定安装成功
metadata docker --help
启动容器
metadata docker --start
启动postgre
metadata docker --start -db postgres
随后访问
http://localhost:8585
成功!

四、功能演示
首页展示

多语言支持

概览页面

数据质量监控页

数据资产

业务术语表功能

一些数据源的配置。

未完待续~
更多大数据、数据治理、人工智能相关知识分享,请关注大数据流动。
一体化元数据管理平台——OpenMetadata入门宝典的更多相关文章
- 一站式元数据治理平台——Datahub入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势.国内Datahub ...
- Hadoop生态元数据管理平台——Atlas2.3.0发布!
大家好,我是独孤风. 今天我们来聊一下另一个元数据管理平台Apache Atlas.Atlas其实有一些年头了,是在2015年的时候就开源. 相对于Datahub来说,Atlas显得有一些" ...
- 强大多云混合多K8S集群管理平台Rancher入门实战
@ 目录 概述 定义 为何使用 其他产品 安装 简述 规划 基础环境 Docker安装 Rancher安装 创建用户 创建集群 添加Node节点 配置kubectl 创建项目和名称空间 发布应用 偏好 ...
- Rancher 容器管理平台-免费视频培训-链接及内容-第三季
Rancher 容器管理平台-免费视频培训-链接及内容 第三季 第5期-2018年05月10日-持续集成的容器化实践回放网址:http://www.itdks.com/liveevent/detail ...
- 数据治理之元数据管理的利器——Atlas入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...
- Apache Atlas元数据管理从入门到实战(1)
一.前言 元数据管理是数据治理非常重要的一个方向,元数据的一致性,可追溯性,是实现数据治理非常重要的一个环节.传统数据情况下,有过多种相对成熟的元数据管理工具,而大数据时代,基于hadoop,最为 ...
- 企业级容器管理平台 Rancher 介绍入门及如何备份数据
企业级容器管理平台 Rancher 介绍入门及如何备份数据 是什么 Rancher 是一个为 DevOps 团队提供的完整的 Kubernetes 与容器管理解决方案的开源的企业级容器管理平台.它解决 ...
- Dubbo入门到精通学习笔记(六):持续集成管理平台之Hudson 持续集成服务器的安装配置与使用
文章目录 安装Hudson 使用Hudson tips:自动化部署 附录:两个脚本 安装Hudson IP:192.168.4.221 8G 内存(Hudson 多个工程在同时构建的情况下比较耗内存) ...
- Dubbo入门到精通学习笔记(五):持续集成管理平台之sonarqube代码质量管理平台的介绍与安装
文章目录 SonarQube的介绍 SonarQube的安装 安装简介 详细安装过程 详细使用过程 SonarQube的介绍 SonarQube是一个管理代码质量的开放平台. 可以从七个维度检测代码质 ...
- Dubbo入门到精通学习笔记(三):持续集成管理平台之SVN版本管理系统的安装和使用
文章目录 持续集成管理平台介绍 持续集成介绍 持续集成管理平台的组成 持续集成实践介绍 即将学习 SVN版本管理系统的安装 安装 Subversion + Apache 安装 jsvnadmin 简单 ...
随机推荐
- SprintBoot2报错汇总
报错1:SpringBoot找不到bean Unable to start ServletWebServerApplicationContext due to missing ServletWebSe ...
- 新手如何让一个python写的游戏运行起来
本文主要解决问题为python中的pygame库安装 安装包版本:python-3.4.3.amd64.msi 下载链接:https://pan.baidu.com/s/1_jIRdVugSNzXKb ...
- git撤销某一次commit提交
一.使用git rebase命令 如果您想彻底删除 Git 中的某次提交的内容,可以使用 git rebase 命令并将该提交删除. 以下是删除 Git 提交内容的步骤: 找到要删除的提交的哈希值.可 ...
- 最新版本 Stable Diffusion 开源 AI 绘画工具之图生图进阶篇
目录 图生图基本参数 图生图(img2img) 涂鸦绘制(Sketch) 局部绘制(Inpaint) 涂鸦蒙版(Inpaint sketch) 上传蒙版(Inpaint upload) 图生图基本参数 ...
- jquery实现一个网页同时调用多个倒计时
<div class="time countdown_1" data-time="1449429731"> <span class=" ...
- Go语言实现分布式对象存储系统
实现一个可扩展的,简易的,分布式对象存储系统 存储系统介绍 先谈谈传统的网络存储,传统的网络存储主要分为两类: NAS,即Newtwork Attached Storage,是一个提供了存储功能和文件 ...
- 第139篇:JS数组常用方法(map(),reduce(),foreach())
好家伙,本篇为MDN文档数组方法的学习笔记 Array.prototype.reduce() - JavaScript | MDN (mozilla.org) 数组方法这块的知识缺了,补一下 1. ...
- 【解决方法】ASP.NET web 提示错误:CS0103 当前上下文中不存在名称“******”
问题描述 操作环境与场景: 在 Windows 10 中 Visual Studio 2017 编写网页时,提示报错: 错误 CS0103 当前上下文中不存在名称"******" ...
- 前端模拟“多线程”提交Http请求
首先说,javascript没有多线程这样一个说法,我说的只是类似那种效果.其次,不建议使用这种方式解决问题,多线程应该交给后台去做. 但是,如果非要这样用,有什么方法呢? 我在工作中就遇到了这样的问 ...
- sqlmap的一些简单使用命令
路径 C:\Users\Administrator\AppData\Local\Programs\Python\Python39\sqlmap post型注入 *每次使用都要重新抓包,不可以使用旧的数 ...