数据治理的王者——Apache Atlas】的更多相关文章

一.Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题. 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生. Atlas官网地址:https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架. Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成.…
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. ​ 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案. 数据发现平台可以解决的问题 为什么需要一个数据发现平台? 在数据治理过程中,经常会遇到这些问题: 数据都存在哪? 该如何使用这些数据? 数据是做什…
atlas英 [ˈætləs] 阿特拉斯. 美 [ˈætləs] n.地图集;〈比喻〉身负重担的人 == Apache Atlas Version: 1.1.0 Last Published: 2018-09-18 版本:1.1.0  最新出版:2018-09-18 == Data Governance and Metadata framework for Hadoop Hadoop的数据管理和元数据框架 Overview 概述 Atlas is a scalable and extensibl…
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整理了这份文档供大家学习使用. 本文档基于Atlas2.1.0版本,整理自部分官网内容,各种博客及实践过程.文章较长,建议收藏.新版本的文档请关注公众号 大数据流动,会持续的更新~ 本文档共分为8个部分,层级结构如下图所示. 文档版权为公众号 大数据流动 所有,请勿商用.相关技术问题以及安装包可以联系…
背景 大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需 求越来越多,这使得大数据 业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求,怎么能更好.更容易的处理大数据任务关系及更好的实现数据治理呢? Apache  下与之 密切相关的项目有   Apache DolphinScheduler, Apache Atlas,  Apache Airflow , Apache Oozie, 和 Apache Griffin  .此…
一.功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成.Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家.分析师和数据治理团队提供围绕这些数据资产的协作能力. 二.架构设计 Atlas 中主要有以下核心组件 1. Type元数据类型定义,这里可以是数据库,表,列等,还可以细分 mysql 表( mysql_table ),or…
本文由  网易云发布. 作者:网易/刘勋(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分. 为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类.集中策略引擎.数据血缘.安全和生命周期管理等方面.Apache Atlas 项目就是这个倡议…
一.前言   元数据管理是数据治理非常重要的一个方向,元数据的一致性,可追溯性,是实现数据治理非常重要的一个环节.传统数据情况下,有过多种相对成熟的元数据管理工具,而大数据时代,基于hadoop,最为成熟的,与Hadoop兼容性最好的元数据治理平台则是Apache Atlas.本文是<Apache Atlas元数据管理从入门到实战>系列博文的第1篇.相关内容配套视频课程,已发布在网易云课堂:<Apache Atlas元数据管理从入门到实战>,敬请关注.配套实验环境地址:http:/…
不多说,直接上干货! Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类.集中策略引擎.数据血缘.安全和生命周期管理在内的元数据治理核心能力. http://atlas.apache.org/ http://www.jianshu.com/p/4eee91bc926c…
DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关. 数据治理是大佬们最近谈的一个火热的话题.不管国家层面,还是企业层面现在对这个问题是越来越重视.数据治理要解决数据质量,数据管理,数据资产,数据安全等等.而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察. DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具. 提到LinkedIn,不得不想到大名鼎鼎的Ka…