九、DataArts Studio
功能总览:
基本概念:
- 主题设计:通过分层架构表达对数据的分类和定义,帮助理清数据资产,明确业务领域和业务对象的关联关系。
- 主题域分组:基于业务场景对主题域分组。
- 主题域:互不重叠数据的高层面的数据分类,用于管理其下一级的业务对象。
- 业务对象:指企业运作和管理中不可缺少的重要人、事、物信息。
- 数据标准:用于描述公司层面需共同遵守的数据含义和业务规则。其描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
- SDI:Source Data Integration (SDI)又称贴源数据层。SDI是源系统数据的简单落地。
- DWI:Data Warehouse Integration (DWI)又称数据整合层。DWI整合多个源系统数据,源系统进来数据会有整合、清洗,基于三范式关系建模。
- DWR:Data Warehouse Report (DWR)又称数据报告层。 DWR基于多维模型,和DWI层数据粒度保持一致。
- DM:Data Mart (DM) 又称数据集市。DM面向展现层,数据有多级汇总。
- 关系建模:关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。
- 维度建模:维度建模是从分析决策的需求出发构建多维模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
- 指标(数据架构):指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
- 维度:维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。多数维度具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容)。
- 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑衍生指标的敏捷自助消费。如:零售门店数量(包含门店名称、门店等级等属性)。
- 衍生指标:衍生指标是原子指标通过添加口径/修饰词、维度卷积而成,口径/修饰词、维度均来源于原子指标中的属性。例如:促销员门店覆盖率。
- 复合指标:复合指标由一个或多个衍生指标叠加计算而成,其中的维度、口径/修饰词均继承于衍生指标(不能脱离衍生指标维度和口径/修饰词的范围,去产生新的维度和口径/修饰词)。
- 数据资产:由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。在企业中并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
- 数据地图:以数据搜索为核心,通过可视化方式,综合反映有关数据来源、数量、分布、标准、流向、关联关系、数据质量。让用户找到数据、读懂数据、消费数据,致力于为用户提供高效率的数据消费产品。
- 元数据:元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。元数据包括元数据实体和元数据元素。元数据元素是元数据的基本单元,若干个相关的元数据元素构成了元数据实体。
- 数据服务:数据服务是基于数据分发、发布的框架,将数据作为一种服务产品提供,满足客户的实时数据需求,能复用并符合企业和工业标准,兼顾数据共享和安全。
- API网关:API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。
数据架构:数据建模可视化、自动化、智能化
DataArts Studio数据架构践行数据治理方法论,将数据治理行为可视化,打通数据基础层到汇总层、集市层的数据处理链路,落地数据标准和数据资产,通过关系建模、维度建模实现数据标准化,通过统一指标平台建设,实现规范化指标体系,消除歧义、统一口径、统一计算逻辑,对外提供主题式数据查询与挖掘服务。
DataArts Studio数据架构主要包括以下三个部分:
- 主题设计:构建统一的数据分类体系,用于目录化管理所有业务数据,便于数据的归类,查找,评价,使用。通过分层架构对数据分类和定义,可帮助用户厘清数据资产,明确业务领域和业务对象的关联关系。
- 数据标准:构建统一的数据标准体系,数据标准流程化、系统化。用户可基于国家标准或行业标准,对每一行数据、每一个字段的具体取值进行标准化,从而提升数据质量和易用性。
- 数据建模:构建统一的数据模型体系,通过规范定义和数据建模,自顶向下构建企业数据分层体系,沉淀企业数据公共层和主题库,便于数据的流通、共享、创造、创新,提升数据使用效率,极大的减少数据冗余,混乱,隔离,不一致以及谬误等。
DataArts Studio数据架构支持的数据建模方法有:
- 关系建模:关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。
- 维度建模:维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
数据质量:可控可检验
数据质量模块支持对业务指标和数据质量进行监控,数据质量可检验,帮助用户及时发现数据质量问题。
- 业务指标监控:业务指标监控是对业务指标数据进行质量管理的有效工具,可以灵活的创建业务指标、业务规则和业务场景,实时、周期性进行调度,满足业务的数据质量监控需求。
- 数据质量监控:数据质量监控是对数据库里的数据质量进行质量管理的工具,您可以配置数据质量检查规则,在线监控数据准确性。
数据质量可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析,也支持数据的标准化,能够根据数据标准自动生成标准化的质量规则,支持周期性的监控。
数据服务:提升访问查询检索效率
DataArts Studio数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率,最终实现数据资产的变现。
数据服务为您提供快速将数据表生成数据API的能力,同时支持您将现有的API快速注册到数据服务平台以统一管理和发布。
产品优势
- 一站式数据运营平台:贯穿数据全流程的一站式治理运营平台,提供全域数据集成、标准数据架构、连接并萃取数据价值、全流程数据质量监控、统一数据资产管理、数据开发服务等,帮助企业构建完整的数据中台解决方案。
- 全链路数据治理管控:数据全生命周期管控,提供数据架构定义及可视化的模型设计,智能化的帮助用户生成数据处理代码,数据处理全流程质量监控,异常事件实时通知。
- 丰富的数据开发类型:支持多人在线协作开发,脚本开发可支持SQL、Shell在线编辑、实时查询;作业开发可支持CDM、SQL、MRS、Shell、Spark等多种数据处理节点,提供丰富的调度配置策略与海量的作业调度能力。
- 统一调度和运维:全面托管的调度,支持按时间、事件触发的任务触发机制,支持分钟、小时、天、周和月等多种调度周期。可视化的任务运维中心,监控所有任务的运行,支持配置各类报警通知,便于责任人实时获取任务的情况,保证业务正常运行。
- 可复用行业知识库:提供垂直行业可复用的领域知识库,涵盖行业数据标准、行业领域模型、行业数据主题库、行业算法库和行业指标库等,支持智慧政务、智慧税务、智慧园区等行业,帮助企业快速定制数据运营端到端解决方案。
- 统一数据资产管理:全局资产视图、快速查看、智能管理、数据溯源和数据开放共享,从业务视角管理和查看数据,定义业务架构、业务分类和业务术语,统一管理资产访问权限。
- 数据运营全场景可视:数据治理运营过程可视,拖拉拽配置,无需编码;处理结果可视,更直观,便于交互和探索;数据资产管理可视,支持钻取、溯源等。
数据治理框架
数据是企业核心资产,企业需要建立起数据字典,有效管理其日益重要的数据和信息资源;同时建立数据持续改进机制,来不断提升数据质量。本李概要介绍了数据治理框架、数据治理组织架构和数据治理度量评估体系,然后结合华为数据治理案例和新冠疫情简单描述了数据治理的应用,最后描述了DAYU方法论在DataArts Studio产品上的落地以及详细的落地指导文档。
DAYU方法论产品落地
DAYU数据治理方法论已经在华为云云服务数据治理中心DataArts Studio上落地实现,包括流程落地和功能落地。流程落地是指有一套详细的流程规范(需求、设计、实施、验证、发布等阶段)指导用户使用DataArts Studio开展数据治理工作;功能落地是指DataArts Studio平台提供自动化、智能化的工具帮助用户高效完成数据治理工作。
示例场景:在DataArts Studio平台完成端到端的全流程数据运营
本案例基于某市的出租车出行数据,选择MRS(MapReduce Service) Hive作为数据湖底座,使用DataArts Studio实施全流程数据治理,然后经过数据安全将标准化数据脱敏后,最后通过数据服务进行数据开放。期望通过实施数据治理达到以下目标:
- 数据标准化、模型标准化
- 统一统计口径,提供高质量数据报告
- 数据质量监控告警
- 统计每天收入
- 统计某月收入
- 统计不同支付类型收入占比
DataArts Studio使用流程
流程设计:
表1 出租车行程数据
数据架构:
数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您可以根据自己的业务需要进行自定义配置。
在数据架构控制台,单击左侧菜单栏的“配置中心”,进入配置中心页面。进入“功能配置”页签,如下图所示,设置“模型设计业务流程步骤”。
主题设计:
标准设计:
1、建立付款方式、供应商、费率代码 3个码表:
2、新建数据标准并发布
- 新建数据标准目录
新建数据标准:
参考
九、DataArts Studio的更多相关文章
- 第十九章——使用资源调控器管理资源(1)——使用SQLServer Management Studio 配置资源调控器
原文:第十九章--使用资源调控器管理资源(1)--使用SQLServer Management Studio 配置资源调控器 本系列包含: 1. 使用SQLServer Management Stud ...
- Android Studio(九):引用jar及so文件
Android Studio相关博客: Android Studio(一):介绍.安装.配置 Android Studio(二):快捷键设置.插件安装 Android Studio(三):设置Andr ...
- Android项目实战(十九):Android Studio 优秀插件: Parcelable Code Generator
Android Studio 优秀插件系列: Android Studio 优秀插件(一):GsonFormat Android Studio 优秀插件(二): Parcelable Code Gen ...
- 引擎设计跟踪(九.14.2g) 将GNUMake集成到Visual Studio
最近在做纹理压缩工具, 以及数据包的生成. shader编译已经在vs工程里面了, 使用custom build tool, build命令是调用BladeShaderComplier, 并且每个文件 ...
- 开源纯C#工控网关+组态软件(九)定制Visual Studio
一. 引子 因为最近很忙(lan),很久没发博了.不少朋友对那个右键弹出菜单和连线的功能很感兴趣,因为VS本身是不包含这种功能的. 大家想这是什么鬼,怎么我的设计器没有,其实这是一个微软黑科技 ...
- 【Android Studio安装部署系列】九、Android Studio常用配置以及快捷键
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 概述 整理Android Studio的常用配置和快捷键. 常用配置 显示行号 临时显示 永久显示 File——Settings——Edi ...
- 【Android Studio安装部署系列】十九、Android studio使用SVN
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 概述 在AndroidStudio中开发版本控制,除了Git就是SVN,和Eclipse不同,Android Studio没有提供单独的插 ...
- 【Android Studio安装部署系列】二十九、Android Studio安装本地插件(以国际化方法插件AndroidLocalizationer为例)
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 概述 实际开发中,需要用到插件,用来提高效率,这里就以生成国际化strings.xml的插件AndroidLocalizationer为例 ...
- FL studio系列教程(九):FL Studio中如何排列编曲
在FL Studio水果音乐制作软件播放列表中可以对制作的样本进行编排,除此之外,播放列表中排列的对象被叫做剪辑.在其中可以排列以下剪辑. 1.样本剪辑:样本剪辑包含了编排好的插件乐器音符数据. 2. ...
- 在Visual Studio 中使用git——分支管理-下(九)
在Visual Studio 中使用git--什么是Git(一) 在Visual Studio 中使用git--给Visual Studio安装 git插件(二) 在Visual Studio 中使用 ...
随机推荐
- docker-compose转义相关
环境变量值里面写$美元符号,用两个$符号来转义就可以了 下面的MYSQL_ROOT_PASSWORD的密码是lehuiguan!@#$,转义后写的变量就是lehuiguan!@#$$ environm ...
- KingbaseES V8R6 逻辑恢复到新的 schema
前言 本文介绍一下KingbaseES V8R6版本中逻辑恢复时,将原有的对象恢复到新的schema. sys_restore命令中如果只加入了-g(原schema) -G(新schema)参数 那么 ...
- KingbaseES Clusterware 高可用案例之---构建iSCSI共享存储
案例说明: 在KingbaseES Clusterware高可用的架构中,集群节点需要访问共享的存储设备,可以使用FC SAN.iscsi SAN.NAS等存储设备.本案例详细描述了,在Linux系统 ...
- Python爬虫初步---jupyterNptebook使用
学习视频笔记:
- 学习 Tensorflow 的困境与解药
我构建的预测模型 在过去的一段时间里我抓去了小宇宙内上万条播客节目的首日播放量的数据,并利用这些数据构建了一个用于预测播客节目播放量的模型.包含以下六个输入参数: 节目发布于一周中的哪一天 节目发布于 ...
- 数据库锁起来了,把事务清掉sql
select concat('kill ',id,';') from information_schema.`PROCESSLIST` where state !='executing' 将上述代码执 ...
- OpenHarmony 4.1 Release版本正式发布,邀您体验
春风轻拂的4月,OpenAtom OpenHarmony(以下简称"OpenHarmony")4.1 Release版本如期而至,开发套件同步升级到API 11 Release. ...
- 【直播回顾】OpenHarmony 3.1 Release版本南北向关键能力解读
OpenHarmony 3.1 Release版本发布后,广大开发者们纷纷开始上手体验新版本的功能.但随之而来的一系列问题,摆在了大家的面前:OpenHarmony 3.1这一版本,都有哪些重要的能力 ...
- HarmonyOS音频通话开发指导
常用的音频通话模式包括VOIP通话和蜂窝通话. ● VOIP通话:VOIP(Voice over Internet Protocol)通话是指基于互联网协议(IP)进行通讯的一种语音通话技术.VO ...
- HarmonyOS Connect “Device Partner”专场FAQ来啦!
原文链接:https://mp.weixin.qq.com/s/mQJlAso293qgPlA1paxv5g,点击链接查看更多技术内容: Device Partner平台是面向AIoT产业链 ...