数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进
简介: 企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。 第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。
企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。
第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。
值得一提的是, 诞生于2009年阿里巴巴集团内部的DataWorks,不仅见证了阿里巴巴十多年大数据几次蜕变发展,更是阿里巴巴数据中台建设的最佳实践之一。如今 DataWorks平台可以支撑阿里巴巴内部上百个业务团队的数据业务建设,每天稳定调度上千万数据处理任务。阿里巴巴每天有超过5万名员工在DataWorks上完成数据分析、数据开发和数据治理工作。
那么,DataWorks如何让大数据向 “敏捷制造” 演进,背后具备什么样的核心能力?在全链路数据服务—大数据与AI分论坛,DataWorks产品负责人黄博远透露了DataWorks核心的三个“ONE”能力。
简单来讲,DataWorks以一站式的理念,通过一条数据开发链路,一套数据标准架构,一套数据治理体系,与大数据计算引擎结合,让企业拥有一站式的数据开发与治理能力。
1、一条数据开发链路
很多的企业发展到一定阶段以后都会面临这种情况:
1)数据来自于不同地域的数据中心,比如阿里云上有公共云、专有云,对于企业来讲也有自己的私域,同时又要服务企业外部的客户与合作伙伴,数据非常分散。
2)大数据的引擎百花齐放,选择多样。不管是阿里自研的SaaS模式云数据仓库MaxCompute、交互式分析Hologres和分析型数据库AnalyticDB,还是开源的EMR、CDH、Flink、Elasticsearch等等,种类极为丰富,我们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。
3)数据与AI及应用如何更好地结合?大数据加工处理完的数据还需要结合AI算法,以服务化的方式给到数据应用,如何实现BI与AI一体化,释放数据价值。
针对以上痛点,DataWorks可以帮助企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期管理整合到一条完整链路中。
首先满足企业在复杂网络条件下,DataWorks实现近50种异构数据源的离线/实时的同步,让企业更好地迈出大数据建设的“第一步”。其次,它的底层对接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时计算Flink版等大数据引擎,让多种计算引擎的数据开发治理工作都可以在同一个平台一站式的完成。最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行AI训练与在线预测服务,也可以通过数据服务以API方式给到BI、大屏等各类数据应用。
2、一套数据标准架构
对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台建设,规范了集团统一的数据标准架构,将数据进行清晰的结构分层,每一层又有明确的范围与边界。在贴源层,企业将完成全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据标准、数据建模等方式确立数据的规范体系。在汇总层,企业将基于业务需求对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务应用构建数据集市,为应用提供源源不断的高质量数据服务。这一套架构本身不具备产品化能力,但企业可以基于DataWorks,快速复制这套数据标准架构。
3、一套数据治理体系
企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制成本以及减少不必要浪费?这些问题都对数据治理提出了更高的要求。正常来讲,各类数据治理工作通过人工的方式其实也能够完成,但是阿里巴巴现在每天处理的数据超过1.7EB,每天调度的任务数在千万级,很难想象靠人工来完成所有的治理工作。DataWorks将阿里巴巴十多年数据治理的实践沉淀成产品化能力,完整覆盖模型设计、数据质量管理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的治理能力。一个平台,就具备一套完整的体系化的能力。
在分论坛现场,DataWorks全新发布数据建模产品,让企业从业务视角进行数仓规划、数据标准定义、维度建模和数据指标设计,用规范化的“图纸”指导大数据“建设”工作,提升企业数据中台建设的规范性和标准性,大大降低企业数据中台建设门槛和成本。同时DataWorks将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据建模类产品,以支撑不同行业不同场景的数仓模型设计。DataWorks数据建模产品将于2021年7月开启公测,届时欢迎大家在阿里云官网搜索“DataWorks”开通体验。
除了数据建模外,DataWorks覆盖了数据同步、元数据、数据资产、数据质量、数据地图、任务运维、数据安全、数据分析、数据服务等数据全生命周期的治理能力。
事实上,DataWorks已经应用到各行各业的数字化转型中。在工业行业,DataWorks帮助三一重工打通86个核心业务系统,处理每月50PB的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks帮助企业建立10余种数据中台运营规范,完成四大场景50+指标产出,规范数据治理流程,提升数据可用率。在钢铁行业,DataWorks让数据在数据中台进行自由流动,保证数据准确、准时、一致,让企业综合成本削减1亿元。在互联网行业,得物APP通过DataWorks OpenAPI构建全链路数据血缘,自主研发全链路解析能力,下线2万张表与近千个计算任务,让企业成本降低20%。
未来企业的数字化转型将对数据的治理与分析提出更高的要求,DataWorks将帮助企业快速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“敏捷制造”成为企业数字化的“敏捷转型”。
原文链接
本文为阿里云原创内容,未经允许不得转载。
数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进的更多相关文章
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- DataWorks(数据工场)
一.DataWorks(数据工场) DataWorks系列视频 https://help.aliyun.com/video_list/107549.html?spm=a2c4g.11174359.3. ...
- 大数据心法来了!一站式玩转MaxCompute,还有开发者资源等你领!
阿里云大数据计算平台开发者版2019年3月推出,MaxCompute正在成为开发者的免费大数据平台.今天,MaxCompute在企业构建自己的数据处理平台实践中起到了至关重要的作用,我们特别精选了企业 ...
- Moebius集群:SQL Server一站式数据平台
一.Moebius集群的架构及原理 1.无共享磁盘架构 Moebius集群采用无共享磁盘架构设计,各个机器可以不连接一个共享的设备,数据可以存储在每个机器自己的存储介质中.这样每个机器就不需要硬件上的 ...
- SharePoint2010沙盒解决方案基础开发——关于TreeView树形控件读取列表数据(树形导航)的webpart开发及问题
转:http://blog.csdn.net/miragesky2049/article/details/7204882 SharePoint2010沙盒解决方案基础开发--关于TreeView树形控 ...
- Google Earth数据存储、管理、表现及开发机制
Google Earth数据存储.管理.表现及开发机制 一. Google Earth(Map)介绍 1.1 Google Earth介绍 在众多的地理信息服务提供商中,Google是较早 ...
- 学习Hadoop+Spark大数据巨量分析与机器学习整合开发-windows利用虚拟机实现模拟多节点集群构建
记录学习<Hadoop+Spark大数据巨量分析与机器学习整合开发>这本书. 第五章 Hadoop Multi Node Cluster windows利用虚拟机实现模拟多节点集群构建 5 ...
- iOS开发:一个高仿美团的团购ipad客户端的设计和实现(功能:根据拼音进行检索并展示数据,离线缓存团购数据,浏览记录与收藏记录的批量删除等)
大致花了一个月时间,利用各种空闲时间,将这个客户端实现了,在这里主要是想记录下,设计的大体思路以及实现过程中遇到的坑...... 这个项目的github地址:https://github.com/wz ...
- 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)
1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR / WARN / INFO / DEBUG ...
- 号外!号外!这个敏捷高效的大数据bi看板可以免费使用啦!
随着信息革命的深入推进,数据已经成为国家基础性战略资源,各个行业开始重视数据分析,企业不同,数据分析需求当然不一样,如销售行业需要对商品进行销售分析:网站运营需要进行用户.渠道.流量等信息分析:制造行 ...
随机推荐
- PyQt5 Ubuntu 16.04/14.04 环境配置
PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 前置说明 本文作为本人csdn blog的主站的备份.(Bl ...
- JavaScript知识总结 异步编程篇
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 1. 异步编程的实现方式? JavaScript中的异步机制可以分为以下几种: 回调函数 的方式,使用回调函数的方式有一个缺点是,多个回调 ...
- 记录--微信调用jssdk--Invalid Signature, updateAppMessageShareData: denied等问题
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 最近在做安卓内嵌入H5活动页拉新活动,遇到的棘手问题记录下, 一是为了日后遇到同样问题好回顾,二是希望能帮到有同样问题的兄弟. 废话不多说 ...
- C# 单例模式使用 Singleton
Singleton 类如下: public class Singleton<T> where T : class, new() { private static T _instance; ...
- FFmpeg开发笔记(九)Linux交叉编译Android的x265库
<FFmpeg开发实战:从零基础到短视频上线>一书的"12.1.2 交叉编译Android需要的so库"介绍了如何在Windows环境交叉编译Android所需FF ...
- hadoop集群启动脚本文件myhadoop.sh
#!/bin/bash if [ $# -lt 1 ] then echo "No Args Input..." exit ; fi case $1 in "start& ...
- 使用 MediaStream Recording API 和 Web Audio API 在浏览器中处理音频(未完待续)
使用 MediaStream Recording API 和 Web Audio API 在浏览器中处理音频 1. 背景 最近项目上有个需求,需要实现:录音.回放录音.实现音频可视化效果.上传wav格 ...
- #线段树,欧拉函数#CF1114F Please, another Queries on Array?
题目 给一个长度为\(n\)的数组\(a\),\(q\)次询问 支持区间乘\(x\)以及求\(\varphi(\prod_{i=l}^ra_i)\) \(n\leq 4*10^5,q\leq 2*10 ...
- 中文GPTS详尽教程,字节扣子Coze插件使用全输出
今天,斜杠君和大家分享如何在字节扣子Coze中创建插件,并在创建后如何使用这个插件. 一.新建插件 首先,进入到插件页面,创建一个插件. https://www.coze.cn/home 点击左侧的个 ...
- 如何知道 window 的 load 事件已经触发
背景 为了使页面加载更快,常常将一些不重要的第三方脚本在页面完成加载后进行懒加载. // 做一些不影响业务的事情 window.addEventListener('load', () => { ...