DataPipeline丨DataOps理念与设计原则
作者:DataPipeline CEO 陈诚
上周我们探讨了数据的「资产负债表」与「现状」,期间抛给大家一个问题:如果我们制作一个企业的“数据资产负债表”,到底会有多少数据是企业真正的资产?
数据出现问题并不仅仅是数据部门的原因,更多是组织架构及配合的问题。相较于追责某些工具,反而应该思考该用何种理念和方法来面对背后的“元问题”。基于此,我们提出应从DataOps入手。
一、DataOps理念
Gartner对于DataOps的定义
Data ops is the hub for collecting and distributing data, with a mandate to provide controlled access to systems of record for customer and marketing performance data, while protecting privacy, usage restrictions and data integrity.
该定义没错,不过我们解读DataOps理念的宗旨在于以最快的速度用数据满足业务发展需要,并保障其质量。 在业务发展日新月异,且数据、系统和团队又重度分裂的情形下,我们应当用文化、流程和工具实现数据驱动业务的最佳实践。 为能深入理解DataOps的理念,我们不妨先进行回顾:
过去很多企业投入资源践行了DAMA(数据管理协会)的数据治理模式,也收到了很多效果,但在新时代的发展需求下,不同的经济周期里,我们逐渐看到了DAMA数据治理框架的一些局限性和需要调整的地方。 DAMA提出的数据治理框架,非常详细地阐述了在建设和使用数据过程中常见的问题,诸如组织、流程、角色和一些实践原理。但最缺失的一点是,在竞争如此激烈的商业环境中,这样大而全的模式很难严格按照配方从一而终地实践下来,周期太长,见效太慢。
为此,DataOps借用了DAMA数据治理的基础框架,且揉和了DevOps理念中敏捷快速、持续集成的关键点,强调通过调整文化、流程和使用的工具,在安全合规的前提下,快速提升业务价值。同时将持续迭代数据架构,不断强化组织的数据思维作为核心理念。
接下来我们需要从企业所遭遇的数据困境和数据部门的困境两个层面进行分析:
企业的数据需求往往从以高层希望关注的业务指标(KPI)为起点,逐渐发展延伸为中层管理者被动或主动需要关注的指标(KPI),这些指标非常重要,因此很多人说:“凡是高管能看到的KPI指标都会提升。”这句话没错,但是只使用这些描述性的指标就像开车时只能看后视镜,如果以一个相对狭窄而固定的角度去看在企业发展历程中发生的事,所能得到的结论也是有限的。
在经济上行期,数据的价值很难被重视,因为有很多方式可以增加收入。而在桥水基金创始人Ray Dalio所描述的下行经济周期中,大众预期普遍悲观,增长乏力,需要从粗放转化到精细经营,而精细化的基础就是数据。因此企业高管无不在思考,如何能使用数据让企业尽快向前看,驱动新的增长点,产生更多新的业务价值。但高管们深知,这时只能去激活一线业务用户使用数据的思维和潜力。而要做到这点,面临两个挑战:
1)让数据使用安全合规,建立严格的权限管控;
2)快速匹配业务部门相应的数据能力和资源。
这两个重要问题,目前都没有成熟有效的方法去实践解决。很多高管希望通过数据建立与外部的连接,变革商业模式,增加收入。不可否认,愿景是美好的,但当内部数据出现流转使用效率低下、质量问题层出不穷等困境时,也只能望洋兴叹。 导致这种局面的本质原因,在于数据部门经常处于一种永远竭尽全力满足各种需求,却始终得不到认可的状态中。为何如此?
通常数据部门面临人手不足的问题,因为整个企业,从前台业务、市场,甚至到中后台的财务、供应链、人力资源,都在向一个部门提需求,由一个部门承接。其数据的多样性,业务的变化性,数据量的日益增长给系统稳定性带来了不小挑战。导致数据部门每天对外要理解业务数据需求的内涵,竭力排期满足,对内要运维所使用的陈旧工具和系统,保证其正常运行,每天不堪重负,没有时间和人力去思考如何自动化、智能化地提高效率。这时,一旦出现数据质量、元数据等问题,就会被挑战得体无完肤,甚至会升级到能力和信任的高度。
有些企业在业务线中放置业务分析师,希望借助一些自助分析工具和框架,来分流和缓解数据部门的压力,这是积极有效的尝试。但会造成中心化的数据架构部分负载增加,运维难度和成本进一步上升。有时经常因无法说明这些新的开销对于业务增长的意义,以及责权界限不清,收不到预期的效果。 长此以往,这种落后于时代的组织形式和技术视野会导致企业和数据部门无法真正做到快速响应业务需求。 因此,在这样的大环境下,我们看到一个机会,一种变革,它包括了:
1)使用数据时,责权清晰的组织架构和规则流程,即DataOps理念,使数据思维在组织内深入人心;
2)将自动化、智能化的现代基础设施与数据管理体系组合起来赋能企业中的每一个人。用自上而下的信任和管控激发自下而上的自主和创新,从而打破数据组因长期过载而制约企业发展的局面,逐渐从只看后视镜的困境中走向前后兼顾的未来转型。
二、DataOps设计原则
因此,我们需要在此提出DataOps的五大设计原则:
1)安全合规
2)快速敏捷
3)开放协同
4)自助服务
5)自动智能
安全合规
首先,我们需要根据企业的业务属性,确定极为清晰且安全合规的数据隐私和权限管控标准。数据协同使用可以让授权的业务用户和第三方安全合规地使用企业数据,无需担心数据的隐私和泄漏,这是一切后续的基础。否则,就无法真正做到将数据赋能给一线的业务用户。
快速敏捷
其次,在合规的基础上,将一切围绕数据产生的价值提升到最大,这样才能不错失创收的机会。
开放协同
将自上而下的描述性指标,转为将数据开放给业务用户,进行自下而上地探索和使用。因为业务用户最了解创新所需要的数据应该如何应用,因此应该最大限度地发挥他们的主观能动性,带来业务创新。
业务用户使用数据去探索,是阶段性的。从只会用excel到看报表再到写SQL直至会用python做数据探索,不同的发展阶段,数据探索的能力也截然不同。而DataOps倡导的是每个人都应当学习去使用数据,数据不是某个人,某个小组的精英才能掌握的能力,它是一种文化。
自助服务
通过自助式服务,将数据部门从日常数据使用的生命周期管理中解放出来,以提高数据的时效性。并且要计算使用数据资源的成本,让数据资产负债的概念深入人心,而不是将数据资源当成免费的午餐,吃完还要“评头论足”。
自动智能
让数据部门全身心地投入到对于自动化、智能化数据科技的实践中,以最快地速度满足数据多样性,动态性,质量监控,系统稳定性的底层技术需求(后续会详细描述)。
继上周交代了数据管理目前的现状以及DataOps出现的背景之后,本篇主要介绍了DataOps理念及设计原则。接下来我们会探讨由这些原则衍生出的具体组织架构、技术考量和实施步骤。
对上述问题感兴趣的伙伴,请持续关注DataPipeline
DataPipeline丨DataOps理念与设计原则的更多相关文章
- DataPipeline丨DataOps的组织架构与挑战
作者:DataPipeline CEO 陈诚 前两周,我们分别探讨了“数据的资产负债表与现状”及“DataOps理念与设计原则”.接下来,本文会在前两篇文章的基础上继续探讨由DataOps设计原则衍生 ...
- SOA 实现:服务设计原则
http://www.ibm.com/developerworks/cn/webservices/ws-soa-design/ 引言 面向服务的体系结构(Service-Oriented Archit ...
- java设计原则:16种原则
一 类的设计原则 1 依赖倒置原则-Dependency Inversion Principle (DIP) 2 里氏替换原则-Liskov Substitution Principle (L ...
- Erlang/OTP设计原则(文档翻译)
http://erlang.org/doc/design_principles/des_princ.html 图和代码皆源自以上链接中Erlang官方文档,翻译时的版本为20.1. 这个设计原则,其实 ...
- Dubbo的一些编码约定和设计原则
编码约定 代码风格 Dubbo 的源代码和 JavaDoc 遵循以下的规范: Code Conventions for the Java Programming Language How to Wri ...
- JavaScript设计模式之设计原则
何为设计 即按照哪一种思路或者标准来实现功能,功能相同,可以有不同的设计方案来实现 伴随着需求的增加,设计的作用就会体现出来,一般的APP每天都在变化,更新很快,需求不断在增加,如果设计的不好,后面很 ...
- 微观SOA:服务设计原则及其实践方式
大 量互联网公司都在拥抱SOA和服务化,但业界对SOA的很多讨论都比较偏向高大上.本文试图从稍微不同的角度,以相对接地气的方式来讨论SOA, 集中讨论SOA在微观实践层面中的缘起.本质和具体操作方式, ...
- 9个永恒的UI设计原则
很多人都在寻找那些能够帮助他们快速提升设计能力的方法,但你是否想过,自己身上的哪些方面会对你的设计产生影响呢?是使用工具的技巧,对设计的理解和态度,还是你的生活习惯呢?我想说所有这些都是决定你的设计是 ...
- 【SpringCloud】03.微服务的设计原则
微服务的设计原则: 一.AKF拆分原则 业界对于可扩展的系统架构设计有一个朴素的理念:通过加机器就可以解决容量和可用性问题(如果一台不行就两台). Y轴(功能)--关注应用中功能划分,基于不同的业务拆 ...
随机推荐
- 深入理解Java虚拟机笔记——虚拟机类加载机制
目录 概述 动态加载和动态连接 类加载的时机 类的生命周期 被动引用 例子一(调用子类继承父类的字段) 例子二(数组) 例子三(静态常量) 类加载的过程 加载 验证 准备 解析 符号引用 直接引用 初 ...
- HDU 3879 && BZOJ 1497:Base Station && 最大获利 (最大权闭合图)
http://acm.hdu.edu.cn/showproblem.php?pid=3879 http://www.lydsy.com/JudgeOnline/problem.php?id=1497 ...
- mysql的数据存储
# pycharm 连接mysql import pymysql username = input("输入用户名:") pwd = input("输入密码:") ...
- flask 请求上下文源码(转)
本篇阅读目录 一.flask请求上下文源码解读 二.http聊天室(单聊/群聊)- 基于gevent-websocket 回到顶部 转:https://www.cnblogs.com/li-li/p/ ...
- springboot不同环境打包
1. 场景描述 springboot+maven打包,项目中经常用到不同的环境下打包不同的配置文件,比如连接的数据库.配置文件.日志文件级别等都不一样. 2. 解决方案 在pom.xml文件中定义 2 ...
- CDQZ集训DAY8 日记
又一次翻车…… 先提一句昨晚的事.昨天晚上身后一帮成都七中的人用十分戏谑的语气交出了达哥的名字,看着NOI2017的获奖名单,如果他们真的是在嘲笑的话,真的挺想上去干他们一顿的…… 上午考试第一题一脸 ...
- springcloud-高可用部署
1.场景描述 前端时间只简单介绍了下springcloud的高可用方案(springcloud高可用方案),今天详细介绍下如何实施springcloud的高可用部署. 2.解决方案 2.1 架构方案 ...
- Python入门基础(9)__面向对象编程_2
__str__方法 如果在开发中,希望使用print输出对象变量时,能够打印自定义的内容,就可以利用__str__这个内置方法了 注意:__str__方法必须返回一个字符串 class Cat(): ...
- 个人永久性免费-Excel催化剂功能第81波-指定单元格区域内容及公式填充
在日常数据处理过程中,需要对缺失数据进行填充时,按一定逻辑规则进行处理,实现快速填充,规范数据源.此篇给大家带来多种填充数据的场景. 业务使用场景 对各种系统中导出的数据,很多时候存在数据缺失的情况, ...
- Sqoop学习及使用
Sqoop 简介 Sql + Hadoop = Sqoop Apache Sqoop™是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存 储之间传输大量数据的工具 原理 将 ...