巨变!a16z 关于新一代数据基础设施架构的深度洞察
点击上方 蓝字关注我们
来源 | a16z
作者 | Matt Bornstein,
Martin Casado,Jennifer Li
翻译 | 夕颜
作为未来最重要的基础设施之一,数据正在成为各行各业赢得未来的“王牌”。围绕数据,更大规模、更复杂的系统涌现,随之在架构层也发生着剧烈的演变。当下,现代商业智能、多模式数据处理、人工智能和机器学习这三大用来构建现代化数据基础设施的模式正在兴起......
在软件行业中,我们非常擅长构建各种大型、复杂的软件系统。现在,围绕数据构建的大规模复杂系统正在兴起,这些系统的主要业务价值来自于数据分析,而不是直接来自软件。我们可以看到,这个趋势对整个行业都产生了巨大的影响,包括新角色的出现、客户成本支出的变化,以及一些提供基础设施和工具的创业公司不断涌现。
事实上,当今很多增长最快的,以基础建设为主的创业公司都在构建管理数据的产品。这些系统支持数据驱动的决策(分析系统),并催生数据驱动的产品,包括机器学习(操作系统)。这些产品各式各样,从承载数据的管道到存储数据的存储解决方案,再到分析数据的 SQL 引擎,甚至到让数据更易于理解的数据看板,涵盖了从数据科学、机器学习库,到自动化数据管道,再到数据目录等广阔的领域。
然而,在这些劲头十足的趋势之下,我们发现大家对于这些前沿趋势所引领的技术,以及如何在实践中应用这些技术仍然感到十分困惑。在过去的两年中,我们采访了数百名创始人、企业数据leader 和包括 20 多名实践者在内的专家,这些实践者尝试在现有的数据堆栈之上,利用新兴的技术趋势进行实践,希望从中得到关于数据基础架构的通用规律。下面是我们与专家们讨论所看到的一些结果。
数据基础设施市场大规模增长
数据基础设施包括……
报告说明,过去几年数据基础设施市场增长非常迅猛。Gartner 数据显示,数据基础设施支出在 2019 年创下 660 亿美元的历史新高,占所有基础设施软件支出的 24%,而且这个数字还在增长。根据 Pitchbook 数据显示,排名前 30 的数据基础设施初创公司在过去 5 年中融资额超过 80 亿美元,总价值达到 350 亿美元。
2015-2020 年数据基础设施创业公司融资情况
数据市场的激烈竞争也在就业市场上有所反映。数据分析师、数据工程师和机器学习工程师在 Linkedin 的 2019 年增长最快的职位排行榜上名列前茅。据 NewVantage Partners 数据显示,财富 1000 强中有 60% 的企业聘用了首席数据官,而 2012 年这一比例仅为 12%,而且据麦肯锡增长和盈利研究报告显示,这些公司的表现大大优于他们的竞争对手。
最重要的是,无论是在硅谷的科技公司,还是在传统行业中,数据(和数据系统)都直接为业务带来贡献。
商业公司中的数据基础设施
一图读懂数据基础设施架构
由于数据基础设施市场的增长,数据基础设施相关的工具和实践也在以惊人的速度发展,但也正因如此,我们很难知道这些工具和实践应该如何更好地融合。本报告正是要为此提供一些洞察。
我们对领先的数据组织机构从业者提了这些问题:(a) 他们的内部技术栈是什么样的,以及 (b) 如果他们从头开始构建一个新的技术栈,是否会有所不同。
以下参考架构图就是这些讨论的成果:
数据基础设施的统一架构
注意:不包括事务系统 (OLTP)、日志处理和 SaaS 分析应用程序。查看高清完整架构图:https://a16z.com/wp-content/uploads/2020/10/Data-Report-Martin-Inline-Graphics-R8-1.pdf
图中的列定义如下:
架构解读
这个架构所代表的趋势远远超过你在大多数生产系统中所见,它展示了跨所有用例的统一架构的全貌。虽然行家可能会了解这些,但大多数人不会。
本文余下部分将重点介绍这个架构,以及其在实践中的常见实现方式。
分析、AI,两大生态系统正在走向融合?
在高层次上,数据基础设施的存在有两个作用:通过使用数据(分析用例)帮助业务 leader 做出更好的决策,以及把数据智能构建到面向客户的应用程序中,包括通过机器学习(业务用例)。
围绕这些广泛的用例,两个平行的生态系统已经形成。数据仓库构成了分析生态系统的基础。大多数数据仓库以结构化格式存储数据,通常使用 SQL(尽管 Python 越来越受欢迎),旨在快速轻松地从核心业务指标中生成洞察力。数据湖是运维生态系统的支柱,通过存储原始数据,它可以满足定制应用程序和更高级的数据处理需求所需的灵活性、规模和性能要求。数据湖可使用多种语言运行,包括 Java/Scala、Python、R 和 SQL。
这些技术都拥有各自的忠实粉丝,围绕其中一种技术进行构建会对技术栈的其余部分产生重大影响(稍后会详细介绍)。但真正有趣的是,现代数据仓库和数据湖开始越来越相似了,两者都提供商业存储、本地水平扩展、半结构化数据类型、ACID 事务、交互式 SQL 查询等。
未来的关键问题是:数据仓库和数据湖是否正在走向融合?也就是说,它们在技术栈中是否可以互换?一些专家认为,这种情况正在发生并推动技术和供应商的格局简化。而有些人则认为,由于语言、用例或其他因素的差异,这两个并行生态系统将继续共存。
架构演进
整个软件行业发生了大范围的架构演进,包括向云、开源、SaaS 业务模型等的转变,数据基础设施深受影响。然而,除此之外,数据基础设施还发生了一些独特的变化,推动着架构向前发展,并在此过程中经常破坏市场(如 ETL 工具)的稳定。
新兴的能力
一系列新的数据功能也随之涌现,需要一系列相应的新工具和核心系统与之匹配。其中许多趋势正在从头开始催生新的技术类别和市场。
用来构建现代化数据基础设施的蓝图
为了使架构尽可能具有可操作性,我们请专家编写了一组通用“蓝图”,从组织的规模、人才密度、使用场景和应用案例维度,为数据组织机构实施部署提供参考。
我们将在本文中提供三种常见的蓝图概况。其中,现代商业智能蓝图侧重于云原生数据仓库和分析用例。在第二个蓝图中,我们着眼于多模式数据处理,涵盖围绕数据湖构建的分析和操作用例。在最后的蓝图中,我们聚焦于操作系统以及 AI 和 ML 堆栈的新兴组件。
蓝图 1:现代商业智能
适用于各种规模公司的云原生商业智能,易于使用、入门成本低,并且比过去的数据仓库模式更具可扩展性。
现代商业智能蓝图
对于数据团队和预算相对较小的公司来说,这种模式渐渐成为默认选项。企业也越来越多地从传统数据仓库迁移到这个模式,以利用云的灵活性和规模。
核心用例包括报告、看板和专用工具,主要使用 SQL(和一些 Python)来分析结构化数据。
这种模式的优势在于前期投资低、上手速度快且易于上手,以及有很多人才可用。但这个模式不太适合有更复杂数据需求的团队,包括广义的数据科学、机器学习或流/低延迟应用程序。
蓝图 2:多模式数据处理
进化的数据湖,支持分析、运营和用例,也被称为给“Hadoop 难民”们的现代基础设施。
多模式数据处理蓝图
这种模式最常见于具有复杂数据需求的大型企业和科技公司。
用法包括商业智能和更高级的功能,包括使用各种语言(Java/Scala、Python、SQL),进行 AI/ML、流/延迟敏感分析、大规模数据转换和不同数据类型(包括文本、图像和视频)的处理。
这种模式的优势在于支持各种应用程序、工具、用户定义的功能和部署上下文的灵活性,并且对于大型数据集有成本优势。这个蓝图不太适合那些只想启动运行或数据团队较小的公司,因为维护需要耗费大量的时间、支出和专业知识。
蓝图 3:人工智能和机器学习
一种全新的、正在探索中的模式,用于支持机器学习模型的稳健开发、测试和操作。
大多数从事机器学习的公司已经采用了这种模式下的一些技术子集。重型的 ML 业务通常会部署完整的模式,甚至依靠内部开发新工具。
核心用例侧重于内部和面向客户的应用程序的数据驱动功能,或在线运行(即响应用户输入),或以批处理模式运行。
与预先打包的 ML 解决方案相比,这种方法的优势在于开发过程完全可控,可以为用户创造更大的价值,并将 AI/ML 构建为核心的长期能力。这个蓝图不太适合仅用来测试机器学习能力,或小规模内部使用,以及依赖供应商的公司,大规模机器学习是当今最具挑战性的数据问题之一。
展望未来
数据基础设施在架构层面正在经历快速、根本性的变化。构建现代数据栈的选择越来越多,做出正确的选择比以往任何时候都更加重要,因为我们正在从只基于代码的软件向混合了代码和数据的系统转型,并通过这种新型的系统来产生价值。高效的数据能力现在是所有行业公司的赌注,赢在数据上可以带来持久的竞争优势。
希望本文可以帮助数据组织了解当前的最新技术和行业趋势,实现最符合他们业务需求的架构,在数据领域日新月异的变化中规划未来。
原文链接:
https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
注:转载请注明“海豚调度翻译文章”。
社区官网
https://dolphinscheduler.apache.org/
代码仓地址
https://github.com/apache/dolphinscheduler
您的 Star,是 Apache DolphinScheduler 为爱发电的动力️ ~
添加社区小助手微信
(Leonard-ds)
☞议题征集令 | Apache DolphinScheduler Meetup 2021 来啦,议题征集正式开启!
☞Apache DolphinScheduler 1.3.9 发布,新增 StandaloneServer
☞美女亲自带你快速上手 DolphinScheduler
☞手把手教你 Apache DolphinScheduler 本地开发环境搭建 | 中英文视频教程
☞Apache DolphinScheduler使用规范与使用技巧分享
点击阅读原文,加入开源!
点个在看你最好看
巨变!a16z 关于新一代数据基础设施架构的深度洞察的更多相关文章
- QQ音乐PB级ClickHouse实时数据平台架构演进之路
导语 | OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过Q ...
- Google大数据技术架构探秘
原文地址:https://blog.csdn.net/bingdata123/article/details/79927507 Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学 ...
- Sentry 监控 - Snuba 数据中台架构(Query Processing 简介)
系列 1 分钟快速使用 Docker 上手最新版 Sentry-CLI - 创建版本 快速使用 Docker 上手 Sentry-CLI - 30 秒上手 Source Maps Sentry For ...
- DTCC 干货分享:Real Time DaaS - 面向TP+AP业务的数据平台架构
2021年10月20日,Tapdata 创始人唐建法(TJ)受邀出席 DTCC 2021(中国数据库技术大会),并在企业数据中台设计与实践专场上,发表主旨演讲"Real Time Daa ...
- hadoop大数据技术架构详解
大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展.高效率.高可靠等优点越来越受到欢迎.这同时也带动了 ...
- 量化派基于Hadoop、Spark、Storm的大数据风控架构--转
原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人 ...
- SQLServer 可更新订阅数据在线架构更改(增加字段)方案
原文:SQLServer 可更新订阅数据在线架构更改(增加字段)方案 之前一直查找冲突发布和订阅数据不一致的原因,后来发现多少数据库升级引起,因为一直以来都是在发布数据库增加字段,订阅也会自动同步.在 ...
- 知名大厂如何搭建大数据平台&架构
今天我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图.通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小 ...
- Sentry 监控 - Snuba 数据中台架构(Data Model 简介)
系列 1 分钟快速使用 Docker 上手最新版 Sentry-CLI - 创建版本 快速使用 Docker 上手 Sentry-CLI - 30 秒上手 Source Maps Sentry For ...
随机推荐
- Git技法:.gitignore、移除暂存与撤销修改
1. .gitignore常见项目添加 1.1 .gitignore模板 .gitignore针对每个语言都有对应的模板,在GitHub创建项目时就可以选择(你可以在GitHub提供的.gitigno ...
- 记一次IIS网站启动不了的问题排查
今天清理了下机器中的IIS网站,将很久不用的网站都删除. 因为需要删除的比较多,正在使用的很少,就将网站全部删除了,然后准备重新添加需要用的. 在添加了网站后,点击启动按钮,发现网站启动不了,因为网站 ...
- css设置元素背景透明度的2种方式
更新记录 本文迁移自Panda666原博客,原发布时间:2021年7月9日. 设置元素的背景的透明度可以使用2种方式:方式1:opacity属性.方式2:使用rgba值.两种方式有一点差异,opaci ...
- MySQL-3-DML
DML 数据操作语言 插入insert 语法一:insert into 表名(列名,...)values(值1,...): 语法二:insert into 表名 set 列名=值,列名=值,... 插 ...
- 数字格式化的 js 库
数字格式化的 js 库 Numeral.js,是一个用于格式化数字和处理数字的 js 库. Tip:目前 Star 有 9.2k,5年以前就没有在更新.其文档写得不很清晰,比如它提供了多语言,但如何切 ...
- 叮,GitHub 到账 550 美元「GitHub 热点速览 v.22.26」
作者:HelloGitHub-小鱼干 如果你关注 GitHub 官方动态,你会发现它们最近频频点赞世界各地开发者晒出的 GitHub $550 sponsor 截图,有什么比"白嫖" ...
- UiPath存在图像Image Exists的介绍和使用
一.Image Exists的介绍 检查是否在指定的UI元素中找到图像,输出的是一个布尔值 二.Image Exists在UiPath中的使用 1. 打开设计器,在设计库中新建一个Sequence,为 ...
- 比我的脸还干的gan货——Python Flask Web 框架入门
Flask是一个轻量级的基于Python的web框架. 本文适合有一定HTML.Python.网络基础的同学阅读. 1. 简介 这份文档中的代码使用 Python 3 运行.是的,所以读者需要自己在电 ...
- cx_Oracle.DatabaseError: ORA-28759: failure to open file
找了好久这个问题,有人说是tcps的问题,需要自己生成证书什么的,后来才发现原来是 钱包文件路径 的问题,钱包文件解压后必须放在instantclien/network/admin下,在Windows ...
- [ERROR] Another process with pid 914 is using unix socket file.
mysql启动报错 1.首先到mysql的配置文件中,确定socket文件路径 vim /etc/my.cnf 2.删除mysql.sock.lock 3.启动mysql