Kylin 新定位:分析型数据仓库
亲爱的各位社区朋友:
Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器,一年后从孵化器毕业成为 Apache 顶级项目。从第一天起,Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来,Kylin 已经成为了大数据版图中一个不可或缺的角色,帮助了全球上千家企业进行高效的大数据分析。
经过五年的发展,如今回头看,我们发现 Kylin 已经不仅仅是一个 OLAP 分析引擎。它的完整能力已经被被广大社区用户证实超越了「OLAP Engine」的范畴,被广泛应用于不同的场景,扮演更加全面的角色:
- 当年 eBay 发起 Kylin 项目时,寄希望它能够将部分负载从昂贵的专有商业数据仓库如 Teradata 迁移到廉价、开放的大数据平台上。五年过去了,Kylin 凭借高性能和高可用性在 eBay 内部被广泛使用,而 Teradata 逐步被替换。今天,Kylin 在 eBay 每天服务数百万次查询,且大多数查询在 1 秒钟内完成。
- 美团、携程、京东、滴滴、小米、华为、丁香园,OLX 集团、汽车之家、Xactly 等许多公司都使用 Kylin 打造了他们的 DaaS(数据即服务)平台,为成千上万的分析师和租户提供数据服务。
- 一些微软 SSAS 的用户也正在逐步迁移到 Kylin 上,以承载更大的数据容量和获得更好的体验。
- 中国银联和某头部保险集团从 IBM Cognos 架构升级到 Hadoop + Kylin。因为分布式架构的优势,Kylin 对传统方案具备降维打击的能力,在某些场景中,一个 Kylin Cube 取代了数百个 Cognos Cube,不但管理运维的复杂度大大降低,并且具有更好的构建性能和查询性能。
- 建设银行、农业银行等已经使用 Kylin + Hadoop 来构建下一代大数据分析平台,解决扩容难和并发低的难题。
从这些用户案例可以看出,社区用户们不仅仅把 Kylin 当作功能单一的引擎使用,而是使用 Kylin 来替换传统分析型数据仓库的工作。下面我们就来看一下什么是数据仓库吧。
数据仓库的定义有很多,下面是一个广泛被接纳的定义【1】:A data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision-making process.
翻译一下就是:数据仓库是面向主题的、集成的、体现时间变化的,以及非易变的一组数据集合,以支持管理者做出关键决策。
对照到 Kylin 的能力:
- 在 Kylin 中,你可以为每个分析主题或场景,创建一个或多个OLAP Cube;每个 Cube 都是面向特定主题的。
- Kylin 与 Hadoop、 Hive、Spark、Kafka 等系统实现了无缝集成,你可以在大数据平台上很容易地使用它。这也是为什么 Kylin 很容易被接纳的原因之一。
- Kylin会按照时间来分区加载数据,构建 Cube,然后保存为片段(也称分区);对于维度表,Kylin 每次会生成快照。这些数据在分析过程中是稳定的,不会随意改变。
- 当你在分析(上滚、下钻等)过程中,Kylin 的数据是稳定一致的,所有层级的汇总结果都严格一致。
- Kylin 提供了 SQL 查询接口和 JDBC/ODBC/HTTP API,用户将其与 BI/可视化工具(如 Tableau 等)轻松连接。
从这里可以看出,Kylin 的实现,与数据仓库的关键特性不谋而合。事实上,当初设计 Kylin 的时候,团队也是受了数据仓库概念非常大的影响。
经过社区开发者们的不断努力,如今 Kylin 不再只是一个加速器,它提供了丰富完整的能力:友好的 Web 界面,向导式的设计器,自动化的任务生成和数据加载,高性能的查询和存储引擎,完善的 API 接口,完整的用户权限和安全控制等,结合 Hadoop 的分布式存储和计算框架,它已经足以构成一个完整的分析型数据仓库方案。在开源大数据技术中,Kylin 是独一无二的,融合了传统数据仓库的经典理论和大数据的前沿技术;它设计优雅,架构可扩展可插拔,能够适应从 GB 到 PB 甚至 EB 规模的数据。
2020 年 3 月,Kylin 社区通过讨论,决定将 Kylin 的标语从「Extreme OLAP Engine for Big Data」更改为 「Analytical Data Warehouse for Big Data」【2】,以更加准确地描述 Kylin 的能力和定位,也更容易地让用户通过搜索引擎检索到它,将它推介给更多用户,应用于更多场景中。
一路走来,感谢各位的贡献与支持,下一个五年,期待有更多创新!
史少锋
Apache Kylin PMC Chair
相关阅读:
【1】 https://walkerscott.co/2017/10/data-warehouse/
【2】 https://kylin.apache.org/
Kylin 新定位:分析型数据仓库的更多相关文章
- 星型数据仓库olap工具kylin介绍
星型数据仓库olap工具kylin介绍 数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每 ...
- 星型数据仓库olap工具kylin介绍和简单使用示例
本文转载自:https://www.cnblogs.com/hsydj/p/4515057.html 星型数据仓库olap工具kylin介绍 星型数据仓库olap工具kylin介绍 数据仓库是目前企业 ...
- 阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限
前言 近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数 ...
- 阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告 解读
前言近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型 ...
- 回首2018 | 分析型数据库AnalyticDB: 不忘初心 砥砺前行
题记 分析型数据库AnalyticDB(下文简称ADB),是阿里巴巴自主研发.唯一经过超大规模以及核心业务验证的PB级实时数据仓库.截止目前,现有外部支撑客户既包括传统的大中型企业和政府机构,也包括众 ...
- 【原创】大叔案例分享(4)定位分析--见证scala的强大
一 场景分析 定位分析广泛应用,比如室外基站定位,室内蓝牙beacon定位,室内wifi探针定位等,实现方式是三点定位 Trilateration 理想情况 这种理想情况要求3个基站‘同时’采集‘准确 ...
- AnalyticDB - 分析型数据库
https://yq.aliyun.com/teams/31?spm=5176.7937365.1120968.ee1.78505692UL9DhG 分析型数据库(AnalyticDB)是一种高并发低 ...
- 什么是分析型数据库PostgreSQL版
分析型数据库PostgreSQL版(原HybridDB for PostgreSQL)为您提供简单.快速.经济高效的 PB 级云端数据仓库解决方案.分析型数据库PostgreSQL版 兼容 Green ...
- 悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践
说到“大数据”,当下这个词很火,各行各业涉及到数据的,目前都在提大数据,提数据仓库,数据挖掘或者机器学习,但同时另外一个热门的名词也很火,那就是“云”.越来越多的企业都在搭建属于自己的云平台,也有一些 ...
随机推荐
- 【SpringBoot基础系列-实战】如何指定 bean 最先加载(应用篇)
[基础系列-实战]如何指定 bean 最先加载(应用篇) 在日常的业务开发中,绝大多数我们都是不关注 bean 的加载顺序,然而如果在某些场景下,当我们希望某个 bean 优于其他的 bean 被实例 ...
- Ubuntu 18 安装 cuda 10
1.把预先下好的cuda放到某个目录,如Download. 2.Crtl + Alt + F3 进入tty,使用tty登录. 关闭用户图形界面,sudo systemctl set-default m ...
- 免费开源的 HelloDjango 系列教程,结束还是开始?
作者:HelloGitHub-追梦人物 我们已经成功地开发了一个功能比较完备的个人博客,是时候来总结一下我们的工作了.博客系列完整的源代码地址: https://github.com/HelloGit ...
- 手动生成WebService代理类
方式一: 手动生成WebService代理类需要把一句生成语句,如 wsdl.exe /l:cs /out:D:/ProxyServices.cs http://localhost/WebServic ...
- 【Weiss】【第03章】练习3.17:懒惰删除
[练习3.17] 不同于我们已经给出的删除方法,另一种是使用懒惰删除的方法. 为了删除一个元素,我们只标记上该元素被删除的信息(使用一个附加的位域). 表中被删除和非被删除的元素个数作为数据结构的一部 ...
- Mybatis---在控制台打印sql语句
在mybatis主配置文件中mybatis.xml的<configuration>标签中加入 <settings> <setting name="logImpl ...
- IdentityServer4实现.Net Core API接口权限认证(快速入门)
什么是IdentityServer4 官方解释:IdentityServer4是基于ASP.NET Core实现的认证和授权框架,是对OpenID Connect和OAuth 2.0协议的实现. 通俗 ...
- wxPython4.0.4关于我们
源码地址:https://download.csdn.net/download/zy0412326/12154342 wxPython4改版后将AboutBox方特到adv包里面.如果想快速实现GUI ...
- Django 处理跨域的配置、前台处理ajax
一. Django处理跨域 跨域的处理方式有很多,使用最多的就是CORS(跨域资源共享),接下来大致提一下django中处理跨域的配置. 首先安装django-cors-headers模块: pip ...
- mysql字段数据类型、设置严格模式
表操作 今日内容 1.数据类型 建表的时候,字段都有对应的数据类型 整型 浮点型 字符类型(char与varchar) 日期类型 枚举与集合 2.约束条件 primary key unique key ...