Kylin 新定位：分析型数据仓库

亲爱的各位社区朋友：

Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器，一年后从孵化器毕业成为 Apache 顶级项目。从第一天起，Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来，Kylin 已经成为了大数据版图中一个不可或缺的角色，帮助了全球上千家企业进行高效的大数据分析。

经过五年的发展，如今回头看，我们发现 Kylin 已经不仅仅是一个 OLAP 分析引擎。它的完整能力已经被被广大社区用户证实超越了「OLAP Engine」的范畴，被广泛应用于不同的场景，扮演更加全面的角色：

当年 eBay 发起 Kylin 项目时，寄希望它能够将部分负载从昂贵的专有商业数据仓库如 Teradata 迁移到廉价、开放的大数据平台上。五年过去了，Kylin 凭借高性能和高可用性在 eBay 内部被广泛使用，而 Teradata 逐步被替换。今天，Kylin 在 eBay 每天服务数百万次查询，且大多数查询在 1 秒钟内完成。
美团、携程、京东、滴滴、小米、华为、丁香园，OLX 集团、汽车之家、Xactly 等许多公司都使用 Kylin 打造了他们的 DaaS（数据即服务）平台，为成千上万的分析师和租户提供数据服务。
一些微软 SSAS 的用户也正在逐步迁移到 Kylin 上，以承载更大的数据容量和获得更好的体验。
中国银联和某头部保险集团从 IBM Cognos 架构升级到 Hadoop + Kylin。因为分布式架构的优势，Kylin 对传统方案具备降维打击的能力，在某些场景中，一个 Kylin Cube 取代了数百个 Cognos Cube，不但管理运维的复杂度大大降低，并且具有更好的构建性能和查询性能。
建设银行、农业银行等已经使用 Kylin + Hadoop 来构建下一代大数据分析平台，解决扩容难和并发低的难题。

从这些用户案例可以看出，社区用户们不仅仅把 Kylin 当作功能单一的引擎使用，而是使用 Kylin 来替换传统分析型数据仓库的工作。下面我们就来看一下什么是数据仓库吧。

数据仓库的定义有很多，下面是一个广泛被接纳的定义【1】：A data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision-making process.

翻译一下就是：数据仓库是面向主题的、集成的、体现时间变化的，以及非易变的一组数据集合，以支持管理者做出关键决策。

对照到 Kylin 的能力:

在 Kylin 中，你可以为每个分析主题或场景，创建一个或多个OLAP Cube；每个 Cube 都是面向特定主题的。
Kylin 与 Hadoop、 Hive、Spark、Kafka 等系统实现了无缝集成，你可以在大数据平台上很容易地使用它。这也是为什么 Kylin 很容易被接纳的原因之一。
Kylin会按照时间来分区加载数据，构建 Cube，然后保存为片段(也称分区)；对于维度表，Kylin 每次会生成快照。这些数据在分析过程中是稳定的，不会随意改变。
当你在分析(上滚、下钻等)过程中，Kylin 的数据是稳定一致的，所有层级的汇总结果都严格一致。
Kylin 提供了 SQL 查询接口和 JDBC/ODBC/HTTP API，用户将其与 BI/可视化工具（如 Tableau 等）轻松连接。

从这里可以看出，Kylin 的实现，与数据仓库的关键特性不谋而合。事实上，当初设计 Kylin 的时候，团队也是受了数据仓库概念非常大的影响。

经过社区开发者们的不断努力，如今 Kylin 不再只是一个加速器，它提供了丰富完整的能力：友好的 Web 界面，向导式的设计器，自动化的任务生成和数据加载，高性能的查询和存储引擎，完善的 API 接口，完整的用户权限和安全控制等，结合 Hadoop 的分布式存储和计算框架，它已经足以构成一个完整的分析型数据仓库方案。在开源大数据技术中，Kylin 是独一无二的，融合了传统数据仓库的经典理论和大数据的前沿技术；它设计优雅，架构可扩展可插拔，能够适应从 GB 到 PB 甚至 EB 规模的数据。

2020 年 3 月，Kylin 社区通过讨论，决定将 Kylin 的标语从「Extreme OLAP Engine for Big Data」更改为「Analytical Data Warehouse for Big Data」【2】，以更加准确地描述 Kylin 的能力和定位，也更容易地让用户通过搜索引擎检索到它，将它推介给更多用户，应用于更多场景中。

一路走来，感谢各位的贡献与支持，下一个五年，期待有更多创新！

史少锋

Apache Kylin PMC Chair

相关阅读：

【1】 https://walkerscott.co/2017/10/data-warehouse/

【2】 https://kylin.apache.org/

了解更多大数据资讯，点击进入Kyligence官网

Kylin 新定位：分析型数据仓库的更多相关文章

星型数据仓库olap工具kylin介绍
星型数据仓库olap工具kylin介绍数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每 ...
星型数据仓库olap工具kylin介绍和简单使用示例
本文转载自:https://www.cnblogs.com/hsydj/p/4515057.html 星型数据仓库olap工具kylin介绍星型数据仓库olap工具kylin介绍数据仓库是目前企业 ...
阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限
前言近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数 ...
阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告解读
前言近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型 ...
回首2018 | 分析型数据库AnalyticDB: 不忘初心砥砺前行
题记分析型数据库AnalyticDB(下文简称ADB),是阿里巴巴自主研发.唯一经过超大规模以及核心业务验证的PB级实时数据仓库.截止目前,现有外部支撑客户既包括传统的大中型企业和政府机构,也包括众 ...
【原创】大叔案例分享（4）定位分析--见证scala的强大
一场景分析定位分析广泛应用,比如室外基站定位,室内蓝牙beacon定位,室内wifi探针定位等,实现方式是三点定位 Trilateration 理想情况这种理想情况要求3个基站‘同时’采集‘准确 ...
AnalyticDB - 分析型数据库
https://yq.aliyun.com/teams/31?spm=5176.7937365.1120968.ee1.78505692UL9DhG 分析型数据库(AnalyticDB)是一种高并发低 ...
什么是分析型数据库PostgreSQL版
分析型数据库PostgreSQL版(原HybridDB for PostgreSQL)为您提供简单.快速.经济高效的 PB 级云端数据仓库解决方案.分析型数据库PostgreSQL版兼容 Green ...
悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践
说到“大数据”,当下这个词很火,各行各业涉及到数据的,目前都在提大数据,提数据仓库,数据挖掘或者机器学习,但同时另外一个热门的名词也很火,那就是“云”.越来越多的企业都在搭建属于自己的云平台,也有一些 ...

随机推荐

【S2-053】Struts2远程命令执行漏洞（CVE-2017-12611）
继S2-052之后,Apache Struts 2再次被曝存在远程代码执行漏洞,漏洞编号S2-053,CVE编号CVE-2017-1000112. 当开发人员在Freemarker标签中使用错误的构造 ...
React-redux: React.js 和 Redux 架构的结合
通过Redux 架构理解我们了解到 Redux 架构的 store.action.reducers 这些基本概念和工作流程.我们也知道了 Redux 这种架构模式可以和其他的前端库组合使用,而 Rea ...
unittest测试框架详解
单元测试的定义 1. 什么是单元测试? 单元测试是指,对软件中的最小可测试单元在与程序其他部分相隔离的情况下进行检查和验证的工作,这里的最小可测试单元通常是指函数或者类,一般是开发来做的,按照测试 ...
因为我说：volatile 是轻量级的 synchronized，面试官让我回去等通知！
因为我说:volatile 是轻量级的 synchronized,面试官让我回去等通知! volatile 是并发编程的重要组成部分,也是面试常被问到的问题之一.不要向小强那样,因为一句:volati ...
使用EPX Studio 7.0 下载网站验证码
implementation var Document_: DispHTMLDocument; //用于处理网页文档对象 EPX: IExcelPanelXDisp; procedure TForm1 ...
解决Tomcat控制台输出乱码问题
解决Tomcat控制台输出乱码问题打开Edit Configuration,在VM options一栏输入 -Dfile.encoding=UTF-8 然后到IDEA的bin目录找到 idea64. ...
oracle去除重复数据与oracle分页
一.去除oracle中重复数据,可以使用rowid列,rowid列是一个伪列,该列在数据库中灭一个表中都有,但是我们查询数据库的时候,默认都没有给我们返回这一列,这一列用来区分数据库中的每一行时间,可 ...
CBV和APIView源码分析
CBV源码分析查看源码的方式,先查看自身,没有去找父类,父类没有就去找父父类... 自己定义的类 class Author(View): def get(self,request): back_di ...
JDBC（四）----数据库连接池
## 数据库连接池 * 概念:其实就是一个容器(集合) * 当系统初始化好后,容器被创建,容器中会申请一些连接对象,当用户来访问数据库时,从容器中获取连接对象,用户访问完之后会将连接对象归还给容 ...
[最短路,floyd] Codeforces 1202B You Are Given a Decimal String...
题目:http://codeforces.com/contest/1202/problem/B B. You Are Given a Decimal String... time limit per ...

Kylin 新定位：分析型数据仓库

Kylin 新定位：分析型数据仓库的更多相关文章

随机推荐

热门专题