亲爱的各位社区朋友:

Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器,一年后从孵化器毕业成为 Apache 顶级项目。从第一天起,Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来,Kylin 已经成为了大数据版图中一个不可或缺的角色,帮助了全球上千家企业进行高效的大数据分析。

经过五年的发展,如今回头看,我们发现 Kylin 已经不仅仅是一个 OLAP 分析引擎。它的完整能力已经被被广大社区用户证实超越了「OLAP Engine」的范畴,被广泛应用于不同的场景,扮演更加全面的角色:

  1. 当年 eBay 发起 Kylin 项目时,寄希望它能够将部分负载从昂贵的专有商业数据仓库如 Teradata 迁移到廉价、开放的大数据平台上。五年过去了,Kylin 凭借高性能和高可用性在 eBay 内部被广泛使用,而 Teradata 逐步被替换。今天,Kylin 在 eBay 每天服务数百万次查询,且大多数查询在 1 秒钟内完成。
  2. 美团、携程、京东、滴滴、小米、华为、丁香园,OLX 集团、汽车之家、Xactly 等许多公司都使用 Kylin 打造了他们的 DaaS(数据即服务)平台,为成千上万的分析师和租户提供数据服务。
  3. 一些微软 SSAS 的用户也正在逐步迁移到 Kylin 上,以承载更大的数据容量和获得更好的体验。
  4. 中国银联和某头部保险集团从 IBM Cognos 架构升级到 Hadoop + Kylin。因为分布式架构的优势,Kylin 对传统方案具备降维打击的能力,在某些场景中,一个 Kylin Cube 取代了数百个 Cognos Cube,不但管理运维的复杂度大大降低,并且具有更好的构建性能和查询性能。
  5. 建设银行、农业银行等已经使用 Kylin + Hadoop 来构建下一代大数据分析平台,解决扩容难和并发低的难题。

从这些用户案例可以看出,社区用户们不仅仅把 Kylin 当作功能单一的引擎使用,而是使用 Kylin 来替换传统分析型数据仓库的工作。下面我们就来看一下什么是数据仓库吧。

数据仓库的定义有很多,下面是一个广泛被接纳的定义【1】:A data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision-making process.

翻译一下就是:数据仓库是面向主题的、集成的、体现时间变化的,以及非易变的一组数据集合,以支持管理者做出关键决策。

对照到 Kylin 的能力:

  1. 在 Kylin 中,你可以为每个分析主题或场景,创建一个或多个OLAP Cube;每个 Cube 都是面向特定主题的。
  2. Kylin 与 Hadoop、 Hive、Spark、Kafka 等系统实现了无缝集成,你可以在大数据平台上很容易地使用它。这也是为什么 Kylin 很容易被接纳的原因之一。
  3. Kylin会按照时间来分区加载数据,构建 Cube,然后保存为片段(也称分区);对于维度表,Kylin 每次会生成快照。这些数据在分析过程中是稳定的,不会随意改变。
  4. 当你在分析(上滚、下钻等)过程中,Kylin 的数据是稳定一致的,所有层级的汇总结果都严格一致。
  5. Kylin 提供了 SQL 查询接口和 JDBC/ODBC/HTTP API,用户将其与 BI/可视化工具(如 Tableau 等)轻松连接。

从这里可以看出,Kylin 的实现,与数据仓库的关键特性不谋而合。事实上,当初设计 Kylin 的时候,团队也是受了数据仓库概念非常大的影响。

经过社区开发者们的不断努力,如今 Kylin 不再只是一个加速器,它提供了丰富完整的能力:友好的 Web 界面,向导式的设计器,自动化的任务生成和数据加载,高性能的查询和存储引擎,完善的 API 接口,完整的用户权限和安全控制等,结合 Hadoop 的分布式存储和计算框架,它已经足以构成一个完整的分析型数据仓库方案。在开源大数据技术中,Kylin 是独一无二的,融合了传统数据仓库的经典理论和大数据的前沿技术;它设计优雅,架构可扩展可插拔,能够适应从 GB 到 PB 甚至 EB 规模的数据。

2020 年 3 月,Kylin 社区通过讨论,决定将 Kylin 的标语从「Extreme OLAP Engine for Big Data」更改为 「Analytical Data Warehouse for Big Data」【2】,以更加准确地描述 Kylin 的能力和定位,也更容易地让用户通过搜索引擎检索到它,将它推介给更多用户,应用于更多场景中。

一路走来,感谢各位的贡献与支持,下一个五年,期待有更多创新!

史少锋

Apache Kylin PMC Chair

相关阅读:

【1】 https://walkerscott.co/2017/10/data-warehouse/

【2】 https://kylin.apache.org/

了解更多大数据资讯,点击进入Kyligence官网

Kylin 新定位:分析型数据仓库的更多相关文章

  1. 星型数据仓库olap工具kylin介绍

    星型数据仓库olap工具kylin介绍 数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每 ...

  2. 星型数据仓库olap工具kylin介绍和简单使用示例

    本文转载自:https://www.cnblogs.com/hsydj/p/4515057.html 星型数据仓库olap工具kylin介绍 星型数据仓库olap工具kylin介绍 数据仓库是目前企业 ...

  3. 阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限

    前言 近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数 ...

  4. 阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告 解读

    前言近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型 ...

  5. 回首2018 | 分析型数据库AnalyticDB: 不忘初心 砥砺前行

    题记 分析型数据库AnalyticDB(下文简称ADB),是阿里巴巴自主研发.唯一经过超大规模以及核心业务验证的PB级实时数据仓库.截止目前,现有外部支撑客户既包括传统的大中型企业和政府机构,也包括众 ...

  6. 【原创】大叔案例分享(4)定位分析--见证scala的强大

    一 场景分析 定位分析广泛应用,比如室外基站定位,室内蓝牙beacon定位,室内wifi探针定位等,实现方式是三点定位 Trilateration 理想情况 这种理想情况要求3个基站‘同时’采集‘准确 ...

  7. AnalyticDB - 分析型数据库

    https://yq.aliyun.com/teams/31?spm=5176.7937365.1120968.ee1.78505692UL9DhG 分析型数据库(AnalyticDB)是一种高并发低 ...

  8. 什么是分析型数据库PostgreSQL版

    分析型数据库PostgreSQL版(原HybridDB for PostgreSQL)为您提供简单.快速.经济高效的 PB 级云端数据仓库解决方案.分析型数据库PostgreSQL版 兼容 Green ...

  9. 悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践

    说到“大数据”,当下这个词很火,各行各业涉及到数据的,目前都在提大数据,提数据仓库,数据挖掘或者机器学习,但同时另外一个热门的名词也很火,那就是“云”.越来越多的企业都在搭建属于自己的云平台,也有一些 ...

随机推荐

  1. flask 链接mysql数据库 小坑

    #config.py MYSQL_NAME = 'root' MYSQL_PASSWORD = 'zyms90bdcs' MYSQL_HOST = 'xxxx' MYSQL_POST = ' MYSQ ...

  2. 基于osg的python三维程序开发(三)------几何形体及纹理

    def createScene(): geode = osg.Geode() pointsGeom = osg.Geometry() vertices = osg.Vec3Array() vertic ...

  3. BFC块级格式上下文介绍

    块级格式上下文(Block formatting context) 什么是BFC? 块格式化上下文(block formatting context) 是页面 CSS视觉渲染的一部分.它是用于决定块盒 ...

  4. 记Android R(SDK=30)系统执行UiAutomator1.0异常

    最近Android发布了AndroidStudio 3.6稳定版,升级后明显能体验到好多细节的提升,最大的提升莫过于可以创建Android R预览版的模拟器了,并且模拟器可以设置多个尺寸的屏幕.And ...

  5. 0919-The Standard of Code Review

    The primary purpose of code review is to make sure that the overall code health of Google’s code bas ...

  6. java常用日期类总结

    java 常用的日期类有三个Date.SimpleDateFormat.Calendar

  7. Dubbo之服务消费原理

    前言 上篇文章<Dubbo之服务暴露>分析 Dubbo 服务是如何暴露的,本文接着分析 Dubbo 服务的消费流程.主要从以下几个方面进行分析:注册中心的暴露:通过注册中心进行服务消费通知 ...

  8. python中可变长度参数详解

    1. *args用法:python会将所有位置的参数收集到一个元组中 2. **args用法:python会将关键字参数传递给一个新的字典.**允许将关键字参数转换为字典 用法见如下代码: def f ...

  9. 关于 RuntimeBinderException 异常

    Microsoft.CSharp.RuntimeBinder.RuntimeBinderException的异常一般来自于两种: 第一种情况: Predefined type 'Microsoft.C ...

  10. 《前端之路》- TypeScript (四) class 中各类属性、方法,抽象类、多态

    目录 一.TypeScript 中的类 二.TypeScript 中类的继承 三.TypeScript 中公共,私有与受保护的修饰符 3-1.属性的 public 3-2.属性的 private 3- ...