Apache Kylin

日前，eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎：Kylin（http://kylin.io）。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案，Kylin成功将SQL接口与多维分析机制（OLAP）引入Hadoop，旨在对规模极为庞大的数据集加以支持。

背景信息

eBay公司当前面临的主要挑战在于，数据规模正随着用户群体的多样化拓展而水涨船高。我们的用户——比如在分析与业务部门当中希望能在保持最低延迟水平的前提下继续使用自己所熟悉的工具方案，例如Tableau与Excel。

有鉴于此，我们与公司内部的分析部门进行紧密合作，并勾勒出eBay眼中足以构成成功产品的基本要求：
1.数百亿数据行的查询延迟需要保持在次秒级别。
2.能够为使用SQL兼容性工具的用户提供ANSI SQL。
3.完整的OLAP方案以实现各类高级功能。
4.拥有对高基数与超大规模业务体系的支持能力。
5.面向成千上万用户的高并发性处理能力。
6.能够处理TB乃至PB级别分析任务的分布式横向扩展架构。

我们很快意识到，没有任何一种外部解决方案能够切实满足我们的具体要求——特别是在开源Hadoop社区当中。为了解决企业业务面临的这一系列紧急状况，我们决定从零开始自主打造一套平台。在优秀的技术团队与部分试点客户的通力配合之下，我们已经能够在将Kylin平台引入生产环境的同时、为其发布一套开源版本。

重点特性概述

Kylin 是一套卓越的平台方案，能够在大数据分析领域实现以下各项特性：

• 规模化环境下的极速OLAP引擎: Kylin的设计目的在于削减Hadoop环境中处理超过百亿行数据时的查询延迟时间。
• Hadoop上的ANSI SQL接口:Kylin能够在Hadoop之上提供ANSI SQL并支持大部分ANSI SQL查询功能。
•交互式查询功能:用户可以通过Kylin以秒级以下延迟水平实现与Hadoop数据的交互——在面对同一套数据集时，其性能表现优于Hive查询机制。
• 利用MOLAP cube（立方体）对数百亿行数据进行查询: 用户能够在Kylin当中定义一套数据模型对其进行预构建，其中所能包含的原始数据记录可超过百亿行。
• 与商务智能工具进行无缝化集成:Kylin目前能够与多种商务智能工具相集成，包括Tableau以及其它第三方应用程序。
• 开源ODBC驱动程序: Kylin的ODBC驱动程序从零开始逐步构建而成，而且能够与Tableau实现良好的协作效果。我们也已经对这部分驱动程序进行开源处理并发布至技术社区当中。

其它特性：

任务管理与监控机制
通过压缩与编码机制降低存储容量需求
cube的增量式更新
利用HBase协处理器实现查询延迟控制
对不同计数进行近似查询的能力（HyperLogLog）
提供易于使用的Web界面，旨在对cube进行管理、构建、监控与查询
cube/项目层面对ACL进行设置的安全功能
支持LDAP集成

基本设计思路

Kylin平台的设计思路其实并非全新产生。在过去三十年当中，已经有很多技术方案使用到同样的理论依据来实现分析流程加速。具体而言，此类技术包括将预先计算完成的结果保存起来以备分析查询、利用所有可能的维度组合为每个层级生成cuboid（基本方体）、或者是在不同层级上对全部指数进行计算。

下面这幅图片所示为cuboid的拓扑结构，供大家用作参考：

当数据规模变得越来越大时，预计算处理机制就会变得无法实现——即使硬件性能再强大也于事无补。不过在Hadoop强大的分布式计算能力支持下，计算任务能够借助成百上千个计算节点的总体资源。这就保证了Kylin能够以并发方式对这些计算任务进行处理，并通过合并生成最终结果——这能够显著降低整体处理时间。

从关系型到键-值型

下面举一个实例，假设Hive表当中所保存的几条记录代表着一套关系型结构。当其数据规模增长到极其巨大的水平时——例如上百亿甚至过万亿行数据——那么像“2010年我们在美国本土售出了多少套技术类方案”这样的简单问题也将带来涵盖巨大数据量的表内容扫描，给出应答的延时状况也会变得无法接受。由于每一次运行查询时所需要的值是固定的，因此我们完全可以预先进行计算并对结果加以存储、以备日后随时调用。这项技术被称为从关系型到键-值型（Relational to Key—Value，简称KV）处理。处理过程将生成所有维度组合并如下图所示将测得值显示出来——图片右侧为计算结果。图片的中间一列内容由左至右表示的是这类大规模数据处理流程中数据是如何由Map Reduce进行计算的。

Kylin的构建正是以这套理论为基础，而且在对大规模数据进行处理时充分发挥了Hadoop生态系统的强大能力:

1. 从Hive当中读取数据（这些数据被保存在HDFS之上）
2. 运行Map Reduce任务以实现预计算
3. 将cuba数据保存在HBase当中
4. 利用Zookeeper进行任务协调

架构

以下图表所示为Kylin的高层架构。

以上图表勾勒出Cube构建引擎（Cube Build Engine）是如何以离线处理方式将关系型数据转化成键-值型数据的。其中的黄线部分还表现出在线分析数据的处理流程。数据请求可以利用基于SQL的工具由SQL提交而产生，或者利用第三方应用程序通过Kylin的RESTful服务来实现。RESTful服务会调用Query Engine，后者则检测对应的目标数据集是否真实存在。如果确实存在，该引擎会直接访问目标数据并以次秒级延迟返回结果。如果目标数据集并不存在，该引擎则会根据设计将无匹配数据集的查询路由至Hadoop上的SQL处、即交由Hive等Hadoop集群负责处理。

以下为关于Kylin平台内所有组件的详细描述。

•元数据管理工具（Metadata Manager）: Kylin是一款元数据驱动型应用程序。元数据管理工具是一大关键性组件，用于对保存在Kylin当中的所有元数据进行管理，其中包括最为重要的cube元数据。其它全部组件的正常运作都需以元数据管理工具为基础。
•任务引擎（Job Engine）: 这套引擎的设计目的在于处理所有离线任务，其中包括shell脚本、Java API以及Map Reduce任务等等。任务引擎对Kylin当中的全部任务加以管理与协调，从而确保每一项任务都能得到切实执行并解决其间出现的故障。
•存储引擎（Storage Engine）: 这套引擎负责管理底层存储——特别是cuboid，其以键-值对的形式进行保存。存储引擎使用的是HBase——这是目前Hadoop生态系统当中最理想的键-值系统使用方案。Kylin还能够通过扩展实现对其它键-值系统的支持，例如Redis。
•REST Server: REST Server是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。
•ODBC驱动程序:为了支持第三方工具与应用程序——例如Tableau——我们构建起了一套ODBC驱动程序并对其进行了开源。我们的目标是让用户能够更为顺畅地采用这套Kylin平台。
•查询引擎（Query Engine）:当cube准备就绪后，查询引擎就能够获取并解析用户查询。它随后会与系统中的其它组件进行交互，从而向用户返回对应的结果。
在Kylin当中，我们使用一套名为Apache Calcite的开源动态数据管理框架对代码内的SQL以及其它插入内容进行解析。Calcite架构如下图所示。（Calcite最初被命名为Optiq，由Julian Hyde所编写，但如今已经成为Apache孵化器项目之一。）

Kylin在eBay公司中的应用

在对Kylin进行开源化处理的同时，我们已经在eBay公司的多个业务部门当中将其应用于生产实践。其中规模最大的用例就是对由120多亿条源记录所生成的超过14TB cube数据进行分析。90%的查询请求都能在5秒钟之内获取到返回结果。现在，我们拥有更多面向分析师以及业务用户的用例，他们能够访问这些分析机制并轻松通过Tableau仪表板获取相关结果——而不再需要借助Hive查询或者shell命令等复杂机制。

下一步发展规划

• 在高基数维度上支持TopN算法（即对大量对象进行排序并从中选取前N位结果）:目前的MOLAP技术在高基数维度上进行查询时的表现尚算不上完美——例如对单一列中的数百万个不同值进行TopN运算。

与各类搜索引擎类似（正如众多研究人员所指出），倒排索引是此类预构建结果的理想匹配机制。
• 支持混合OLAP(简称HOLAP):MOLAP在历史数据查询领域拥有出色的实际表现，但由于越来越多数据需要以实时方式加以处理，因此我们需要尽快将实时/近实时处理结果与历史结果结合起来、以作为业务决策中的参考信息。很多内存内技术方案已经能够以关系型OLAP（简称ROLAP）的方式满足上述需求。而Kylin的下一代版本将成为混合OLAP（简称HOLAP），即结合MOLAP与ROLAP双方的优势以带来单一一套面向前端查询的入口点方案。

开源

Kylin已经以开源姿态被交付至技术社区。为了以Kylin为核心发展出更为强大的生态系统，我们目前正提议将Kylin转化为Apache孵化器项目。在Owen O’Malley（Hortonworks公司联合创始人兼Apache成员）与Julian Hyde（Apache Calcite缔造者，目前供职于Hortonworks公司）等Hadoop开发者社区支持者的鼎力协助，我们相信Kylin足以乘开源社区这股强劲的东风顺利跨入新的纪元。

我们欢迎大家加入到Kylin贡献者阵营中来，感兴趣的朋友请点击以下链接以访问Kylin网站并获取更多详尽信息：http://kylin.io.

作为起步，大家并不一定马上就要对核心代码库进行开源贡献，从以下方面着手也是不错的选择：

1. Shell客户端
2. RPC服务器
3. 任务调度
4. 工具

要获取更多细节信息或者进一步探讨上述议题，大家可以在twitter上关注我们@KylinOLAP或者加入我们的谷歌群组：

https://groups.google.com/forum/#!forum/kylin-‐olap

总结

Kylin已经在eBay公司内部融入生产环境，专门负责处理规模极端庞大的数据集。这套平台拥有显著的性能优势，实践证明其能够帮助分析师们轻松借助自己所为熟悉的工具对Hadoop当中的数据进行充分利用。我们也乐于推出Kylin的开源版本。欢迎大家给出自己的反馈与建议，我们期待着您参与到这个开源大家庭中来。

Apache Kylin的更多相关文章

《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
Apache Kylin 部署之不完全指南
1. 引言 Apache Kylin(麒麟)是由eBay开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据.底层存储用的是HBase,数据输入与cu ...
【转】使用Apache Kylin搭建企业级开源大数据分析平台
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...
大数据分析神兽麒麟(Apache Kylin)
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...
【大数据安全】Apache Kylin 安全配置(Kerberos)
1. 概述本文首先会简单介绍Kylin的安装配置,然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin. Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spa ...
Apache kylin概览
一.Apache kylin的核心概念表(Table ):表定义在hive中,是数据立方体(Data cube)的数据源,在build cube 之前,必须同步在 kylin中. 模型(model) ...
apache kylin的单节点及多节点安装
Kylin的使用安装文档Kylin简介Kylin是什么Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区.它提供Hadoop之上的SQL查询接口及多维分析(OLAP) ...
Apache kylin 入门
本篇文章就概念.工作机制.数据备份.优势与不足4个方面详细介绍了Apache Kylin. Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎.它通过 ...
Apache kylin进阶——元数据篇
一.Apache kylin元数据的存储 Apache kylin的元数据包括立方体描述(cube description),立方体实例(cube instances)项目(project).作业( ...
Apache kylin的基础环境
一.Apache kylin的基础环境由于Apache kylin上的OLAP(wiki:OLAP)是构建在hadoop生态环境上的,所以hadoop环境的稳定性和健壮性对kylin的稳定运行至关重 ...

随机推荐

JSONModel的基本使用
JSONModel 是一个库,它能智能并且快速的创建出数据 model,你可以在你的 iOS 项目或者 OSX 项目上使用它. 使用前准备添加 JSONModel 到你的工程中 1.需要的环境: A ...
iOS6以后的单个控制器横竖屏显示以及旋转屏控制技巧，附带iOS8以后显示电池状态栏
一.在应用中从竖屏模式强制转换为横屏模式第一种方法:通过模态弹出视图的方式,使得特定ViewController坚持特定的interfaceOrientation(1)iOS6之后提供了这样一个方法 ...
Java----多线程知识点归纳（概念）
一.线程与进程的区别: 多个进程的内部数据和状态都是完全独立的,而多线程是共享一块内存空间和一组系统资源,有可能互相影响. ?线程本身的数据通常只有寄存器数据,以及一个程序执行时使用的堆栈,所以线程 ...
连接池dbcp pool
-package cn.gdpe.pool; import java.io.InputStream;import java.sql.Connection;import java.sql.Prepare ...
saiku
1.saiku下载http://community.meteorite.bi/可以下载各个版本的源代码 2.下载到 saiku-latest.zip 3.解压运行比较简单解压出来的目录: ...
安装完 MySQL 后必须调整的 10 项配置
原文出处: mysqlperformanceblog 译文出处:开源中国欢迎分享原创到伯乐头条当我们被人雇来监测MySQL性能时,人们希望我们能够检视一下MySQL配置然后给出一些提高建议 ...
eclipse中show whitespace characters显示代码空格，TAB，回车导致代码乱恶心
Eclipse中show whitespace characters显示回车.空格符. 取消此功能的第二种方式:
C# 窗体靠近屏幕边缘自动隐藏*学习（类似于QQ）
using System; using System.Collections.Generic; using System.Drawing; using System.Windows.Forms; us ...
ICE学习第二步-----从第一个程序了解ICE（HelloWorld）
ICE(Internet Communications Engine)是一种面向对象的中间件平台,主要用于网络通讯.它为面向对象的“客户端-服务器”模型的应用提供了一组很好的工具和API接口.目前在全 ...
sphinx（coreseek）——1、增量索引
首先介绍一下 CoreSeek/Sphinx的发布包 indexer: 用于创建全文索引; search: 一个简单的命令行(CLI) 的测试程序,用于测试全文索引; search ...

Apache Kylin

背景信息

Apache Kylin的更多相关文章

随机推荐

热门专题