【转】使用Apache Kylin搭建企业级开源大数据分析平台

http://www.thebigdata.cn/JieJueFangAn/30143.html

　本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录：使用Apache Kylin搭建企业级开源大数据分析平台。

　　正文如下

　　我先做一个简单介绍我叫史少锋，我曾经在IBM、eBay做过大数据、云架构的开发，现在是Kyligence的技术合伙人。

　　Kylin是这两年在国内发展非常快的开源大数据项目。今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin，应主办方邀请，今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享。

　　这是我今天的议程，分两部分。

　　前半部分：

　　针对Kylin的初级和入门用户介绍Kylin项目的由来以及技术核心。

　　后半部分：

　　介绍如何基于Kylin构建开源大数据分析平台，把Hadoop数据平台和业务分析系统连接起来。

　　Kylin(麒麟)是什么?我们听到过有麒麟芯片、麒麟OS等等，我们这个全名是叫Apache Kylin，是一个大数据分析的项目。

　　从名字上或许可以猜到，它来自中国，的确这也是我们想让世界知道的，有一群来自中国的工程师在向Hadoop贡献着这样一个独特的项目。

　　Apache Kylin 是在Hadoop之上的分布式的大数据分析引擎，它对外暴露的是标准SQL接口，支持TB到PB量级的数据，以秒级甚至亚秒级的时间返回响应。

　　任何一个项目的诞生都有一定的背景和原因。

　　今天我们看到越来越多的企业正在使用Hadoop，正在把Hadoop作为他们的基础平台来管理和分析数据。

　　但是，企业在使用Hadoop的时候，往往发现有一个很大的Gap：

　　一方面，现有的分析系统或分析工具，不能很好支持Hadoop; Hadoop上的数据的体量是远远超过传统单机或者传统关系型数据库的体量，原有的系统接入Hadoop根本无法承受这么大的数据量。

　　此外这些遗留系统当初设计的时候就不是一个分布式的架构，没办法水平地扩容。

　　另一方面，对于数据使用者或者分析师，让他们直接使用Hadoop，写MapReduce或者Spark的任务，是难以接受的。此外，Hadoop主要是用于做批量运算，通常需要几十分钟，最快也要几分钟，对于分析人员来说很难有一个好的使用体验;等几分钟才能看到结果数据，大大影响了他们的工作效率。

　　这个问题当年就是在eBay内部就被提出来，为此专门成立了一个项目。

　　2013年的时候，Kylin项目的创始人韩卿(Luke)，授命带着工程师研究这个难题，经过不断的尝试和摸索，Kylin探索出了在Hadoop之上做预计算、做Cube这条路线，这是之前没有人尝试过的。

　　最终这个项目在2014年10月在Github开源。一个月之后项目被Apache接受成为其一个孵化器项目。

　　2015年11月份，经过Apache软件基金会(ASF)的投票，Kylin正式毕业，称为其大数据领域的一个顶级项目。值得一提的是，2015年的9月，Kylin获得了美国InfoWorld评选的最佳开源大数据工具奖，同时获奖的还有Spark、Storm、Kafka等知名项目。

　　2016年3月, 由Apache Kylin主要开发人员组成的公司Kyligence成立，致力于Kylin在业界的推广和使用。

　　前面讲的是Kylin发展的历史，接下来讲一下Kylin核心技术。

　　做过BI分析的人，对Cube都会有概念，就是用空间换时间。通过预计算把用户需要查询的维度以及他们所对应的考量的值，存储在多维空间里。

　　当用户查询某几个维度的时候，通过这些维度条件去定位到预计算的向量空间，通过再聚合处理，快速返回最终结果给用户。

　　所不同的是，Kylin的cube不是单一维度的组合，而是所有组合都可以计算。N个维度的完整Cube，会有2的N次方种组合。

　　Kylin架构是这样的，首先要求用户把数据放在Hadoop上，通过Hive管理，用户在Kylin中进行数据建模以后，Kylin会生成一系列的MapReduce任务来计算Cube，算好的Cube最后以K-V的方式存储在HBase中。

　　分析工具发送标准SQL查询,Kylin将它转换成对HBase的Scan，快速查到结果返回给请求方。

　　Cube是怎么计算出来的?

　　这是在1.5之前版本中的的算法，也叫逐层算法。它会启动N+1轮MapReduce计算。

　　第一轮读取原始数据，去掉不相关的列，只保留相关的。同时对维度列进行压缩编码;以此处的四维Cube为例，经过第一轮计算出ABCD组合，我们也称为Base Cuboid;

　　此后的每一轮MapReduce，输入是上一轮的输出，以重用之前计算的结果，去掉要聚合的维度，算出新的Cuboid。以此往上，直到最后算出所有的Cuboid。

　　Cube在Storage上是怎么存储的?

　　星形模型会先被拉成一张平表， Dimension的值拼接在一起，后面接着是Metrics。为了标示这是哪几个维度的组合，会在行的开始加上Cuboid ID。最后，Cuboid ID + dimensions会被用作Rowkey，Metrics会作为Value放到Column中。

　　查询的时候，SQL语句被SQL解析器翻译成一个解释计划，从这个计划可以准确知道用户要查哪些表，它们是怎样join起来，有哪些过滤条件等等。Kylin会用这个计划去匹配寻找合适的Cube。

　　如果有Cube命中，这个计划会发送到存储引擎，翻译成对存储(默认HBase)相应的Scan操作。Groupby和过滤条件的列，用来找到Cuboid，过滤条件会被转换成Scan的开始和结束值，以缩小Scan的范围; Scan的result，Rowkey会被反向解码成各个dimension的值，Value会被解码成Metrics值。

　　接下来介绍Kylin的企业级特性;Kylin的特性比较多，这里就不一一列举，主要讲一下对企业比较友好的特性。

　　首先，毋庸置疑, Kylin对外暴露的是标准的SQL，支持大多数的SELECT语法，可以把各种工具和系统直接对接进来。这意味着当您使用Kylin的时候，不需要对业务系统做额外的改动。

　　第二，Kylin提供了各种接入方式，如ODBC、JDBC; 如果您的系统不使用这两种方式，还可以使用RESTful API查询。

　　Kylin架构天生就非常适合Scale out，当查询量上升，单节点不能满足的时候，只需要相应增加Kylin的节点就可以满足。

　　针对企业对安全的要求，我们有不同力度做安全控制。Kylin有不同用户角色做不同的事情，此外在project和cube层级可以定义ACL帮助在更细力度掌控对cube的使用。

　　企业通常会使用目录服务来管理用户和群组，Kylin支持LDAP认证登录;如果对安全有更高的要求，Kylin还支持了基于SAML的单点登录(SingleSign-On)，只要做一些配置就可以完成，不需要额外开发。

　　Kylin提供了丰富的RESTful API，非常方便从用各种已有系统，如任务调度，监控等接入Kylin。Kylin的Web UI做到的事情通过API都可以做到。我们看到网易、美团等在Kylin之上开做了封装，跟他们各自的BI做深度的融合，就是利用了这个特性。

　　怎么样用Kylin来构建大数据的分析平台?

　　很简单。Kylin部署和安装是非常方便的，我们称为非侵入式的安装。如果你已经有一套Hadoop，安装Kylin，只要增加一台机器，下载Kylin安装包运行就可以了，Kylin使用标准Hadoop API跟各种组件通信，不需要对现有的Hadoop安装额外的agent。

　　架构上就是个分层的结构，最底层是数据，放置在HDFS，其上是Hadoop层，需要有HBase、 Hive， MapReduce等。Kylin运行中Hadoop之上，安装好了之后，业务系统连入Kylin，Kylin把压力分布到Hadoop上做计算和查询。

　　有四种典型的部署架构，分别从简单到复杂。

　　第一种， Single instance的部署，通常一两天就可以完成。首先要有Hadoop，版本在2.4或以上。加一台Hadoop客户机，下载Kylin，即可一键启动。建模人员通过Kylin Web登录，进行建模和cube的创建。业务分析系统或者工具发SQL到Kylin，Kylin查询Cube返回结果。

　　这种部署最大特点是简单;缺点也很明显: Kylin是单点，并发请求上来的时候它会成为瓶颈，所以需要Cluster的部署。

　　Kylin部署到Cluster非常简单，只需要增加Kylin的节点数，因为Kylin的metadata也是存储在HBase，只需要让它们用同一张metadata表就可以组成cluster 。通常在这个时候会用LDAP来管理用户权限。

　　为了将负载分布到Kylin cluster, 需要建立一个Load Balancer(负载均衡器). 在LB这里可以启用SSL加密，申请域名，还可以安装防火墙，对外只暴露LB的地址和端口，确保Hadoop和Kylin在网络上对外是隔离的。

　　业务系统和用户通过LB的地址访问Kylin。这样的部署，Kylin将不是单点，一个节点失效，不会影响业务分析。是不是这样就完美了呢?也不是。

　　Kylin非常适合于做读写分离，原因是Kylin的工作负载有两种：

　　前者是Cube的计算，它是批量的、延时很长的计算，有密集的CPU和IO;

　　后者是在线的计算，是只读的，因为面向用户，它要求低延迟。Cube计算的过程会对集群带来很大的负载，从而产生噪音;所以我们有充足的理由进行读写分析。

　　Kylin很容易做到这一点，你可以把HBase单独部署成一个集群，在部署Kylin的节点上，hadoop 配置指向运算的集群，Hbase的配置指向HBase集群。通过这样的部署，可以确保Hbase的查询可以在很短时间完成，而计算集群可以跟公司其它部门分享。

　　现在目前Kylin使用中估计99%的情况是前面三种部署。还有一种更高级的部署是Staging和Prod多环境的部署。

　　在一个大的企业里，往往需要多套环境，用于测试，生产等不同目的。

　　举例来说，新用户上到Kylin来的时候，最初他对cube不是很了解，可能创建了一个设计不是很好的cube，导致产生大量的不必要的运算，或者查询花了很长时间。我们不希望这样的情况发生在生产环境，对其它业务造成影响，所以会建立一个staging，或者称为QA的环境。

　　新用户必须先走staging环境创建和调优cube，直到cube性能达到要求，数据膨胀率也在一个可控范围内，这时候由用户提出请求，由Kylin专家来做一个审核，审核通过后，再允许这个cube被迁移到生产环境。

　　这里Kylin提供了一个工具，几分钟就可以讲一个Cube从一个环境迁移到另一个环境，不需要在新环境中重新build。在生产环境的Cube，将不允许修改，只能做增量的build 。

　　这样做Staging和Prod分离，Prod中的cube都是经过专家的审核的，所以将是非常稳定的，里面的每个cube都是有据可循的。

　　这就是关于Kylin的部署的分享。

　　到今天Kylin已经有了很多的使用案例，这里简单列一些已知的。最早是在eBay，国内有京东、运营、美团、中国移动(包括广东移动和北京移动)，还有微软。

　　以上是今天的分享，谢谢大家。

【转】使用Apache Kylin搭建企业级开源大数据分析平台的更多相关文章

使用Apache Kylin搭建企业级开源大数据分析平台
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kylige ...
《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
【转】Apache Kylin 2.0为大数据带来交互式的BI
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被 ...
Impala：新一代开源大数据分析引擎
Impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统虽然也提供了SQL语 ...
Impala：新一代开源大数据分析引擎--转载
原文地址:http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/ 文 / 耿益锋陈冠诚大数据处理是云计算中非常重要的问题 ...
使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
《开源大数据分析引擎Impala实战》目录
当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录第1章 Impala概述.安装与配置.. ...
Net Core SignalR 测试，可以用于unity、Layair、白鹭引擎、大数据分析平台等高可用消息实时通信器。
SignalR介绍 SignalR介绍来源于微软文档,不过多解释.https://docs.microsoft.com/zh-cn/aspnet/core/signalr/introduction?v ...
Apache Kylin大数据分析平台的演进
转:http://mt.sohu.com/20160628/n456602429.shtml 我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO.今天我主要来和大家分享一下 ...

随机推荐

和我一起学python，初识python （life is short ,we need python）
作者:tobecrazy 出处:http://www.cnblogs.com/tobecrazy 欢迎转载,转载请注明出处.thank you! 由于项目需要(并非因为life is short), ...
h5页面的公共css
/*reset*/body,div,dl,dt,dd,ul,ol,li,h1,h2,h3,h4,h5,h6,pre,code,form,fieldset,legend,input,button,tex ...
Greedy:Cow Acrobats(POJ 3045)
牛杂技团题目大意:一群牛想逃跑,他们想通过搭牛梯来通过,现在定义risk(注意可是负的)为当前牛上面的牛的总重量-当前牛的strength,问应该怎么排列才能使risk最小? 说实话这道题我一开始给 ...
linux下QT Creator常见错误及解决办法
最近因为在做一个关于linux下计算机取证的小项目,需要写一个图形界面,所以想到了用QT来写,选用了linux下的集成开发环境QT Creator5.5.1,但刚刚安装好,竟然连一个"hel ...
【linux】学习4
文件压缩: gzip :压缩解压缩 zcat: 读取压缩文件 gzip text1 :压缩text1 得到 text1.gz 原文件不见了 gzip -c text1 > text1.g ...
【HTTP】Wireshark过滤规则
参考:http://jingyan.baidu.com/article/454316ab593170f7a6c03a60.html 语句特点:协议.属性一.IP过滤: 包括来源IP或者目标IP等于某 ...
3ds max移除几何体的线段
将几何体转化成可编辑多边形,然后选中线段,调出上图的模式,然后选中删除.
eclipse 注释模板
位置:window -> Preferences -> java -> Code Style -> Code Templates <?xml version=" ...
方法重载的小demo
方法的重载(overload)要求:1,同一个类中2,方法名必须相同3,方法的参数列表不同(1,参数的个数不同2,参数类型不同,但是参数名相同) 注:方法的重载与方法的返回值类型没有关系 packag ...
1.5 STL中大小相等的概念
1) 2)

【转】使用Apache Kylin搭建企业级开源大数据分析平台

【转】使用Apache Kylin搭建企业级开源大数据分析平台的更多相关文章

随机推荐

热门专题