1 kylin 简介

Apache Kylin是2013年由eBay 在上海的一个中国工程师团队发起的、基于Hadoop大数据平台的开源 OLAP引擎,它采用多维立方体预计算技术,利用空间换时间的方法,把很多分钟级别乃至小时级别的大数据查询速度一下子提升到了亚秒级别,极大地提高了数据分析的效率,填补了业界在这方面的空白。该引擎为超大规模数据集上的交互式大数据分析打开了大门。

2 软件下载

社区版kylin下载地址:https://archive.apache.org/dist/kylin/ ,
本次测试使用https://archive.apache.org/dist/kylin/apache-kylin-2.5.0/


3 配置安装kylin

3.1 解压配置环境变量

解压

  1. tar -zxvf apache-kylin-2.5.0-bin-cdh57.tar.gz -/usr/local
    cd /usr/local
    mv apache-kylin-2.5.0-bin/ kylin

配置环境变量

  1. vim /etc/profile
    ----
    ### kylin #### 
    export KYLIN_HOME=/usr/local/kylin
    PATH=$PATH:$HOME/bin:$KYLIN_HOME/bin
    ---
    source /etc/profile

3.2 启动验证

验证

  1. cd /usr/local/kylin/bin
    ./check-env.sh

启动kylin

  1. ./kylin.sh start
    new Kylin instance is started by root. To stop it, run 'kylin.sh stop'
    Check the log at /usr/local/kylin/logs/kylin.log
    Web UI is at http://<hostname>:7070/kylin

出现上面信息表示启动成功!


默认用户名:ADMIN
密码:KYLIN

4 官方测试用例

Kylin 提供了一个创建样例 Cube 脚本;脚本会创建五个样例 Hive 表。

4.1 导入数据

运行sample.sh导入官方测试数据

  1. cd /usr/local/kylin/bin
    ./sample.sh

输出

  1. Sample cube is created successfully in project 'learn_kylin'.
    Restart Kylin Server or click Web UI => System Tab => Reload Metadata to take effect

这句话的意思是 例子cube已成成功创建在了 工程名称叫'learn_kylin'里面了
重启kylin或者通过webUI => System选项卡=> 重新导入元数据信息

重启kylin

  1. cd /usr/local/kylin/bin
    ./kylin.sh stop 
    ./kylin.sh start

或重新刷新kylin的元数据


hive 的default库 当中多了5张kylin的表


  1. hive> select * from kylin_sales limit 5;
    OK
    0    2012-12-14  Others  88750   0   11  36.2828 4   10000349    10002313    ANALYST Beijing
    1    2012-08-28  Others  175750  0   13  23.8563 20  10000927    10004376    ANALYST Beijing
    2    2012-02-16  ABIN    148324  15  13  88.3418 18  10000005    10006710    ADMIN   Shanghai
    3    2013-10-19  FP-non GTC  37831   0   13  47.3015 3   10000209    10003717    ANALYST Beijing
    4    2012-10-22  Others  140746  100 11  83.454  16  10000154    10006076    ADMIN   Shanghai

4.2 查看导入模型

用默认的用户名和密码 ADMIN/KYLIN 登陆 Kylin 网站,选择 project 下拉框(左上角)中的 learn_kylin 工程;
查看导入的信息 => 点击最上面选项卡 Model


4.3 构建Cube

选择名为 kylin_sales_cube 的样例 Cube,点击 “Actions” -> “Build”,选择一个在 2014-01-01 之后的结束日期(覆盖所有的 10000 样例记录);

选择数据分区范围


查看正在构建的cube任务,点击 “Monitor” 标签,查看 build 进度直至 100%;


4.4 查询构建完成的cube信息

点击 “Insight” 标签,执行 SQLs,例如:

  1. select part_dt, sum(price) as total_sold, count(distinct seller_id) as sellers from kylin_sales group by part_dt order by part_dt

Kylin执行上面语句用时:0.15s


您可以验证查询结果且与 Hive 的响应时间进行比较;
Hive执行同样语句用时:88.271s


Sparksql 执行同样语句用时:8.704s


由此可以看出Kylin这种预计算方式的数据查询效率远远好于Hive和SparkSQL这种并行处理计算框架。

4.5 多表关联查询

多表关联查询,速度依然很快,查询下面多表关联语句,耗时0.66秒。


  1. SELECT sum(KYLIN_SALES.PRICE) AS price_sum,
           KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,
           KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
    FROM KYLIN_SALES
    INNER JOIN KYLIN_CATEGORY_GROUPINGS ON KYLIN_SALES.LEAF_CATEG_ID = KYLIN_CATEGORY_GROUPINGS.LEAF_CATEG_ID
    AND KYLIN_SALES.LSTG_SITE_ID = KYLIN_CATEGORY_GROUPINGS.SITE_ID
    GROUP BY KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,
             KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
    ORDER BY KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME ASC,
             KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME DESC

Kylin还提供了图表工具


基于CDH5.12安装Kylin及官方用例测试的更多相关文章

  1. 基于CDH5.7.x Kylin部署

    配置目标文件为 /etc/profile #Kylin exportKYLIN_HOME=/opt/apache-kylin-1.5.4-cdh5.7-bin #Hadoop export HBASE ...

  2. 彻底解决CDH5.12安装过程中 Error: JAVA_HOME is not set and Java could not be found

    1 详细报错 + cat+======================================================================+| Error: JAVA_HO ...

  3. CDH5.12安装检查Inspector failed on the following hosts...

    1 安装检查报错 2 原因是因为自己的文件没有全部同步过去 hadoop003文件下面缺少了cm文件夹的内容 3 cp过去 scp -r cm root@hadoop003:/var/www/html ...

  4. CENTOS6.5安装CDH5.12.1(一) https://mp.weixin.qq.com/s/AP_m0QqKgzEUfjf0PQCX-w

    CENTOS6.5安装CDH5.12.1(一) 原创: Fayson Hadoop实操 2017-09-13 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看. 1.概述   本文档主要描 ...

  5. 阿里云三台CentOS7.2配置安装CDH5.12

    1 购买3台阿里云服务 2 配置好ssh连接客户端 根据自己情况连接 3 安装好MySQL5.7 跳过,见之前博客 安装在hadoop001上 4 设置好Hosts文件 3台机器同时操作 vim /e ...

  6. 1.安装CDH5.12.x

    安装方式安装前准备安装步骤安装过程修改/etc/hosts设置ssh 互信修改linux 系统设置安装JDK1.8安装python2.7安装mysql/postgreysql数据库安装ntp设置本地y ...

  7. CDH5.12.1 安装部署

    ###通过http://192.168.50.200:7180/cmf/login 访问CM控制台 4.CDH安装 4.1CDH集群安装向导 1.admin/admin登陆到CM 2.同意licens ...

  8. CentOS7安装CDH 第六章:CDH的管理-CDH5.12

    相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 ...

  9. 全程实操cdh5.14.4中集成安装kylin2.4.1与使用测试

    在cdh5.14.4安装完成并排错完成的情况下,进行如下kylin安装操作: 1.实验环境 三台CentOS 7主机,IP地址 192.168.43.129 cm1 192.168.43.130 cm ...

随机推荐

  1. Spring框架中获取连接池的几种方式

    什么是数据库连接池? 数据库连接池是一种关键的有限的昂贵的资源,对数据库连接的管理能显著影响到整个应用程序的伸缩性和健壮性,影响到程序的性能指标.数据库连接池就是用来解决这些问题而提出的. 数据库连接 ...

  2. ERP新人防坑指南

    本文作为初入ERP行业的新人的防坑指南,讲解了一些常见犯的错,这样也少走一些弯路,如果你是老鸟,请绕过 :-) 本文关联的代码使用kotlin编写,请自行转换为c#.java等你熟悉的语言,表述的坑在 ...

  3. Java 面向对象 知识点基础浅谈

    1.类和对象的关系 类是一个抽象的模板,对象是根据模板制造出来的,只有类建立之后,对象才可以在类中实例化对象.举个例子讲:我要用黄金浇筑一块砖,我会在一个模型里进行,这样才能有砖的形状,那模型即是类, ...

  4. 软件测试第一次试验JUnit

    一.Junit, hamcrest以及eclemma的安装 对于Junit和hamcrest的安装,我并没有从下载Junit和hamcrest相关的jar包然后通过build path导入到项目中,而 ...

  5. keras-yolo3-master

    logs/000/trained_weights_final.h5 放置训练完的权重 keras-yolo3-master Keras/Tensorflow+python+yolo3训练自己的数据集 ...

  6. 小谈对Python的认知与期望

    18级新生,在大学之前并未接触过程序语言编程,在众多语言编程中只对C语言有个名字上认知.在上个学期初次了解到Python语言,计算机老师表示Python是现在编程语言中如雨后春笋般的发展飞速的计算机语 ...

  7. 静态方法和实例方法(mark)

    借花献佛[转自 ivony's blog] 关于静态方法和实例方法的一些误区. 一.    静态方法常驻内存,实例方法不是,所以静态方法效率高但占内存.     事实上,方法都是一样的,在加载时机和占 ...

  8. Linux快捷键总结

    使用Linux很久了,现对经常用到的快捷键做一个总结: 最重要的一个当然是tab了 [root@localhost ~]# cd /etc/sys sysconfig/ sysctl.conf sys ...

  9. swiper使用中一些点的总结

    最近做了PC端改版,要求移动端有更好的体验,一些产品滚屏的展示,就用了swiper插件,以方便用户在移动端访问可以滑动翻屏展示. 本次项目中使用的是swiper2.0版本. 首先要引入swiper的j ...

  10. SQL-58 获取有奖金的员工相关信息。

    题目描述 获取有奖金的员工相关信息.CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`fi ...