问题背景

Kylin作为一个极其优秀的MOLAP，提供了完整的Cube创建、更新流程。同时提供了Sql查询。功能上看没有问题，但是在提供查询服务的时候还是有些不友好。

sql查询需要常常需要关联Hive表，Cube的作用是对查询做优化，但是用户需要知道hive表结果——为什么不提供接口让用户直接对Cube模型查询呢？

比如，我们用kylin建立了一个Sales Cube，关于公司销售数据统计。维度包括：年/季度/天，以及部门site；统计值measure包括，销售金额，销量，销售员数量等。

这个Cube需要通过两个hive表join得到基础数据。

我们不想让用户关心底层的hive表结构，而是希望他们能够更直接地对Cube的数据结构查询。

MDX

多维表达式是OLAP的查询语言，查询对象是多维数据结构Cube，解析器（例如Mondrian）会吧MDX转换成SQL来查询关系数据库（可能是多条查询）。

Cubes Framework

从API调用者的角度提供一套OLAP操作的API可能更友好，例如我们的Sales Cube模型建立好之后，通过drilldown/rollup, slice/dice操作的组合就能得到最终的统计结果。这比用MDX或者Sql都更方便。Cubes能做到（https://pythonhosted.org/cubes/index.html）

某种意义上Cubes是多维模型的ORM。

Kylinpy

Cubes支持多种数据源，只要有SqlAlchemy dialect就可以。kylinpy是kylin的sqlalchemy包。但是跟cubes对接时需要稍作修改:

diff --git a/kylinpy/kylindb.py b/kylinpy/kylindb.py

index bd0562e..6d6f7c7 100644

--- a/kylinpy/kylindb.py

+++ b/kylinpy/kylindb.py

@@ -39,6 +39,10 @@ class Cursor(object):

         ] for c in self._column_metas)

     def execute(self, query, *params, **kwargs):

+        for param in params:

+            for k,v in param.items():

+                query = query.replace('%('+k+')s', str(v))

+

Cubes model.json

根据Kylin的模型建立对应的Cubes模型文件：

{

    "dimensions": [

        {

            "name":"year",

            "levels": [

                {

                    "name":"YEAR",

                    "label":"YEAR",

                    "attributes": ["YEAR_BEG_DT"]

                },

                {

                    "name":"QUATER",

                    "label":"QUATER",

                    "attributes": ["QTR_BEG_DT"]

                },

                {

                    "name":"PART_DT",

                    "label":"PART_DT",

                    "attributes": ["PART_DT"]

                }

            ]

        },

        {

            "name":"site", 

            "levels": [

                {

                    "name": "LSTG_SITE_ID",

                    "label": "LSTG_SITE_ID",

                    "attributes": ["LSTG_SITE_ID"]

                }

         ]

        }

    ],

    "cubes": [

        {

            "name": "KYLIN_SALES",

            "dimensions": ["year", "site"],

            "joins": [

                 {"master":"PART_DT", "detail":"KYLIN_CAL_DT.CAL_DT","method": "match"}

            ],

            "measures": [

                {"name": "PRICE", "label": "PRICE"},

                {"name": "ITEM_COUNT", "label": "ITEM_COUNT"},

                {"name": "SELLER_ID", "label": "SELLER_ID", "aggregates":["count_distinct"]}

            ],

            "aggregates": [

                {

                    "name": "TOTAL_SOLD",

                    "function": "sum",

                    "measure": "PRICE"

                },

                {

                    "name": "TOTAL_ITEMS",

                    "function": "sum",

                    "measure": "ITEM_COUNT"

                },

                {

                    "name": "_COUNT_",

                    "function": "count"

                },

                {

                    "name": "DISTINC_SALLERS",

                    "function": "count_distinct",

                    "measure": "SELLER_ID"

                }

            ],

            "mappings": {

                    "year.PART_DT": "PART_DT",

                    "year.YEAR_BEG_DT": "KYLIN_CAL_DT.YEAR_BEG_DT",

                    "year.QTR_BEG_DT": "KYLIN_CAL_DT.QTR_BEG_DT",

                    "site.LSTG_SITE_ID": "LSTG_SITE_ID"

                },

            "info": {

                "min_date": "2010-01-01",

                "max_date": "2010-12-31"

            }

        }

    ]

}

slicer启动和使用

slicer.ini 文件

[workspace]

log_level: debug

[server]

host: localhost

port: 5000

reload: yes

prettyprint: yes

[store]

type: sql

url: kylin://ADMIN:KYLIN@localhost:7070/Tutorial?version=v1

schema=DEFAULT

dimension_schema=DEFAULT

[models]

main: model.json

启动

slicer serve slicer.ini

http查询示例：

-- 按季度下钻所有统计结果

http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year:QUATER

-- 按年下钻所有统计结果

http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year:YEAR

-- 按年下钻site0的所有统计结果

http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year:YEAR&cut=site:0

-- 对0-4这几个销售点，统计2012年每个季度的结果

http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year.QUATER|site&cut=year.YEAR_BEG_DT:date'2012-01-01'|site:0-4

DataBrewery Cubes 连接Kylin的更多相关文章

使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
Kylin如何进行JDBC方式访问或者调用
Kylin提供了标准的ODBC和JDBC接口,能够和传统BI工具进行很好的集成.分析师们可以用他们最熟悉的工具来享受Kylin带来的快速.我们也可以对它进行定制开发报表等,把kylin当做数据库服务器 ...
Python之Cubes框架使用
本文主要内容包含Cubes框架的介绍和简单使用. 一. 介绍和安装 Cubes是一个轻量级的Python框架和一套工具,用于开发报告和分析应用程序,在线分析处理(OLAP),多维分析和聚合数据的浏览. ...
superset 安装测试，基于windows 和 centos7.x
1.刚开始在windows平台测试搭建,报各种问题,搭建可以参考官网https://superset.incubator.apache.org/installation.html#deeper-sql ...
kylin 连接 hortonworks 中的 hive 遇到的问题
用 hortonworks(V3.1.0.0) 部署了 ambari (V2.7.3),用 ambari 部署了 hadoop 及 hive. 1. 启动 kylin(V2.6)时,遇到如下问题: ...
使用别的电脑连接另一台电脑当中的虚拟机中的kylin项目
环境说明: 本机A的ip:192.168.0.242 服务器B的ip:192.168.0.125 服务器上的虚拟机C的ip:192.168.43.129 目前状态: B上面能访问C上的站点kylin站 ...
【Kylin实战】邮件报表生成
在cube build完成后,我的工作是写sql生成数据分析邮件报表.但是,问题是这种重复劳动效率低.易出错.浪费时间.还好Kylin提供RESTful API,可以将这种数据分析需求转换成HTTP请 ...
Apache Kylin的核心概念
不多说,直接上干货! 1.表(table):This is definition of hive tables as source of cubes,在build cube 之前,必须同步在 kyli ...
Apache Kylin远程代码执行漏洞复现（CVE-2020-1956）
Apache Kylin远程代码执行(CVE-2020-1956) 简介 Apache Kylin 是美国 Apache 软件基金会的一款开源的分布式分析型数据仓库.该产品主要提供 Hadoop/Sp ...

随机推荐

6. 添加messager.alert()确定按钮的回调函数，即点完确定按钮后触发的事件
添加messager.alert()确定按钮的回调函数,即点完确定按钮后触发的事件: $.messager.alert('提示信息', "请联系管理员处理!", 'info', f ...
BBS(第三天) 如何吧用户上传的图片文件保存到本地
1. 将用户上传的所有静态文件统一管理 -- settings.py -- MEDIA_ROOT = os.path.join(BASE_DIR, 'media') 2. 服务器会对外公开一下服务器静 ...
model.form使用，配合form的钩子
一次model.form的使用记录,配合form钩子的过程在写信息采集功能的时候,需要添加资产信息,使用modelform组件减少工作量官网介绍:版本1.9.https://docs.django ...
yii2.0如何优化路由
比如我的路由是 http://localhost/basic/web/?r=site/index 现在想改成 http://localhost/basic/web/site/index 的形式 ...
OpenStack 安装：基本环境准备
刚刚学完openstack,这几篇文章就算对过去课程的一个总结吧. 首先说说基本的结构:在一台Dell的workstation上面安装了VMware,在VMware上面安装两台CentOS,现在给每台 ...
Jmeter正则表达式提取器二（转载）
转载自 http://www.cnblogs.com/qmfsun/p/5906462.html JMeter获取正则表达式中的提取的所有关联值的解决方法: 需求如下: { : "error ...
Pandas字符串操作及实例应用
字符串操作字符串对象方法 val = 'a,b, guido' val.split(',') ['a', 'b', ' guido'] pieces = [x.strip() for x in va ...
连续子数组最大和(python)
题目描述 HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学.今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决.但是,如果向量 ...
基于akka-http搭建restfull框架
1.scala开发环境介绍 2.scala插件的demo模板介绍 3.akka-http提供demo研究 4.添加路由机制解析 package org.netsharp.rest import akk ...
[Bat]如何彻底关闭每个盘符默认的共享$(即使重启也有效)
Windows启动时都会默认打开admin$ ipc$ 和每个盘符的共享,对于不必要的默认共享,一般都会把它取消掉,可当又需要打开此默认共享时,又该从哪里设置呢,一般来说有两个地方,MSDOS命令和计 ...

DataBrewery Cubes 连接Kylin