1. 数据仓库的相关概念

OLAP

大部分数据库系统的主要任务是执行联机事务处理和查询处理，这种处理被称为OLTP（Online Transaction Processing, OLTP），面向的是顾客，诸如：办事员、DBA等。而数据仓库主要面向知识工人（如经理、主管等）提供数据分析处理，这种处理被称为OLAP（Online Analysis Processing）。OLTP管理的是当前数据，比较琐碎，很难用于做决策。而OLAP管理的是大量历史数据，提供汇总与聚集机制，并在不同的维度、不同的粒度存储和管理信息。

特征	OLTP	OLAP
面向	办事员、DBA	知识工人
DB设计	基于ER，面向应用	星形/雪花，面向主题
数据	当前的、确保更新	历史的、跨时间维护
视图	详细、一般关系	汇总的、多维的
访问	读/写	大多数为读
度量	事务吞吐量	查询吞吐量、访问时间

举个简单的例子：我们会用OLTP去管理app名称与app类别的映射关系；而分析某一周app（和app类别）的UV，则会使用OLAP；并且OLAP提供了数据的多维观察——比如：在某周在华为手机上top100用户的APP。

Fact Table

事实表（Fact Table）是中心表，包含了大批数据并不冗余，其数据列可分为两类：

包含大量数据事实的列；
与维表（Dimension Table）的primary key相对应的foreign key。

Lookup Table

Lookup Table包含对事实表的某些列进行扩充说明的字段。在Kylin的quick start中给出sample cube（kylin_sales_cube）——其Fact Table为购买记录，lookup table有两个：用于对购买日期PART_DT、商品的LEAF_CATEG_ID与LSTG_SITE_ID字段进行扩展说明。

Dimension

维表（Dimension Table）是由fact table与lookup table逻辑抽象出来的表，包含了多个相关的列（即dimension），以提供对数据的多维观察；其中dimension的值的数目称为cardinatily。在kylin_sales_cube的事实表的LSTG_FORMAT_NAME被单独抽出来做一个dimension，可与其他维度组合分析数据。

Star Schema

星形模式（Star Schema）包含一个或多个事实表、一组维表，其中维表的primary key与事实表的foreign key相对应。这种模式很像星光四射，维表显示在围绕事实表的射线上。下图是我根据某数据源所建立的星形模式：

Cube

cube是所有的dimensions组合，任一dimensions的组合称为cuboid。因此，包含\(n\)个dimensions的cube有\(2^n\)个cuboid，如下图所示：

2. Kylin介绍

Dimension

为了减少cuboid的数目，Kylin将Dimension分为四种类型：

Normal，为最常见的类型，与所有其他的dimension组合构成cuboid。
Mandatory，在每一次查询中都会用到dimension，在下图中A为Mandatory dimension，则与B、C总共构成了4个cuboid，相较于normal dimension的cuboid（\(2^3=8\))减少了一半。
Hierarchy，为带层级的dimension，比如说：省份->城市，年->季度->月->周->日；以用于做drill down。

Derived，指该dimensions与维表的primary key是一一对应关系，可以更有效地减少cuboid数量，详细的解释参看这里；并且derived dimension只能由lookup table的列生成。

然而，Kylin的Hierarchy dimensions并没有做集合包含约束，比如：kylin_sales_cube定义Hierarchy dimension为META_CATEG_NAME->CATEG_LVL2_NAME->CATEG_LVL3_NAME，但是同一个CATEG_LVL2_NAME可以对应不同META_CATEG_NAME。因此，hierarchy 显得非常鸡肋，以至于在Kylin后台处理时被废弃了（详见Li Yang在mail group中所说）：

@Julian, plan to refactor the underlying aggregation group in Q4. Will drop

hierarchy concept in the backend, however in the frontend for ease of

understanding, may still call it hierarchy.

Measure

Measure为事实表的列度量，Kylin提供诸如：

Sum
Count
Max
Min
Average
Distinct Count (based on HyperLogLog)

等函数，一般配合group by dimesion使用。

3. 实战

下面的SQL语句是在kylin_sales_cube build成功后执行的。

sql命令select * from kylin_sales，得到fact table所缓存的列——均为dimension的主key、measure中所需计算的字段。

各个时间段内的销售额及购买量：

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers

from kylin_sales

group by part_dt

order by part_dt

查询某一时间的销售额及购买量,

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers

from kylin_sales

where  part_dt = '2014-01-01'

group by part_dt

发现报错：

Error while compiling generated Java code:

public static class Record3_0 implements java.io.Serializable {            public java.math.BigDecimal f0;

    public boolean f1;

    public org.apache.kylin.common.hll.HyperLogLogPlusCounter f2;          public Record3_0(java.math.BigDecimal f0, boolean f1, ...

这是因为part_dt是date类型，在解析string到date的时候出问题，应将sql语句改为：

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers

from kylin_sales

where part_dt between '2014-01-01' and '2014-01-01'

group by part_dt

-- or

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers

from kylin_sales

where part_dt = date '2014-01-01'

group by part_dt

上面查询只用到了fact table，而没有用到lookup table。如果查询各个时间段所有二级商品类型的销售额，则需要fact table与lookup table做inner join：

select fact.part_dt, lookup.CATEG_LVL2_NAME, count(distinct seller_id) as sellers

from kylin_sales fact

inner join KYLIN_CATEGORY_GROUPINGS lookup

on fact.LEAF_CATEG_ID = lookup.LEAF_CATEG_ID and fact.LSTG_SITE_ID = lookup.SITE_ID

group by fact.part_dt, lookup.CATEG_LVL2_NAME

order by fact.part_dt desc

4. 参考资料

[1] 韩家炜，《数据挖掘——概念与技术》.

[2] 教练_我要踢球, OLAP引擎——Kylin介绍.

[3] Kylin, Design Cube in Kylin.

Kylin的cube模型的更多相关文章

【转】Kylin的cube模型
转自:http://www.cnblogs.com/en-heng/p/5239311.html 1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被 ...
Kylin构建Cube过程详解
1 前言在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的 ...
Kylin Flink Cube 引擎的前世今生
Apache Kylin™ 是一个开源的.分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表. Ky ...
kylin构建cube优化
前言下面通过对kylin构建cube流程的分析来介绍cube优化思路. 创建hive中间表 kylin会在cube构建的第一步先构建一张hive的中间表,该表关联了所有的事实表和维度表,也就是一张宽 ...
Kylin构建cube时状态一直处于pending
在安装好kylin之后我直接去访问web监控页面发现能够进去,也没有去看日志.然后在运行官方带的例子去bulid cube时去发现状态一直是pending而不是runing.这个时候才去查看日志: 2 ...
Transform开发cube模型权限处理之不同用户数据的过滤
========================此文不再详细的说transform的开发过程====================================================== ...
使用ReportStudio打开cube模型创建报表出现两个最细粒度名称
本人也是第一次遇到这样的问题,此问题甚是简单,也许很简短的一句话就可以解决这个问题了,看官请留神哦 cube做好发布到cognos之后使用Analysis Studio打开结构正常于是想到要用此数据 ...
如何通过java代码对kylin进行cube build
通常是用于增量代码如下: package com.dlht.kylinDemo; import java.io.BufferedReader; import java.io.FileNotFound ...
创建 kylin Module/Cube
1. 首先要创建 Project 2. 再把Hive 表加载进来: 3. 创建model 3.1. 首先选择或者创建一个project 3.2.创建一个新modle 3.3. 选择数据库 ...

随机推荐

手机浏览器，微信中播放amr录音
由于微信公众号开发中,临时素材只有三天的有效期,但是客户要求所有录音永久保存,永久素材数量又有限制,故只能把录音保存到服务器上.但是存到服务器上有一个问题,手机微信中无法直接播放amr录音.无意中发现 ...
跨平台开源通讯组件elastic communication
elastic communication是基于c#开发支持.net和mono的通讯组件(简称EC),EC的主要目的简化mono和.net下的通讯开发难度,通过EC可以非常快速地开发基于mono和.n ...
OWIN的理解和实践(三) –Middleware开发入门
上篇我们谈了Host和Server的建立,但Host和Server无法产出任何有实际意义的内容,真正的内容来自于加载于Server的Middleware,本篇我们就着重介绍下Middleware的开发 ...
关于公司内部的Nuget服务
简介公司内部搭建的Nuget服务,私有安全,局域网,速度快. 使用方法 VS -> 工具 -> 库程序包管理器 -> 程序包管理器设置 -> 程序包源 -> 新增以下配 ...
支持断点续传的文件上传插件——Huploadify-V2.0来了
之前仿造uploadify写了一个HTML5版的文件上传插件,没看过的朋友可以点此先看一下~得到了不少朋友的好评,我自己也用在了项目中,不论是用户头像上传,还是各种媒体文件的上传,以及各种个性的业务需 ...
看svn用户组管理功能的产品设计
我负责公司的svn配置.用了近一年了,今天饶有兴致,分享一下svn的用户组管理功能,这个产品设计值得借鉴,简单易用. svn用户组管理的功能描述:新建用户组,并给组分配成员用户:编辑用户组,包括修改组 ...
Java-数组练习1
1．已知2个一维数组:a[]={3,4,5,6,7},b[]={1,2,3,4,5,6,7}:把数组a与数组b 对应的元素乘积再赋值给数组b,如:b[2]=a[2]*b[2]:最后输出数组b的元素. ...
Atitit 发帖机系列（7）词法分析的方法attilax大总结）
Atitit 发帖机系列(7) 词法分析的方法attilax大总结) 1.1. 词法分析貌似俩大方法,一个直接根据状态图转换,一个根据dfa1 1.2. switchcase或者ifelse 最原始方 ...
JS操作页面
DOM操作 1 windows对象操作属性(值或者子对象): opener:打开当前窗口的源窗口,如果当前窗口是首次启动浏览器打开的,则opener是null.可以利用这属性来关闭源窗口方法(函数 ...
java 面向对象
Java语言是纯粹的面向对象的程序设计语言,这主要表现为Java完全支持面向对象的三种基本特征:继承.封装和多态.Java语言完全以对象为中心,Java程序的最小程序单位是类,整个Java程序由一个一 ...

Kylin的cube模型

1. 数据仓库的相关概念

OLAP

Fact Table

Lookup Table

Dimension

Star Schema

Cube

2. Kylin介绍

Dimension

Measure

3. 实战

4. 参考资料

Kylin的cube模型的更多相关文章

随机推荐

热门专题