kylin3
RDBMS:
关系数据库管理系统(Relational Database Management System),是将数据组织为相关的行和列的系统,而管理关系数据库的计算机软件就是关系数据库管理系统,
常用的数据库软件有Oracle、SQL Server等。
机分析处理OLAP:
是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。
其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;
A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;
M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;
I是信息性(Information),指能及时获得信息,并且管理大容量信息。
Multidimension OLAP,简称MOLAP
是Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。
代表产品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。
事实表:
用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情。
包含:记录整个事件的信息,包含的关进信息,可能会用关键标记号(唯一标识符==主键,外键)来表示
维表:
对事实表中事件的要素的描述信息
包含关键标记的具体含义
共享维度:表示多个事实之间的关系
星型模型:
一个或多个fact table和一组dimension table组成。
所有dimention table都直接连接到fact table上
每个dimention table都有一个维作为主键
所有这些维的主键组合成事实表的主键
事实表的非主键属性(非维度),称为fact。一般为数值和其他可以计算的数据
维,大都是文字、事件……类型的数据
按照不同的维(事实表主键的部分||全部)来对这些事实数据进行求和、求平均、计数、百分比的聚集运算》》可以从不同角度,通过数字来分析业务主题的情况
缺点:一种非正规化的结构,多位数据集的每一个维度,都直接与事实表相连,不存在渐变维度,所以数据有一定的冗余
示例:一张商品销售事实表、五张维表组成
维表:维的具体描述信息
信息:一般可以分层的。比如:时间维的年月日、地域维的省市县……这类分层的信息,为了满足事实表中的度量可以在不同的粒度上完成聚合。例如:2016年的商品销售额,来自上海市的销售额
事实表:维属性只是一个关联到维表的键,并不记录具体的信息
度量:一般都会记录事件相应的数值。产品的销售数量、销售金额……
主要包含两方面的信息:维、度量。
维:的具体描述信息在维表,事实表中维属性只是关联到维表的键,不记录具体的信息
雪花型模型
有一个||多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时。
对星型模型的扩展,对星型模型的维表进一步层次化。原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,这些被分解的表都连接到主维度表而不是事实表
优点:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。去除了数据冗余
缺点:在进行事实表、维表之间的连接查询,效率比星型模型低。
在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率
OLAP:on-line analytical processing,联机分析处理
基于数据仓库多维模型的基础上,实现的面向分析的各类操作的集合
按照存储器的数据存储格式分类:
1.ROLAP:ralational OLAP,关系OLAP
多维数据存储在关系数据库中。根据应用的需要,有选择地定义一批实视图(应用频率高、计算量比较大的查询)作为表,存储在关系型数据库中,优先利用已经计算好的实视图来生成查询结果。
优化:并行存储、并行查询、并行数据管理、基于成本的查询优化,位图索引、SQL的OLAP扩展……
通过一些软件工具、中间软件实现。物理层仍采用关系数据库的存储结构,称为虚拟OLAP(virtualOLAP)
2.MOLAP:multidimension OLAP,多维OLAP
多维数据物理上存储维多维数组的形式,形成“立方体的”的结构:维的属性被映射成多维数组的下标值、下标范围,而汇总数据作为多维数组的值存储在数组的单元中
采用了新的存储结构,从物理层实现起。称为物理OLAP(physicalOLAP)
3.HOLAP:Hybrid OLAP,混合型OLAP
基于混合数据组织的OLAP实现,具有更好的灵活性
特点:将明细数据保留在关系型数据库的事实表中,但聚合后的数据保存在Cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高,但低于MOLAP
基本操作:
1.查询:select、聚合函数(sum、count、avg……)
2.多维分析:
OLTP:on-line transaction processing,联机事务处理
数据立方体:Data Cube
允许多维对数据建模、观察。由维、事实定义
从表方面看,数据立方体时三维的,但是多维模型不仅限于三维模型,可组合更多的模型
生成Cube的过程中,将所有的维度dimensions组合,dimensions的不同组合,在apache kylin中称为cuboid。(包含N各dimensions的cube由2的n次方个cuboid)
kylin3的更多相关文章
- 环境篇:Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
- Kylin on Parquet 介绍和快速上手
Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟,但是存在着一定的局限性.Kylin 查询节点当前主要的计算是在单机节点完成的,存在单点问题.而且由于 HBa ...
- kylin streaming原理介绍与特点浅析
目录 前言 kylin streaming设计和原理 架构介绍 streaming coordinator streaming receiver cluster kylin streaming数据构建 ...
随机推荐
- HashSet, HashTable
HashTable 存储键值对 , Hashtable和Dictionary<TKey,TValue>都是存键值对 HashSet 只存储值,盛放不同的数据,相同的数据只保留一份 Hash ...
- C/C++笔试题(编程题)
面试过程中遇到的编程题整理,于此备录.分享,共勉.(持续更新中......欢迎补充) (1)用户输入M, N值,从1至N开始顺序循环数数,每数到M输出该数值,直至全部输出.写出C程序. 程序代码如下: ...
- 获取 web 服务器 port
Tomcat: public static String getServerPort(boolean secure) throws AttributeNotFoundException, Instan ...
- python之小数据池
代码块 Python 程序 是由代码块构造的.块是一个python程序的文本,它是作为一个执行单元的. 代码块:一个模块,一个函数,一个类,一个文件等都是一个代码块. 而作为交互方式输入的每个命令都是 ...
- JAVA基础3---JVM内存模型
Java虚拟机执行Java程序的时候需要使用一定的内存,根据不同的使用场景划分不同的内存区域.有公用的区域随着Java程序的启动而创建:有线程私有的区域依赖线程的启动而创建 JVM内存模型大致可以分为 ...
- 微信小程序制作家庭记账本之二
第二天,继续学习制作记账本,网上搜寻别人的源码进行学习,但是搜寻过程中总是能看到github这个东西,不清楚这是什么东西,明天继续努力吧.
- RPC框架小结
为什么说要搞定微服务架构,先搞定RPC框架? 1. 为什么说要搞定微服务架构,先搞定RPC框架? 如果没有统一的服务框架,RPC框架,各个团队的服务提供方就需要各自实现一套序列化.反序列化.网络框架. ...
- 初探AngularJs框架(三)
一.实现todoList的demo 功能很简单,提供一个文本框,用户输入回车后添加新条目.每个条目可以在待处理和处理中两个区域间切换,每个条目都可以被删除,大致的界面如下图所示: 二.处理逻辑 首先将 ...
- bzoj1594 Pku3764 The xor-longest Path
题目链接 先求每个点到根的异或和 然后就要找出两个点,使dis[a]^dis[b]最大 注意异或的性质,我们可以用trie树,沿着与当前数字每位的相反方向走 #include<algorithm ...
- PKUWC2018 5/6
总结: D1T1T2的思路较为好想,D1T3考试时估计是战略放弃的对象,D2T1思路容易卡在优化状态上(虽然明显3n的状态中有很多无用状态,从而想到子集最优,选择子集最优容易发现反例,从而考虑连带周边 ...