kylin3
RDBMS:
关系数据库管理系统(Relational Database Management System),是将数据组织为相关的行和列的系统,而管理关系数据库的计算机软件就是关系数据库管理系统,
常用的数据库软件有Oracle、SQL Server等。
机分析处理OLAP:
是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。
其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;
A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;
M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;
I是信息性(Information),指能及时获得信息,并且管理大容量信息。
Multidimension OLAP,简称MOLAP
是Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。
代表产品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。
事实表:
用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情。
包含:记录整个事件的信息,包含的关进信息,可能会用关键标记号(唯一标识符==主键,外键)来表示
维表:
对事实表中事件的要素的描述信息
包含关键标记的具体含义
共享维度:表示多个事实之间的关系
星型模型:
一个或多个fact table和一组dimension table组成。
所有dimention table都直接连接到fact table上
每个dimention table都有一个维作为主键
所有这些维的主键组合成事实表的主键
事实表的非主键属性(非维度),称为fact。一般为数值和其他可以计算的数据
维,大都是文字、事件……类型的数据
按照不同的维(事实表主键的部分||全部)来对这些事实数据进行求和、求平均、计数、百分比的聚集运算》》可以从不同角度,通过数字来分析业务主题的情况
缺点:一种非正规化的结构,多位数据集的每一个维度,都直接与事实表相连,不存在渐变维度,所以数据有一定的冗余
示例:一张商品销售事实表、五张维表组成
维表:维的具体描述信息
信息:一般可以分层的。比如:时间维的年月日、地域维的省市县……这类分层的信息,为了满足事实表中的度量可以在不同的粒度上完成聚合。例如:2016年的商品销售额,来自上海市的销售额
事实表:维属性只是一个关联到维表的键,并不记录具体的信息
度量:一般都会记录事件相应的数值。产品的销售数量、销售金额……
主要包含两方面的信息:维、度量。
维:的具体描述信息在维表,事实表中维属性只是关联到维表的键,不记录具体的信息
雪花型模型
有一个||多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时。
对星型模型的扩展,对星型模型的维表进一步层次化。原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,这些被分解的表都连接到主维度表而不是事实表
优点:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。去除了数据冗余
缺点:在进行事实表、维表之间的连接查询,效率比星型模型低。
在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率
OLAP:on-line analytical processing,联机分析处理
基于数据仓库多维模型的基础上,实现的面向分析的各类操作的集合
按照存储器的数据存储格式分类:
1.ROLAP:ralational OLAP,关系OLAP
多维数据存储在关系数据库中。根据应用的需要,有选择地定义一批实视图(应用频率高、计算量比较大的查询)作为表,存储在关系型数据库中,优先利用已经计算好的实视图来生成查询结果。
优化:并行存储、并行查询、并行数据管理、基于成本的查询优化,位图索引、SQL的OLAP扩展……
通过一些软件工具、中间软件实现。物理层仍采用关系数据库的存储结构,称为虚拟OLAP(virtualOLAP)
2.MOLAP:multidimension OLAP,多维OLAP
多维数据物理上存储维多维数组的形式,形成“立方体的”的结构:维的属性被映射成多维数组的下标值、下标范围,而汇总数据作为多维数组的值存储在数组的单元中
采用了新的存储结构,从物理层实现起。称为物理OLAP(physicalOLAP)
3.HOLAP:Hybrid OLAP,混合型OLAP
基于混合数据组织的OLAP实现,具有更好的灵活性
特点:将明细数据保留在关系型数据库的事实表中,但聚合后的数据保存在Cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高,但低于MOLAP
基本操作:
1.查询:select、聚合函数(sum、count、avg……)
2.多维分析:
OLTP:on-line transaction processing,联机事务处理
数据立方体:Data Cube
允许多维对数据建模、观察。由维、事实定义
从表方面看,数据立方体时三维的,但是多维模型不仅限于三维模型,可组合更多的模型
生成Cube的过程中,将所有的维度dimensions组合,dimensions的不同组合,在apache kylin中称为cuboid。(包含N各dimensions的cube由2的n次方个cuboid)
kylin3的更多相关文章
- 环境篇:Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
- Kylin on Parquet 介绍和快速上手
Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟,但是存在着一定的局限性.Kylin 查询节点当前主要的计算是在单机节点完成的,存在单点问题.而且由于 HBa ...
- kylin streaming原理介绍与特点浅析
目录 前言 kylin streaming设计和原理 架构介绍 streaming coordinator streaming receiver cluster kylin streaming数据构建 ...
随机推荐
- Spark学习之路 (四)Spark的广播变量和累加器
一.概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本.这些变量会被复制到每台机器上 ...
- Knowing is not enough; we must apply. Willing is not enough; we must do.
Knowing is not enough; we must apply. Willing is not enough; we must do. 仅限于知道是不够的,我们必须去实践:单纯的希望是不够的 ...
- Impala 学习
Impala 基础知识介绍与学习,参考文章: Impala-大数据时代快速SQL引擎 https://blog.csdn.net/kangkangwanwan/article/details/7865 ...
- Django 安装 创建项目 运行项目
Django基础 框架,即framework,特指为解决一个开放性问题而设计的具有一定约束性的支撑结构,使用框架可以帮你快速开发特定的系统,简单地说,就是你用别人搭建好的舞台来做表演. 对于所有的We ...
- vue中组件通信之子父通信
<div id="app"> <parent-comp1></parent-comp1> <parent-comp1></pa ...
- java课上测试心得
放暑假之前,建民老师就给我们布置了每一天学习两小时的代码,但是自己的不重视,根本就没有达到这个要求,简单学了一点点基本的东西,然后在开学的第一堂课上,连续三个小时的敲代码,让我意识到了自己的问题,一个 ...
- java之异常统一处理
spring-mvc.xml <!-- aop --> <aop:aspectj-autoproxy/> <beans:bean id="controllerA ...
- Java 线程类的一些常用方法
线程类的一些常用方法: sleep(): 强迫一个线程睡眠N毫秒. isAlive(): 判断一个线程是否存活. join(): 等待线程终止. activeCount(): 程序中活跃的线程数 ...
- SQL Server中调用WebService
首先要启用Ole Automation Procedures,使用sp_configure 配置时如果报错"不支持对系统目录进行即席更新",可以加上WITH OVERRIDE选项. ...
- scrapy selenium 登陆zhihu
# -*- coding: utf-8 -*- # 导入依赖包 import scrapy from selenium import webdriver import time import json ...