kylin(二): Calcite

【kylin(二): Calcite】的更多相关文章

Apache Calcite是面向Hadoop新的查询引擎,它提供了标准的SQL语言.多种查询优化和连接各种数据源的能力,除此之外,Calcite还提供了OLAP和流处理的查询引擎.Calcite之前的名称叫做optiq,optiq起初在Hive项目中,为Hive提供基于成本模型的优化.2014年5月optiq独立出来,成为Apache社区的孵化项目,2014年9月正式更名为Calcite.Calcite项目的创建者是Julian Hyde, 他在数据平台上有非常多的工作经历,曾经是Oracle…

Kylin系列之二：原理介绍

Kylin系列之二:原理介绍 2018年4月15日 15:52 因何而生 Kylin和hive的区别 1. hive主要是离线分析平台,适用于已经有成熟的报表体系,每天只要定时运行即可. 2. Kylin主要是MLOAP(多维在线分析平台).在线意味着提供快速的相应速度.主要适用于分析师不知道自己需要哪些数据,建立怎样的模型,需要不断的摸索,查询一致形成一个完整的模型和方案. 3. 通常的做法是在Kylin中进行数据的调研,探索,建立模型.形成固定模式后在hive中进行运行. 原理与架构 1.…

Kylin基础教程（二）

近期先把Kylin教程整理完毕,后续根据大家需求(可能会发起投票),整理其他技术栈知识教程. OK,那么接上一篇文章,感性认知了Kylin之后,我们先来看一下如何部署Kylin吧. 序号也依然沿用上一篇文章的递增. 二.Kylin的部署与使用 2.1 部署前的准备工作 Kylin的工作默认依赖于Hive,MapReduce,HBase,其中Hive用于对Kylin的业务操作,MapReduce用于构建Cube,HBase用于存储构建好的Cube.所以在开始部署Kylin之前,我们需要确认Hive…

CDH+Kylin三部曲之二：部署和设置

欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本篇概览本文是<CDH+Kylin三部曲>系列的第二篇,上一篇<CDH+Kylin三部曲之一:准备工作>已将所需的机器和文件准备完毕,可以部署CDH和Kylin了: 执行ansible脚本部署CDH和Kylin(ansible电脑) 进入ansible电脑的~/playbook…

设计CUBE by kylin

1.新增或者选择一个已有项目(project)后,将hive数据导入到kylin中,web界面的Model→Data source,导入数据 2.创建数据模型,数据模型是Cube的基础,它主要用于描述一个星形模型.有了数据模型以后,定义Cube的时候就可以直接从此模型定义的表和列中进行选择了,省去重复指定连接(join)条件的步骤.基于一个数据模型还可以创建多个Cube,以方便减少用户的重复性工作.在Kylin界面的“Models”页面中,单击“New”→“New Model”,开始创建数据模型…

Apache Kylin高级部分之使用Hive视图

本章节我们将介绍为什么须要在Kylin创建Cube过程中使用Hive视图.而假设使用Hive视图.能够带来什么优点.解决什么样的问题.以及须要学会怎样使用视图.使用视图有什么限制等等. 1. 为什么须要使用视图 Kylin创建Cube的过程中使用Hive的表数据作为输入源.可是有些情况下,Hive中的表定义和数据并不能满足分析的需求.比如有些列的值须要进行处理,有些列的类型不满足需求,甚至有时候我们在创建Hive表时为了方便快捷,会将Hive表的全部列的字段类型都定义为string,因…

春蔚专访--MaxCompute 与 Calcite 的技术和故事

摘要:2019大数据技术公开课第一季<技术人生专访>,来自阿里云计算平台事业部高级开发工程师雷春蔚向大家讲述了MaxCompute 与 Calcite 的技术和故事. 具体内容包括: 1) 什么是查询优化器:2)MaxCompute查询优化器的具体实践:3)MaxCompute后续计划:4)从校招到阿里巴巴工程师到Calcite committer,他经历了怎样的个人成长. 以下内容根据演讲视频以及PPT整理而成. 一.查询优化器简介大家都知道,数据库一般由三部分组成,分别是解析器.优化器和…

Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟,但是存在着一定的局限性.Kylin 查询节点当前主要的计算是在单机节点完成的,存在单点问题.而且由于 HBase 非真正列存的问题,Cuboids 信息需要压缩编码,读取 HBase 数据的时候再反序列化.分割,额外增加了计算压力.另外,HBase 运维难度比较大,不便于上云.面对以上问题,Kyligence 推出了 Kylin on Parquet 方案.下文中,Kyligence 的大数据研发工程师王…

入门大数据---Kylin是什么？

一.Kylin是什么? Apache Kylin是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 上的SQL查询接口及多维度分析(OLAP)能力以支持超大规模的数据,最初由eBay开发并贡献至开源社区.它能在亚秒内查询巨大的表. Apache Kylin 令使用者仅需三步,即可实现超大数据集上的亚秒级查询. 1.定义一个星形或雪花形数据模型 2.在定义的表上创建cube 3.使用标准的SQL通过ODBC,JDBC和Restful API即可在亚秒内查询到结果. 二.解决问题任…

深入浅出Calcite与SQL CBO（Cost-Based Optimizer）优化

目录 Calcite简介与CBO介绍 Calcite背景与介绍 SQL优化与CBO Calcite优化器 HepPlanner优化器与VolcanoPlanner优化器 Calcite优化样例代码介绍前阵子工作上需要用到Calcite做一些事情,然后发现这个东西也是蛮有意思的,就花了些时间研究了一下.本篇主要围绕SQL 优化这块来介绍Calcite,后面会介绍Hive如何Calcite进行SQL的优化. 此外,也将Calcite的一些使用样例整理成到github,https://github.…