Apache Kylin 是什么?】的更多相关文章

Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
1. 引言 Apache Kylin(麒麟)是由eBay开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据.底层存储用的是HBase,数据输入与cube building用的是Hive,中间数据存储用的是HDFS.搭建环境: Kylin version = 1.2 Hive version = 0.13.1-cdh5.3.2 HBase version = 0.98.6+cdh5.3.2 Hadoop version = 2.5.0-cdh5.…
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业级开源大数据分析平台. 正文如下 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟…
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式查询等等.神兽Apache Kylin就是为了解决这些问题而设计的. Apache Kylin,中文名麒(shen)麟(shou)…
1. 概述 本文首先会简单介绍Kylin的安装配置,然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin. Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. 1.2 环境说明 CDH版本:5.11.2 Linux版本:7.4.1708 Docker版本:Docker version 18.06.0-ce…
一.Apache kylin的核心概念 表(Table ):表定义在hive中,是数据立方体(Data cube)的数据源,在build cube 之前,必须同步在 kylin中. 模型(model):模型描述了一个星型模式的数据结构,它定义了一个事实表(Fact Table: Wiki:Fact_table)和多个查找表(Lookup Table:Wiki:Lookup_table)的连接和过滤关系. 立方体(Cube):它定义了使用的模型.模型中的表的维度(dimension:Wiki:di…
Kylin的使用安装文档Kylin简介Kylin是什么Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区.它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发.简单来说,Kylin的核心思想是预计算,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问.把高复杂度的聚合运算.多表连接等操作转换成对预计算结果的查询,这决定…
本篇文章就概念.工作机制.数据备份.优势与不足4个方面详细介绍了Apache Kylin. Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎.它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB 级)的多维分析(OLAP)功能. 2. kylin 可实现超大数据集上的亚秒级(sub-second latency)查询. 1)确定 hadoop 上一个星型模式的数据集. 2)构建数据立方体 cube. 3)可通过 OD…
一.Apache kylin元数据的存储 Apache kylin的元数据包括 立方体描述(cube description),立方体实例(cube instances)项目(project).作业(job).表(table).字典(dictionary),参见: Apache kylin 核心概念.在kylin集群中至关重要,假如元数据丢失,kylin集群将无法工作. 在kylin 的设计中,元数据存储的类图如下: 可见kylin提供了两种方式存储元数据,一般而言,集群模式的元数据都选择在hb…
一.Apache kylin的基础环境 由于Apache kylin上的OLAP(wiki:OLAP)是构建在hadoop生态环境上的,所以hadoop环境的稳定性和健壮性对kylin的稳定运行至关重要.一般而言,Apache kylin实例最好部署在hadoop集群的客户端机器上:而通过hadoop客户端机器,kylin最好能直接访问hadoop.hdfs.hive.hbase等命令行脚本:另外,kylin进程实例的所有者,需要具备以下权限: 读/写 hadoop分布式文件系统. 提交MR任务…
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被持续地改进,但是一个查询等几分钟到几小时还是非常正常.在这篇博文里,将会介绍开源的分布式分析引擎Apache Kylin,尤其会重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方. Apache Kylin是什么? Kylin…
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯…
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求: 支持额外功能和特性的…
本文转自Apache Kylin公众号apachekylin. Superset 是一个数据探索和可视化平台,设计用来提供直观的,可视化的,交互式的分析体验. Superset 提供了两种分析数据源的方式: 1. 用户可以以单表形式直接查询多种数据源,包括 Presto.Hive.Impala.SparkSQL.MySQL.Postgres.Oracle.Redshift.SQL Server.Druid 等.本文后续内容也会详细介绍Superset如何支持Kylin数据源. 2. 一个 SQL…
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程,分两部分. 前半部分: 针对Kylin的初级和入门用户介…
转:http://mt.sohu.com/20160628/n456602429.shtml 我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO.今天我主要来和大家分享一下来Apache Kylin 1.5的新功能和架构改变. Apache Kylin是什么 Kylin是最近两年发展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知.Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的研究实验室孵化的,提供ANSI-SQL接口,支…
0x01 Kylin安装环境 Kylin依赖于hadoop大数据平台,安装部署之前确认,大数据平台已经安装Hadoop, HBase, Hive. 1.1 了解kylin的两种二进制包 预打包的二进制安装包:apache-kylin-1.6.0-bin.tar.gz 特别二进制包:apache-kylin-1.6.0-HBase1.x-bin.tar.gz 说明:特别二进制包是一个在HBase 1.1+环境上编译的Kylin快照二进制包:安装它需要HBase 1.1.3或更高版本,否则之前版本中…
首先:kylin是一种Online Analytics Platform.    kylin 在Apache的首页是http://kylin.apache.org/cn/.    kylin git代码在https://github.com/apache/kylin 简单介绍一下kylin在本机如何run,kylin需要Hadoop环境,默认是sandbox环境,sandbox安装可以看https://zh.hortonworks.com/products/sandbox/,用virtual b…
报错信息: -- ::, ERROR [Query 12e9c054-760c---b1f06724c9b6-] service.QueryService: : Exception when execute sql java.lang.NullPointerException at org.apache.kylin.metadata.project.ProjectL2Cache.loadCache(ProjectL2Cache.java:) at org.apache.kylin.metadat…
APACHE KYLIN™ 概览 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. KYLIN是什么? - 可扩展超快OLAP引擎:  Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口:  Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力:  通过…
Apache Kylin的官网 http://kylin.apache.org/cn/ - 可扩展超快OLAP引擎:  Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口:  Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力:  通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能 - 多维立方体(MOLAP Cube): 用户能够在Kylin里为百亿以上数据集定义数据模…
不多说,直接上干货! 1. Cube的物理模型 Cube物理模型 如上图所示,一个常用的3维立方体,包含:时间.地点.产品.假如data cell 中存放的是产量,则我们可以根据时间.地点.产品来确定产量,同时也可以根据时间.地点来确定所有产品的总产量等. Apache Kylin就将所有(时间.地点.产品)的各种组合实现算出来,data cell 中存放度量,其中每一种组合都称为cuboid.估n维的数据最多有2^n个cuboid,不过Kylin通过设定维度的种类,可以减少cuboid的数目.…
不多说,直接上干货! Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在hbase中,对外暴露JDBC.ODBC.Rest API的查询接口,即可实现实时查询. 如上图所示,Kylin从Hadoop Hive中获取数据,然后经过Cube Build Engine,将Hive中的数据Build成一个OLAP Cube保存在HBase中.用户执行SQL查询时,通过Query引擎…
本章节我们将介绍为什么须要在Kylin创建Cube过程中使用Hive视图.而假设使用Hive视图.能够带来什么优点.解决什么样的问题.以及须要学会怎样使用视图.使用视图有什么限制等等. 1.      为什么须要使用视图 Kylin创建Cube的过程中使用Hive的表数据作为输入源.可是有些情况下,Hive中的表定义和数据并不能满足分析的需求.比如有些列的值须要进行处理,有些列的类型不满足需求,甚至有时候我们在创建Hive表时为了方便快捷,会将Hive表的全部列的字段类型都定义为string,因…
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. KYLIN是什么? - 可扩展超快OLAP引擎:  Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口:  Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力:  通过Kylin…
1 Kylin是什么 今天,随着移动互联网.物联网.AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的"资产".如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索.分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析.而现在,这一问题已经变成了如何从海量的超大规模数据中快速获 取有价值的信息,新的时代.新的挑战.新的技术必然应运而生. 在大数据处理技术领域,用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果,…
OLAPCube是一种典型的多维数据分析技术,Cube本身可以认为是不同维度数据组成的dataset,一个OLAP Cube 可以拥有多个维度(Dimension),以及多个事实(Factor Measure).用户通过OLAP工具从多个角度来进行数据的多维分析.通常认为OLAP包括三种基本的分析操作:上卷(rollup).下钻(drilldown).切片切块(slicingand dicing),原始数据经过聚合以及整理后变成一个或多个维度的视图. ROLAP 以关系模型的方式存储用作多维分析…
现如今,大数据.数据科学和机器学习不仅是技术圈的热门话题,也是当今社会的重要组成.数据就在每个人身边,同时每天正以惊人的速度快速增长,据福布斯报道:到 2025 年,每年将产生大约 175 个 Zettabytes 的数据量. 目前我们所熟知的行业都越来越依赖于对大数据的高级处理和分析,如金融.医疗保健.农业.能源.媒体.教育等所有重要的社会发展行业,然而这些庞大的数据集让数据分析.数据挖掘.机器学习和数据科学面临了巨大的挑战. 数据科学家和分析师在尝试对于海量数据的分析时会面临数据处理流程复杂…
来自:AI前线(微信号:ai-front),作者:林兴财,编辑:Natalie作者介绍:林兴财,毕业于厦门大学计算机科学与技术专业.有多年的嵌入式开发.系统运维经验,现就职于四三九九网络股份有限公司,担任大数据开发工程师,主要负责大数据平台的规划建设. 本文介绍了 4399 大数据团队在公司大数据平台上应用 Kylin 的实践经验,并基于应用中遇到的问题给出了对应的优化建议.背 景 在开始案例分享前,先简单介绍一下 4399 以及 4399 的大数据团队 4399 是中国最早的和领先的在线休闲小…
Apache Kylin v3.0.0-alpha 发布 Apr 19, 2019 • Shaofeng Shi 近日 Apache Kylin 社区很高兴地宣布,Apache Kylin v3.0.0-alpha 正式发布. Apache Kylin 是一个开源的分布式分析引擎,旨在为极大数据集提供 SQL 接口和多维分析(OLAP)的能力. 这是 Kylin 下一代 v3.x 的第一个发布版本,用于早期预览,主要的功能是实时 (Real-time) OLAP.完整的改动列表请参见releas…