首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
Apache Kylin高级部分之使用Hive视图
】的更多相关文章
Apache Kylin高级部分之使用Hive视图
本章节我们将介绍为什么须要在Kylin创建Cube过程中使用Hive视图.而假设使用Hive视图.能够带来什么优点.解决什么样的问题.以及须要学会怎样使用视图.使用视图有什么限制等等. 1. 为什么须要使用视图 Kylin创建Cube的过程中使用Hive的表数据作为输入源.可是有些情况下,Hive中的表定义和数据并不能满足分析的需求.比如有些列的值须要进行处理,有些列的类型不满足需求,甚至有时候我们在创建Hive表时为了方便快捷,会将Hive表的全部列的字段类型都定义为string,因…
《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
Apache Kylin - 大数据下的OLAP解决方案
OLAPCube是一种典型的多维数据分析技术,Cube本身可以认为是不同维度数据组成的dataset,一个OLAP Cube 可以拥有多个维度(Dimension),以及多个事实(Factor Measure).用户通过OLAP工具从多个角度来进行数据的多维分析.通常认为OLAP包括三种基本的分析操作:上卷(rollup).下钻(drilldown).切片切块(slicingand dicing),原始数据经过聚合以及整理后变成一个或多个维度的视图. ROLAP 以关系模型的方式存储用作多维分析…
【转】使用Apache Kylin搭建企业级开源大数据分析平台
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业级开源大数据分析平台. 正文如下 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟…
Apache Kylin学习资料
官方文档: http://kylin.apache.org/cn/docs/tutorial/web.html kylin对接hive实现实时查询:https://www.cnblogs.com/654wangzai321/p/9676204.html Kylin实践之使用Hive视图:https://blog.csdn.net/yu616568/article/details/50548967 Druid和Caravel在去哪儿大住宿的实践:https://blog.csdn.net/u010…
【转】Apache Kylin 2.0为大数据带来交互式的BI
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被持续地改进,但是一个查询等几分钟到几小时还是非常正常.在这篇博文里,将会介绍开源的分布式分析引擎Apache Kylin,尤其会重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方. Apache Kylin是什么? Kylin…
官方教程:Apache Kylin和Superset集成,使用开源组件,完美打造OLAP系统
本文转自Apache Kylin公众号apachekylin. Superset 是一个数据探索和可视化平台,设计用来提供直观的,可视化的,交互式的分析体验. Superset 提供了两种分析数据源的方式: 1. 用户可以以单表形式直接查询多种数据源,包括 Presto.Hive.Impala.SparkSQL.MySQL.Postgres.Oracle.Redshift.SQL Server.Druid 等.本文后续内容也会详细介绍Superset如何支持Kylin数据源. 2. 一个 SQL…
使用Apache Kylin搭建企业级开源大数据分析平台
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程,分两部分. 前半部分: 针对Kylin的初级和入门用户介…
Apache Kylin大数据分析平台的演进
转:http://mt.sohu.com/20160628/n456602429.shtml 我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO.今天我主要来和大家分享一下来Apache Kylin 1.5的新功能和架构改变. Apache Kylin是什么 Kylin是最近两年发展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知.Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的研究实验室孵化的,提供ANSI-SQL接口,支…
Apache Kylin 概述
1 Kylin是什么 今天,随着移动互联网.物联网.AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的"资产".如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索.分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析.而现在,这一问题已经变成了如何从海量的超大规模数据中快速获 取有价值的信息,新的时代.新的挑战.新的技术必然应运而生. 在大数据处理技术领域,用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果,…
Apache Kylin在4399大数据平台的应用
来自:AI前线(微信号:ai-front),作者:林兴财,编辑:Natalie作者介绍:林兴财,毕业于厦门大学计算机科学与技术专业.有多年的嵌入式开发.系统运维经验,现就职于四三九九网络股份有限公司,担任大数据开发工程师,主要负责大数据平台的规划建设. 本文介绍了 4399 大数据团队在公司大数据平台上应用 Kylin 的实践经验,并基于应用中遇到的问题给出了对应的优化建议.背 景 在开始案例分享前,先简单介绍一下 4399 以及 4399 的大数据团队 4399 是中国最早的和领先的在线休闲小…
[转帖]Apache Kylin 概述
Apache Kylin 概述 https://www.cnblogs.com/xiaodf/p/11671095.html 1 Kylin是什么 今天,随着移动互联网.物联网.AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”.如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索.分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析.而现在,这一问题已经变成了如何从海量的超大规模数据中快速获 取有价值的信息,新的时代.新的挑战.…
学习笔记:Apache Kylin 概述
一.kylin解决了什么关键问题? Apache Kylin的初衷就是解决千亿.万亿条记录的秒级查询问题,其中的关键就是打破查询时间随着数据量呈线性增长的这一规律. 大数据OLAP,我们可以注意到两个事实: • 大数据查询要的一般是统计结果,是多条记录经过聚合函数计算后的统计值.原始的记录则不是必需的,或者被访问的频率和概率极低. • 聚合是按维度进行的,而维度的聚合可能性是有限的,一般不随数据的膨胀而线性增长. 基于以上两点,我们得到一个新的思路——“预计算”.应尽量多地预先计算聚合结果,在查…
直播 | Apache Kylin & Apache Hudi Meetup
千呼万唤始出来,Meetup 直播终于来啦- 本次线上 Meetup 由 Apache Kylin 与 Apache Hudi 社区联合举办,将于 3 月 14 日晚进行直播,邀请到来自丁香园.腾讯.柯林布瑞以及 Kyligence 等公司的技术专家,为大家呈现 Kylin 与「由 Uber 开源的数据湖项目」Hudi 的精彩应用案例与实践.感兴趣的小伙伴可以直接拉到文末报名! 活动议程 19:00-19:05 开场 19:05-19:35 Talk 1:<丁香园日志量十倍增长引发的运维…
浅淡 Apache Kylin 与 ClickHouse 的对比
作者简介 周耀,Kyligence 解决方案架构师,Apache Kylin.Apache Superset Contributor. Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎:Kylin 最初由 eBay 中国研发中心开发,2014 年开源并贡献给 Apache 软件基金会,凭借着亚秒级查询的能力和超高的并发查询能力,被许多大厂所采用,包括美团,滴滴,携程,贝壳找房,腾讯,58同城等: OLAP 领域这两年炙手可热的 ClickHouse,由…
Apache Kylin 部署之不完全指南
1. 引言 Apache Kylin(麒麟)是由eBay开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据.底层存储用的是HBase,数据输入与cube building用的是Hive,中间数据存储用的是HDFS.搭建环境: Kylin version = 1.2 Hive version = 0.13.1-cdh5.3.2 HBase version = 0.98.6+cdh5.3.2 Hadoop version = 2.5.0-cdh5.…
大数据分析神兽麒麟(Apache Kylin)
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式查询等等.神兽Apache Kylin就是为了解决这些问题而设计的. Apache Kylin,中文名麒(shen)麟(shou)…
【大数据安全】Apache Kylin 安全配置(Kerberos)
1. 概述 本文首先会简单介绍Kylin的安装配置,然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin. Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. 1.2 环境说明 CDH版本:5.11.2 Linux版本:7.4.1708 Docker版本:Docker version 18.06.0-ce…
Apache kylin概览
一.Apache kylin的核心概念 表(Table ):表定义在hive中,是数据立方体(Data cube)的数据源,在build cube 之前,必须同步在 kylin中. 模型(model):模型描述了一个星型模式的数据结构,它定义了一个事实表(Fact Table: Wiki:Fact_table)和多个查找表(Lookup Table:Wiki:Lookup_table)的连接和过滤关系. 立方体(Cube):它定义了使用的模型.模型中的表的维度(dimension:Wiki:di…
apache kylin的单节点及多节点安装
Kylin的使用安装文档Kylin简介Kylin是什么Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区.它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发.简单来说,Kylin的核心思想是预计算,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问.把高复杂度的聚合运算.多表连接等操作转换成对预计算结果的查询,这决定…
Apache kylin 入门
本篇文章就概念.工作机制.数据备份.优势与不足4个方面详细介绍了Apache Kylin. Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎.它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB 级)的多维分析(OLAP)功能. 2. kylin 可实现超大数据集上的亚秒级(sub-second latency)查询. 1)确定 hadoop 上一个星型模式的数据集. 2)构建数据立方体 cube. 3)可通过 OD…
Apache kylin的基础环境
一.Apache kylin的基础环境 由于Apache kylin上的OLAP(wiki:OLAP)是构建在hadoop生态环境上的,所以hadoop环境的稳定性和健壮性对kylin的稳定运行至关重要.一般而言,Apache kylin实例最好部署在hadoop集群的客户端机器上:而通过hadoop客户端机器,kylin最好能直接访问hadoop.hdfs.hive.hbase等命令行脚本:另外,kylin进程实例的所有者,需要具备以下权限: 读/写 hadoop分布式文件系统. 提交MR任务…
大数据分析界的“神兽”Apache Kylin有多牛?【转】
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯…
分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求: 支持额外功能和特性的…
Apache Kylin安装部署
0x01 Kylin安装环境 Kylin依赖于hadoop大数据平台,安装部署之前确认,大数据平台已经安装Hadoop, HBase, Hive. 1.1 了解kylin的两种二进制包 预打包的二进制安装包:apache-kylin-1.6.0-bin.tar.gz 特别二进制包:apache-kylin-1.6.0-HBase1.x-bin.tar.gz 说明:特别二进制包是一个在HBase 1.1+环境上编译的Kylin快照二进制包:安装它需要HBase 1.1.3或更高版本,否则之前版本中…
APACHE KYLIN™ 概览
APACHE KYLIN™ 概览 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. KYLIN是什么? - 可扩展超快OLAP引擎: Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口: Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力: 通过…
Apache Kylin 是什么?
Apache Kylin的官网 http://kylin.apache.org/cn/ - 可扩展超快OLAP引擎: Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口: Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力: 通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能 - 多维立方体(MOLAP Cube): 用户能够在Kylin里为百亿以上数据集定义数据模…
Apache Kylin Cube 的构建过程
不多说,直接上干货! 1. Cube的物理模型 Cube物理模型 如上图所示,一个常用的3维立方体,包含:时间.地点.产品.假如data cell 中存放的是产量,则我们可以根据时间.地点.产品来确定产量,同时也可以根据时间.地点来确定所有产品的总产量等. Apache Kylin就将所有(时间.地点.产品)的各种组合实现算出来,data cell 中存放度量,其中每一种组合都称为cuboid.估n维的数据最多有2^n个cuboid,不过Kylin通过设定维度的种类,可以减少cuboid的数目.…
Apache Kylin的框架介绍
不多说,直接上干货! Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在hbase中,对外暴露JDBC.ODBC.Rest API的查询接口,即可实现实时查询. 如上图所示,Kylin从Hadoop Hive中获取数据,然后经过Cube Build Engine,将Hive中的数据Build成一个OLAP Cube保存在HBase中.用户执行SQL查询时,通过Query引擎…
APACHE KYLIN™ 概览(分布式分析引擎)
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. KYLIN是什么? - 可扩展超快OLAP引擎: Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口: Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力: 通过Kylin…