Kylin构建cube时状态一直处于pending】的更多相关文章

在安装好kylin之后我直接去访问web监控页面发现能够进去,也没有去看日志.然后在运行官方带的例子去bulid cube时去发现状态一直是pending而不是runing.这个时候才去查看日志: 2017-01-18 09:54:49,236 INFO [localhost-startStop-1] web.DefaultSecurityFilterChain:28 : Creating filter chain: org.springframework.security.web.util.A…
前言 下面通过对kylin构建cube流程的分析来介绍cube优化思路. 创建hive中间表 kylin会在cube构建的第一步先构建一张hive的中间表,该表关联了所有的事实表和维度表,也就是一张宽表. 优化点: 1. hive表分区优化,在构建宽表的时候,kylin需要遍历hive表,事实表和维度表如果是分区表,那么会减少遍历时间 2. hive相关配置调整,join相关配置,mapreduce相关配置等 创建完成后,为了防止文件大小不一致的情况,kylin又基于hive做了一次重均衡操作,…
1 前言 在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的build会生成一个segment,每一个segment对应着一个时间区间的cube,这些segment的时间区间是连续并且不重合的,对于拥有多个segment的cube可以执行merge,相当于将一…
Apache Kylin™ 是一个开源的.分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表. Kylin 的核心思想是”预计算“,将数据按照指定的维度和指标,预先计算出所有可能的查询结果,利用空间换时间来加速模式固定的 OLAP 查询. Kylin 的理论基础是 Cube 理论,每一种维度组合称之为 Cuboid,所有 Cuboid 的集合称之为 Cube.如下图,整个立方体称为 1 个 Cub…
HDP版本:2.6.4.0 Kylin版本:2.5.1 机器:三台 CentOS-7,8G 内存 Kylin 的计算引擎除了 MapReduce ,还有速度更快的 Spark ,本文就以 Kylin 自带的示例 kylin_sales_cube 来测试一下 Spark 构建 Cube 的速度. 一.配置Kylin的相关Spark参数 在运行 Spark cubing 前,建议查看一下这些配置并根据集群的情况进行自定义.下面是建议配置,开启了 Spark 动态资源分配: ## Spark conf…
调用kylin的restAPI接口构建cube 参考:http://kylin.apache.org/docs/howto/howto_build_cube_with_restapi.html 1. 调用cube的构建操作 curl -X PUT -H "Authorization: Basic QURNSU46IUB3c3VPOTAtQw==" -H 'Content-Type: application/json' -d '{"startTime":'150163…
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kylin安装包,选择一个Hadoop节点部署即可,Kylin使用标准的Hadoop API跟各个组件进行通信,不需要对现有的Hadoop安装额外的Agent. Kylin部署的架构是一个分层的结构,最底层是数据来源层,我们可以通过Sqoop等工具将数据迁移到HDFS分布式文件系统.Kylin依赖Hado…
本文章经授权转载 Apache Kylin 上游通常有复杂的数据 ETL 过程,如 Hive 入库.数据清洗等:下游有报表刷新,邮件分发等.集成 Apache DolphinScheduler 后,Kylin 可以方便地将大数据平台各组件串联起来,让各个任务通过 DAG 统一调度. 01 背景 Apache Kylin 是一个支持海量大数据的在线分析引擎,需要离线或流式地从 Apache Hive.Apache Kafka 加载数据.通常当上游数据准备好以后,用户需要使用 Kylin 的 Web…
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Transaction Processing, OLTP),面向的是顾客,诸如:办事员.DBA等.而数据仓库主要面向知识工人(如经理.主管等)提供数据分析处理,这种处理被称为OLAP(Online Analysis Processing).OLTP管理的是当前数据,比较琐碎,很难用于做决策.而OLAP管理的是大量历史数据,提供汇总与聚集机制,并在不同的维度.不同的粒度…