kylin实战(一)】的更多相关文章

kylin实战系列(一) 把之前kylin的实践小结一下,以备以后查看.…
1. 引言 在分析广告日志时,会有这样的多维分析需求: 曝光.点击用户分别有多少? 标签能覆盖多少广告用户? 各个标签(标注)类别能覆盖的曝光.点击在各个DSP上所覆盖的用户数 -- 广告数据与标签数据join之后,存储orc file的schema如下: create external table default.ad_tag ( uid string ,dsp string ,view string ,click string ,tags array<struct<tag:string,l…
在cube build完成后,我的工作是写sql生成数据分析邮件报表.但是,问题是这种重复劳动效率低.易出错.浪费时间.还好Kylin提供RESTful API,可以将这种数据分析需求转换成HTTP请求. 1. RESTful API Kylin的认证是basic authentication,加密算法是Base64,加密的明文为username:password:在POST的header进行用户认证: curl -c cookiefile.txt -X POST -H "Authorizati…
kylin适用场景 OLAP 它适合数据量大,查询维度多,但是业务改动不频繁的场景.因为业务多,则kylin的cube很多.每次业务变更,kylin修改的工作量大,且每次全量跑数据耗费时间比较长. 它是采用空间换时间,预先将结果计算出来.维度较多时,数据膨胀很快. 如果查询结果可以直接命中,则查询速度很快:如果cube未覆盖,则查询很慢. 如果业务频繁迭代,初期可以考虑用mysql来支撑,等业务比较稳定以后,通过kylin来优化查询速度. 关键概念 维度:维度是观察数据的角度.例如:销售日期.销…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 关于<CDH+Kylin三部曲>系列 本文是<CDH+Kylin三部曲>的第一篇,整个系列由以下三篇组成: 准备工作:搭建CDH+Kylin环境前,将所有硬件.软件资源准备好 部署和设置:部署CDH和Kylin,再做相关设置 Kylin实战:在搭好的环境上运行Kylin官方dem…
版权申明:转载请注明出处.文章来源:http://bigdataer.net/?p=308 排版乱?请移步原文获得更好的阅读体验 前面两篇文章已经介绍了kylin的相关概念以及cube的一些原理,这篇文章将从一个实际的案例入手,介绍如何在kylin平台上创建一个多维分析项目. 1.创建project 进入kylin操作界面,如果没有project可以创建,kylin里面可以创建多个project,有效的把各种业务数据分析隔离开来.如图:如下,填写project name,description可…
版权申明:转载请注明出处. 文章来源:http://bigdataer.net/?p=306 排版乱?请移步原文获得更好的阅读体验 1.什么是cube? cube是所有dimession的组合,每一种dimession的组合称之为cuboid.某一有n个dimession的cube会有2n个cuboid,如图: 对应一张hive表,有time,item,location,supplier这四个维度,则0-D cuboid时对应的查询语句为 select sum(money) from table…
版权申明:转载请注明出处.文章来源:http://bigdataer.net/?p=292 排版乱?请移步原文获得更好的阅读体验 1.概述 kylin是一款开源的分布式数据分析工具,基于hadoop之上的sql查询接口,能支持超大规模的数据分析.响应时间在亚秒级别,其核心是预计算,计算结果存放在hbase中. 2.特性 可扩展超快OLAP引擎:Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计 Hadoop ANSI SQL 接口:Kylin为Hadoop提供标准SQL支持大部分查询功…
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Transaction Processing, OLTP),面向的是顾客,诸如:办事员.DBA等.而数据仓库主要面向知识工人(如经理.主管等)提供数据分析处理,这种处理被称为OLAP(Online Analysis Processing).OLTP管理的是当前数据,比较琐碎,很难用于做决策.而OLAP管理的是大量历史数据,提供汇总与聚集机制,并在不同的维度.不同的粒度…