Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求: 支持额外功能和特性的…
大数据应用日志采集之Scribe 安装配置指南 大数据应用日志采集之Scribe 安装配置指南 1.概述 Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能从各种日志源收集日志,存储到一个中央存储系统上,便于进行集中统计分析处理.它为日志的”分布式收集,统一处理”提供了一个可扩展的,高容错的方案.scribe代码很简单,但是安装配置却很复杂,本文记录了作者实际的一次安装的过程,感觉真是不一般的琐碎,另外Scribe开源社区的版本已经是几年前的版本了,…
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯…
1. 概述 本文首先会简单介绍Kylin的安装配置,然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin. Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. 1.2 环境说明 CDH版本:5.11.2 Linux版本:7.4.1708 Docker版本:Docker version 18.06.0-ce…
摘要:近日,帆软官方正式发布大数据直连引擎FineDirect模块.通过该模块,企业在应用FineBI原有功能的基础上,可直接对接现有数据源,无论是传统的关系型数据库,还是Hadoop生态圈.Mpp构架,都可以直接自助取数分析. 当前,企业对数据的应用,一方面数据仓库和BI结合的方式仍占主导,另一方面越来越多的企业已逐渐引入大数据计算平台.个性化的方案.日益增长的数据,对BI工具的要求越来越高. Gartner也在2017年的BI报告中指出:未来5年,基于Hadoop/Spark,基于搜索和可视…
前言 在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现方式,接着对比了实时计算和离线计算.随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop.Storm.Spark.Flink).在网上有人将大数据计算引擎的发展分为四个阶段. 第一代:Hadoop 承载的 MapReduce 第二代:支持 DAG(有向无环图)框架的计算引擎 Tez 和 Oozie,主要还是批处理任务 第三代:支持 Job 内部的 DAG(有向无环图),以…
本讲通过实验的方式讲解Hadoop文件系统的操作. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 首先我们看一些比较常用的Hadoop文件系统的操作命令: 第一个常用命令:hadoop fs –ls 例如使用以下命令是列出文件系统根目录下的文件和文件夹,具体效果如下图所示: 第二个常用命令:hadoop fs –mkidr 例如使用以下命令是在HDFS中的根目录下…
作为解决方案厂商,MapGis是如何实现分布式大数据存储的呢? MapGIS在传统关系型空间数据库引擎MapGIS SDE的基础之上,针对地理大数据的特点,构建了MapGIS DataStore分布式数据库引擎,其集成整合了多种开源分布式数据库和文件系统,分别用来存储和管理关系型数据,切片型数据,实时型数据和非结构化数据,形成针对地理大数据应用场景相关的解决方案. 传统关系型数据库在存储海量矢量数据时,只能部署在单个服务器上,无法承受海量数据的存储和查询请求,尤其是对于对象个数超过千万条的复杂空…
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案. 一.背景介绍 ​ QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听.看.玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库.优质服务的背后,是每…
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 关于MapReduce,你至少需要知道以下几点: 1,         MapReduce是运行于分布式文件系统之上的,在Hadoop中就是运行于HDFS之上的: 2,         MapReduce主要用于大规模数据的并行运算,这种大数据通过指1TB以上:…