【转】备份Kylin的元数据】的更多相关文章

http://blog.csdn.net/jiangshouzhuang/article/details/51290239 Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index description and instances,jobs, tables and dictionaries)作为一个层次的文件系统. 然而,Kylin使用HBase来进行存储,而不是普通的文件系统. 我们可以从Kylin的…
元数据是Kylin中最重要的数据之一,备份元数据时运维工作中一个至关重要的环节.只有这样,在由于误操作导致整个Kylin服务或某个Cube异常时,才能将Kylin快速从备份中恢复出来. Kylin组织所有的元数据(cube.cube_desc.model_desc.project.table等)作为一个层次的文件系统.然而Kylin默认使用HBASE来进行存储,而不是普通的文件系统.我们可以在Kylin的配置文件conf/kylin.properties中查看到: ## The metadata…
一.Apache kylin元数据的存储 Apache kylin的元数据包括 立方体描述(cube description),立方体实例(cube instances)项目(project).作业(job).表(table).字典(dictionary),参见: Apache kylin 核心概念.在kylin集群中至关重要,假如元数据丢失,kylin集群将无法工作. 在kylin 的设计中,元数据存储的类图如下: 可见kylin提供了两种方式存储元数据,一般而言,集群模式的元数据都选择在hb…
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
在Kylin运行一段时间之后,有很多数据因为不再使用而变成了垃圾数据,这些数据占据着大量HDFS.HBASE等资源,当积累到一定规模时会对集群性能产生影响.这些垃圾数据主要包括: Purge之后原Cube的数据 Cube合并之后原Cube Segment的数据 任务失败中未被正常清理的临时数据文件 已经过时的Cube构建的日志和历史任务 为了对这些垃圾数据进行清理,Kylin提供了两个常用的工具.特别注意:数据一经删除将彻底无法恢复!建议使用前一定要进行元数据备份,并对目标资源删除之前进行谨慎的…
http://www.tektea.com/archives/2163.html. 在<Linux操作系统备份之一:使用LVM快照实现Linux操作系统数据的在线备份>文章中,我们介绍了使用LVM快照实现操作性系统在线备份的方法,LVM快照可以实现在线操作系统数据的备份,在线的意思也就是说,不中断业务的条件下,完成操作系统数据的备份. 今天我们介绍另外一种在线备份Linux操作系统的方法:通过tar拷贝操作系统分区数据,完成操作系统备份. 在继续往下面读之前,为了更好理解,请先阅读这篇文章:&…
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kylin安装包,选择一个Hadoop节点部署即可,Kylin使用标准的Hadoop API跟各个组件进行通信,不需要对现有的Hadoop安装额外的Agent. Kylin部署的架构是一个分层的结构,最底层是数据来源层,我们可以通过Sqoop等工具将数据迁移到HDFS分布式文件系统.Kylin依赖Hado…
http://blog.csdn.net/yu616568/article/details/50548967 为什么需要使用视图 Kylin在使用的过程中使用hive作为cube的输入,但是有些情况下,hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至有时候在创建hive表时为了图方便,hive中的所有列都被定义成了string,因此很多情况下在使用Kylin之前需要对hive上的数据格式进行适当的修剪,但是使用alter table的方式修改…
关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据.同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理.为数据仓库的发展和使用提供方便.关于数据的数据,用于构造.维持.管理.和使用数据仓库,在数据仓库中尤为重要.不同 OLAP 组件中的数据和应用程序的结构模型.元数据描述 OLTP 数据库中的表.数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块. 当需要了解某地企业及其提供的服务时,电话黄…
1 kylin 简介 Apache Kylin是2013年由eBay 在上海的一个中国工程师团队发起的.基于Hadoop大数据平台的开源 OLAP引擎,它采用多维立方体预计算技术,利用空间换时间的方法,把很多分钟级别乃至小时级别的大数据查询速度一下子提升到了亚秒级别,极大地提高了数据分析的效率,填补了业界在这方面的空白.该引擎为超大规模数据集上的交互式大数据分析打开了大门. 2 软件下载 社区版kylin下载地址:https://archive.apache.org/dist/kylin/ ,本…