备份Kylin的Metadata】的更多相关文章

元数据是Kylin中最重要的数据之一,备份元数据时运维工作中一个至关重要的环节.只有这样,在由于误操作导致整个Kylin服务或某个Cube异常时,才能将Kylin快速从备份中恢复出来. Kylin组织所有的元数据(cube.cube_desc.model_desc.project.table等)作为一个层次的文件系统.然而Kylin默认使用HBASE来进行存储,而不是普通的文件系统.我们可以在Kylin的配置文件conf/kylin.properties中查看到: ## The metadata…
http://blog.csdn.net/jiangshouzhuang/article/details/51290239 Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index description and instances,jobs, tables and dictionaries)作为一个层次的文件系统. 然而,Kylin使用HBase来进行存储,而不是普通的文件系统. 我们可以从Kylin的…
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
本篇文章就概念.工作机制.数据备份.优势与不足4个方面详细介绍了Apache Kylin. Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎.它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB 级)的多维分析(OLAP)功能. 2. kylin 可实现超大数据集上的亚秒级(sub-second latency)查询. 1)确定 hadoop 上一个星型模式的数据集. 2)构建数据立方体 cube. 3)可通过 OD…
由eBay开源的一个大数据OLAP框架,2014年11月加入了Apache,项目名字也改成了"Apache Kylin",Apache Kylin是唯一来自中国的Apache顶级开源项目,定位于在Hadoop平台之上实现传统数据仓库,商业智能的能力,提供交互式的,多维分析能力,并提供在传统数据仓库技术所不能做到的超大规模数据集的快速查询,并使用普通的PC硬件,而无需采购专用的,私有的一体机或者高端存储等 kylin是一个MOLAP系统,通过预计算的方式缓存了所有 需要查询的的数据结果,…
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业级开源大数据分析平台. 正文如下 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟…
来源 Cube: 用空间换时间(类似:BI分析) 预计算把用户需要查询的维度以及他们所对应的考量的值,存储在多维空间里 当用户查询某几个维度的时候,通过这些维度条件去定位到预计算的向量空间,通过再聚合处理,快速返回最终结果给用户. Kylin的cube不是单一维度的组合,而是所有组合都可以计算.N个维度的完整Cube, 会有2的N次方种组合. 如何计算:逐层算法.它会启动N+1轮MapReduce计算 第一轮读取原始数据,去掉不相关的列,只保留相关的,同时对维度列进行压缩编码.以此处的四维Cub…
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程,分两部分. 前半部分: 针对Kylin的初级和入门用户介…
在Kylin运行一段时间之后,有很多数据因为不再使用而变成了垃圾数据,这些数据占据着大量HDFS.HBASE等资源,当积累到一定规模时会对集群性能产生影响.这些垃圾数据主要包括: Purge之后原Cube的数据 Cube合并之后原Cube Segment的数据 任务失败中未被正常清理的临时数据文件 已经过时的Cube构建的日志和历史任务 为了对这些垃圾数据进行清理,Kylin提供了两个常用的工具.特别注意:数据一经删除将彻底无法恢复!建议使用前一定要进行元数据备份,并对目标资源删除之前进行谨慎的…
  mydumper是一个针对MySQL的高性能多线程备份和恢复工具,它提供了并发备份功能,备份效率有很大提高. 安装mydumper yum安装 # rpm -ivh https://github.com/maxbube/mydumper/releases/download/v0.9.5/mydumper-0.9.5-2.el7.x86_64.rpm 编译安装 # yum install glib2-devel mysql-devel zlib-devel pcre-devel openssl…
Ⅰ.GTID的介绍 global transaction id identifier 全局事务id gtid = server_uuid + transaction_id server_uuid是全局唯一的,5.6开始才有,表示当前实例的uuid,保存在数据目录中的auto.conf文件中 transaction_id是自增的 gtid的作用是替代filename + position 主:show master status; (root@localhost) [test]> show mas…
服务器上以sys或system超级管理员登录. SQL>create directory expdp_dir as '/home/oracle/dmpdata';(dmpdata 需要建立.赋予目录权限) SQL>grant read,write on directory expdp_dir to hwifi;(数据库username)     导出表中的部分记录(query): expdp hwifi/123456 dumpfile=test.dmp directory=expdp_dir…
首先介绍Snapshot snapshot可以为volume创建快照,快照中保存了volume当前的状态,此后可以通过snapshot回溯 主要采用了Copy On Write算法.进行快照时,不牵涉到任何档案复制动作,它所作的只是通知服务器将目前有数据的磁盘区块全部保留起来,不被覆写.接下来档案修改或任何新增.删除动作,均不会覆写原本数据所在的磁盘区块,而是将修改部分写入其它可用的磁盘区块中. COW技术在很多场景都有应用,下图为编程中创建子进程时采用COW技术的场景(思想一致): 只读情况:…
一.特点 • 可通过 DBMS_DATAPUMP 调用 • 可提供以下工具: – expdp – impdp – 基于 Web 的界面 • 提供四种数据移动方法: – 数据文件复制 – 直接路径 – 外部表 – 网络链接支持e • 可与长时间运行的作业分离后再重新挂接 • 可重新启动数据泵作业 DBMS_DATAPUMP 调用示例 declare h1 NUMBER; begin h1 := dbms_datapump.open (operation => 'EXPORT', job_mode…
1. 创建目录 使用数据泵之前,需要创建一个存放文件的目录. 这个目录要写入Oracle的数据字典中才能识别. (1)先查看一下已经存在的目录: SQL> col owner format a5 SQL> col directory_name format a25 SQL> select * from dba_directories; OWNER DIRECTORY_NAME            DIRECTORY_PATH ----- ------------------------…
一.问题背景 安装kylin后使用命令 $ kylin.sh start 后出现Failed to find metadata store by url: kylin_metadata@hbase的错误. 二.解决办法 起初shell里打印的错误信息我没有仔细看,以为单纯是kylin的问题.后来我仔细看了一下信息,发现在这行错误日志上面,还有一条信息:[INFO] error can't get master address from zookeeper znode data == null .…
一.出问题的原因 昨天因为项目需要,要将cloudera集群改成高可用,没想到失败了,当时因为冲动手动删了几个hdfs实例的原因,导致退不到原来的状态,折腾了一天,最后终于退回了非HA的集群,但是hdfs里面的资料已经没了(还好是测试集群,不然死定了).后面其他工具陆续搞到可以使用的状态,偏偏kylin又报错了. 二.具体报错和解决 1. 具体报错 Exception in thread "main" java.lang.IllegalArgumentException: Failed…
github被微软收购后,提供的工具种类是越来越多了,大大提高了我们程序员日常工作的效率. 今天我偶然发现,我们可以一键把自己整个github上的数据,不仅仅是代码,还包含每个仓库里创建的issue都轻松下载到本地进行备份. 点这个setting按钮: 点Account超链接: 新建一个export作业 - 导出作业. 过了一会,我们github注册的邮箱地址会收到一封邮件,点击Download export就可以下载一个压缩包到本地: 我这个账号的所有github数据不export不知道,一e…
目录 前言 kylin streaming设计和原理 架构介绍 streaming coordinator streaming receiver cluster kylin streaming数据构建流程 kylin streaming查询流程 kylin streaming实现细节 kylin streaming segment存储实现 重平衡/重分配 故障恢复 kylin streaming优化 总结 前言 最近搭了Kylin Streaming并初步测试了下,觉得这个东西虽然有些限制,但还…
数据库备份分为数据文件备份和日志文件备份,数据文件的备份分为:完整备份和差异备份.在SQL Server 2012中,能够将数据分布式备份到不同的存储设备上,一般情况,只将数据备份到一个备份文件(.bak)中,只有在备份超大的数据库时,才需要分布式备份,对于备份集(backup set),备份介质(backup Media),备份族(backup family),镜像备份,等等看似复杂的术语,不用深入了解,简单了解一下基本知识: backup set:是数据或日志的一次备份: backup me…
最近在做一个新的项目,从RDS备份到OSS,进行数据备份以及后续的还原.这边对阿里云的OSS数据上传接口进行说明,先做下笔记先简单介绍下OSS: ①Object 在OSS中,用户操作的基本数据单元是Object.单个Object最大允许存储5TB的数据.Object包含key.meta和data.其中,key是Object的名字:meta是用户对该object的描述,由一系列name-value对组成:data是Object的数据. 其中Object命名规范:使用UTF-8编码:长度必须在1-1…
Chrome版本发布时间表 2016.10.13 v54.0.2840.59  主题颜色由 蓝色 变为 灰色 2016.11.17 重新使用 Chrome 浏览器(v54.0.2840.99),并设置为默认浏览器.Mac版下载 特别注意 不要 去删除Chrome 用户,不然的话,个性化配置 和 插件安装 等参数全部都会丢失! Chrome个性化设置 1.字体设置 参考:Ubuntu 14 Chrome字体设置备份 2.把 灰色的主题 改回 经典的 蓝色主题 在地址栏中输入:chrome://fl…
MySQL在备份方面包含了自身的mysqldump工具,但其只支持单线程工作,这就使得它无法迅速的备份数据.而mydumper作为一个实用工具,能够良好支持多线程工作,这使得它在处理速度方面十倍于传统的mysqldump.其特征之一是在处理过程中需要对列表加以锁定,因此如果我们需要在工作时段执行备份工作,那么会引起DML阻塞.但一般现在的MySQL都有主从,备份也大部分在从上进行,所以锁的问题可以不用考虑.这样,mydumper能更好的完成备份任务. ###更新(2016-04-01)### 注…
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kylin安装包,选择一个Hadoop节点部署即可,Kylin使用标准的Hadoop API跟各个组件进行通信,不需要对现有的Hadoop安装额外的Agent. Kylin部署的架构是一个分层的结构,最底层是数据来源层,我们可以通过Sqoop等工具将数据迁移到HDFS分布式文件系统.Kylin依赖Hado…
Mydumper是一个针对MySQL和Drizzle的高性能多线程备份和恢复工具.开发人员主要来自MySQL,Facebook,SkySQL公司.目前已经在一些线上使用了Mydumper. Mydumper主要特性:1.轻量级C语言写的2.执行速度比mysqldump快10倍3.事务性和非事务性表一致的快照(适用于0.2.2以上版本)4.快速的文件压缩5.支持导出binlog6.多线程恢复(适用于0.2.1以上版本)7.以守护进程的工作方式,定时快照和连续二进制日志(适用于0.5.0以上版本)8…
张映 发表于 2013-12-03 分类目录: nosql 标签:mongodb, 备份, 导入, 导出, 还原 mongodb数据备份和还原主要分为二种,一种是针对于库的mongodump和mongorestore,一种是针对库中表的mongoexport和mongoimport. 一,mongodump备份数据库 1,常用命令格 mongodump -h IP --port 端口 -u 用户名 -p 密码 -d 数据库 -o 文件存在路径 如果没有用户谁,可以去掉-u和-p.如果导出本机的数…
现有需求:需要备份MySQL5.6环境下的部分表到MySQL5.7环境下并进行恢复 通过xtrabackup 实现部分备份有三种方式: 参考链接:http://blog.csdn.net/zhu19774279/article/details/49681767 我这里测试了两种方法: way1 /usr/bin/innobackupex --defaults-file=/etc/mysql/3306.cnf /data0/sql --include='test.t1|mysql.*|perfor…
最近在做大数据方面的开发, 学习研究了一段时间的kylin系统, 对于前端开发需要使用 RESTful API ,但是官网并没有提供详细的Java  API. 经过几天的看文档,最终写出了 Java 的API,不敢私藏,特分享与大家. import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStream; import jav…
Partial Backups XtraBackup支持partial backups,这意味着你可以只备份部分表或库.要备份的表必须是独立表空间,即innodb_file_per_table=1 有一点需要注意的是,部分备份不要copy back prepared backup.restore partial backups应该用导入,而不是--copy-back 创建partial backups 有三种方式可以创建partial backups: 1.--include 支持正则 2.--…
mongodb数据备份和还原主要分为二种,一种是针对于库的mongodump和mongorestore,一种是针对库中表的mongoexport和mongoimport 一,mongodump备份数据库 1,常用命令格 1 mongodump -h IP --port 端口 -u 用户名 -p 密码 -d 数据库 -o 文件存在路径 如果没有用户谁,可以去掉-u和-p.如果导出本机的数据库,可以去掉-h.如果是默认端口,可以去掉--port.如果想导出所有数据库,可以去掉-d. 2,导出所有数据…