hbase最近的一些实践】的更多相关文章

摘要:第九届中国数据库技术大会,阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解.主要从数据导入场景. HBase Bulkload功能.HImporter系统.数据导出场景.HExporter系统这些部分进行了讲述. 直播视频请点击PPT下载请点击精彩视频整理: 数据导入场景 生意参谋 生意参谋是一种为商家服务,帮助商家进行决策和运营的数据产品.如在淘宝或天猫上开一家店,生意参谋会提供店里每天进入的流量.转化率.客户的画像和同行业进行对比这些数据属于什么位置.商家可以根…
一.概述 HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式: 1.使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 2.还有一种方式就是使用HBase原生Client API 这两种方式因为须要频繁的与数据所存储的RegionServer通信.一次性入库大量数据时,特别占用资源,所以都不是最有效的.了解过HBase底层原理的应该都知道,HBase在HDFS中是以HFile文件结构存储的,一个比較高效便捷的方法就是使…
有一段实践没有写东西了,最近组里面来了两个新的小伙伴,并且一起针对目前的hbase集群做了一些运维和优化实践,比较零散,记录下来供以后以及和大家参考. 1,hbase regionserver宕机导致集群状态不一致问题处理和原因调研 问题:region server因oom被kill后,通过hack检查,发现集群中某些表出现不一致,不一致信息如下: Region XXX not in Meta, but deployed on XXXX. 诊断:正常情况下regionserver宕机系统不应该出…
导语:本文介绍的项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重.该项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求. 背景介绍 本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中…
过去的一年里,我们准备在Ali-HBase上突破这个被普遍认知的痛点,为此进行了深度分析及全面创新的工作,获得了一些比较好的效果.以蚂蚁风控场景为例,HBase的线上young GC时间从120ms减少到15ms,结合阿里巴巴JDK团队提供的利器--AliGC,进一步在实验室压测环境做到了5ms.本文主要介绍我们过去在这方面的一些工作和技术思想. 背景 JVM的GC机制对开发者屏蔽了内存管理的细节,提高了开发效率.说起GC,很多人的第一反应可能是JVM长时间停顿或者FGC导致进程卡死不可服务的情…
背景介绍 本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重.本项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求.下面列一些具体的需求指标: 数据量:目前 check 表的累计数据量为 5000w+ 行,11GB:opin…
本周主要是根据教程对HBASE进行了编程实践,对于hadoop的编程来说需要用到很多的.jar 包,在进行编程实践的时候需要参照相关的教程将jar包添加至程序当中去.教程上给的代码还是比较详细的,加上之前的学习,对于一些简单代码还是比较容易理解的.另外本周还对典型的NOSQL数据库Redis进行了安装,我是通过ftp将林子雨老师给的应用软件上传过去的,根据教程安装过程也并不是太难.安装完之后对其进行了简单的操作…
背景 由于公司业务场景的需要,我们需要开发HBase平台,主要需要以下功能: 建表管理 授权管理 SDK实现 与公司内部系统打通 我们使用的HBase 版本: HBase 1.2.0-cdh5.16.2 Hadoop: 2.6.0-cdh5.16.2 目前主要应用场景: 实时计算如商品.商家等维度表 去重逻辑 中间件服务等监控数据 用户画像 平台建设 建表管理 1.指定命名空间 HBase系统默认定义了两个缺省的namespace: hbase:系统内建表,包括namespace和meta表 d…
http://tech.meituan.com/hadoop-security-practice.html 前言 在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证.本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法. 背景 集群安全措施相对薄弱 最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群安全问题就显得颇为重…
HBase全网最佳学习资料汇总 摘要: HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴.百度.腾讯.京东.小米都有数千台的HBase集群,中国电信的话单.中国人寿的保单都是存储在HBase中. 前言 HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴.京东.小米都有数千台的HBase集群,中国电信的话单.中国人寿的保单都是存储在HBase中.注意大公司有数十个数百个HBase集群,此点跟Hadoop集…