hbase存储优化

1、上面的2张图主要说明hbase的存储特点

(1)、每个值（每条记录的每一个列的值）的存储，都完整的存储了rowkey、column family、column、版本(时间戳)，以及该列的值。

这样其实很浪费存储空间。对应的最直接的存储优化方案就是缩短rowkey、column family、column、版本(时间戳)的长度。在建表的时候就把这几项设置的极其短。

(2)、hbase是列式存储，天生就适合进行压缩等优化。

(3)、也可以通过（合并多个记录为一条记录）减少rowkey来减少表的记录数，达到减少key查找的效果，从而提升查询性能。代价就是每次查询的结果需要解析拆开，并且读取的对象比原来的单个记录要大。

2、hbase的存储优化的方案选择：压缩还是编码

(1)、参照这篇文章，对比了hbase编码和压缩2种优化方案的优缺点

A、REFIX_TREE编码方式不仅能起到压缩的效果

B、而且比较省CPU和内存。

http://blog.csdn.net/javastart/article/details/51820212

(2)、下面这篇文章，列出了PREFIX_TREE编码方式的优点：

A、REFIX_TREE提升从DataBlock中查找数据的效率。

B、省内存和cpu。

http://zjushch.iteye.com/blog/1843793

3、具体的优化命令

==========hbase命令================================================

disable 'logs:radwa'

alter 'logs:radwa', NAME => 'info', DATA_BLOCK_ENCODING => 'PREFIX_TREE' #修改编码（此编码效果最好）

#alter 'logs:radwa', NAME => 'info', COMPRESSION => 'snappy' #修改压缩

enable 'logs:radwa' #enable表后压缩还不会生效, 需要立即生效

major_compact 'logs:radwa' #这个命令执行的时间会相当长, 会对整个集群的CPU, IO有大量的占用

==========hbase命令================================================

4、优化效果

线上实测500G的表，编码后变为140G，效果还是不错的。

至于查询效率的提升，我并没有测试。理论上是应该有提升的，当然您需要根据自己的业务实际选择自己的优化方式。

这里任然有巨大的优化空间，比如把rowkey等设置的比较短，也可以省下很多存储空间。

hbase存储优化的更多相关文章

hbase性能优化总结
hbase性能优化总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都 ...
hbase 存储结构和原理
HBase的表结构建表时要指定的是:表名.列族建表语句 create 'user_info', 'base_info', 'ext_info' 意思是新建一个表,名称是user_info,包含两个 ...
解密OpenTSDB的表存储优化【转】
https://yq.aliyun.com/articles/54785 摘要: 本篇文章会详细讲解OpenTSDB的表结构设计,在理解它的表结构设计的同时,分析其采取该设计的深层次原因以及优缺点.它 ...
HBase性能优化方法总结（转）
原文链接:HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. ...
用mapreduce来操作hbase的优化
(1)scan.setCacheBlocks(false); 初始化map任务 TableMapReduceUtil.initTableMapperJob 本次mr任务scan的所有数据不放在缓 ...
HBASE的优化、hadoop通用优化，Linux优化，zookeeper优化，基础优化
HBase 的优化3.1.高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果Hmaster 挂掉了,那么整个 HBa ...
HBase的优化
HBase的优化高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase ...
Hbase性能优化
HBase性能优化方法总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户 ...
HBase存储及读写原理介绍
一.HBase介绍及其特点 HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDF ...

随机推荐

一个滑动选中RecyclerView中Item的布局SlidingCheckLayout，手指滑过Item时多项选中。
SlidingCheckLayout是一个滑动选中RecyclerView中Item的布局,手指滑过Item时多项选中. 作者:竹尘居士 github:https://github.com/homgw ...
PHP微信H5支付开发
近来公司项目要求用到微信H5开发,因为微信开发文档处处都是坑,我也走了不少弯路,现在就把H5支付的过程记录一下,已备后用!! 首先先去商户平台申请开通 H5支付!!!! 我们从微信官方下载H5支付d ...
【转】布同：如何循序渐进学习Python语言
大家都知道Python语言是一种新兴的编程语言.1989年,Python就由Guido van Rossum发明.Python一直发展态势很好. 原因有几点:1.跨平台性好.Linux.Windows ...
Linux时间转标准时间
[root@nhserver2 ~]# date -d '1970-1-1 0:0:0 GMT + 1394592071 seconds'Wed Mar 12 10:41:11 CST 2014
使用open-falcon监控Nginx
一.介绍前段时间部署试用了open-falcon v0.2,官方文档很详细,难度也不是很大.监控Nginx也参考了文档推荐的方式,文档地址:http://book.open-falcon.org/z ...
java之Servlet监听器Listener
常用应用场景:单点登录.统计在线人数一.简介 (一)概述 1.Listener 用于监听 java web程序中的事件,例如创建.修改.删除Session.request.context等,并触发响 ...
python中math模块常用的方法整理
ceil:取大于等于x的最小的整数值,如果x是一个整数,则返回x copysign:把y的正负号加到x前面,可以使用0 cos:求x的余弦,x必须是弧度 degrees:把x从弧度转换成角度 e:表示 ...
xBIM 插入复制功能
目录 xBIM 应用与学习 (一) xBIM 应用与学习 (二) xBIM 基本的模型操作 xBIM 日志操作 XBIM 3D 墙壁案例 xBIM 格式之间转换 xBIM 使用Linq 来优化查询 x ...
最大流模版 EK
EK算法基于增广路的思想,易于理解,但由于低效并不被经常使用 #include <iostream> #include <cstdio> #include <algori ...
C# 简单内存补丁
写在开头:看了一些视频教程,感觉OD为什么别人学个破解那么容易,我就那么难了呢,可能是没有那么多时间吧. 解释:个人见解:所谓内存补丁,即:通过修改运行程序的内容,来达到某种目的的操作.修改使用Ope ...

hbase存储优化

hbase存储优化的更多相关文章

随机推荐

热门专题