HBase-表的压缩

一、如何选择压缩算法以及Data_Block_Encoding?
（1）如果Key很长，或者有很多Column，那么推荐使用FAST_DIFF。
（2）如果数据是冷数据，不经常被访问，那么使用GZIP压缩格式。因为虽然它比Snappy/LZO需要占用更多而CPU，但是它的压缩比率更高，更节省磁盘。
（3）如果是热点数据，那么使用Snappy/LZO压缩格式。它们相比GZIP，占用的CPU更少。
（4）在大多数情况下，Snappy/LZO的选择都更好。Snappy比LZO更好。

建表语句：

CREATE 'hbase_test',{NAME=>'C',COMPRESSION => 'SNAPPY',DATA_BLOCK_ENCODING => 'FAST_DIFF'} ;

修改表的编码和压缩方式：

alter 'default:hbase_test',{NAME=>'C',COMPRESSION => 'SNAPPY',DATA_BLOCK_ENCODING => 'FAST_DIFF'} ;

业务上可能会遇到这种情况，在最初创建hbase表时候，未指定压缩方式，当数据导入之后，由rowkey带来的数据膨胀导致hdfs上的数据大小远远大于原始数据大小。所以这时候可能就不得不考虑使用压缩，但是如果将表删除，再创建一张指定压缩的表，再重新导入数据未免太浪费时间。当然也完全不用这样，可以直接修改hbase表的压缩方式，然后在执行major_compact即可。

alter 'tableName',{NAME=>'familyName',COMPRESSION => 'SNAPPY',DATA_BLOCK_ENCODING => 'FAST_DIFF'} ;    //设置表使用SNAPPY压缩，并使用FAST_DIFF编码

desc  'tableName'                      //验证是否已启用压缩方式

major_compact  'tableName'             //执行合并

需要注意的几点：
1.在执行alter之后，hbase表已经启用压缩，但是对于原来表里已有的数据并不会进行压缩，后续再写入的数据才会执行压缩（可以到hdfs验证）
2.如果想把原来表里已有的数据也使用压缩，那么需要执行一次major_compact。major_compact会重新读写数据，在这个流程中，对原有的数据进行压缩，但是如果表数据很大执行major_compact对hbase集群会有比较大的影响。如果是线上环境，建议在业务不繁忙期间执行。

二、在HBase中如何设置SNAPPY压缩？

升级到hbase2.5.1以及以上版本，并修改修改或者添加配置。

hbase.io.compress.snappy.codec配置的值为org.apache.hadoop.hbase.io.compress.xerial.SnappyCodec可以解决。

（1）打开HBase配置文件 hbase-site.xml

vi $HBASE_HOME/conf/hbase-site.xml

（2）添加以下配置项到hbase-site.xml文件中
<property>
<name>hbase.io.compress.snappy.codec</name>
<value>org.apache.hadoop.hbase.io.compress.xerial.SnappyCodec</value>
</property>
（3）重启HBase。

$HBASE_HOME/bin/stop-hbase.sh ;

$HBASE_HOME/bin/start-hbase.sh ;

三、HBase如何拷贝数据到另外一张表？

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=test02 --families=name test01

当然也可以根据startrow和stoprow筛选数据拷贝

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --startrow=000 --stoprow=999 --new.name=test02 --families=name test01

CopyTable的命令格式如下：
CopyTable [general options] [--starttime=X] [--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] <tablename>

常用选项说明如下：

startrow：开始行。
stoprow：停止行。
starttime：开始时间（以毫秒为单位的unixtime）。若未指定endtime意味着从开始时间到永久。
endtime：结束时间。如果未指定starttime，则忽略。
versions：要复制的单元格版本数。
new.name：新表的名称。
peer.adr：目标集群的地址，格式为hbase.zookeeer.quorum:hbase.zookeeper.client.port:zookeeper.znode.paren，对于CloudTable集群而言就是“${CloudTable目标集群的“ZK链接地址”}:/hbase”。
families：要复制的列族列表，多个列族之间以逗号分隔。如果要从sourceCfName复制到destCfName，请指定为sourceCfName:destCfName。如果复制后列族名称保持不变，只需指定cfName。
all.cells：对删除标记和已删除的单元格也进行复制。
tablename：要复制的表的名称。

HBase-表的压缩的更多相关文章

对已经存在的hbase表修改压缩方式
业务上可能会遇到这种情况,在最初创建hbase表时候,未指定压缩方式,当数据导入之后,由rowkey带来的数据膨胀导致hdfs上的数据大小远远大于原始数据大小.所以这时候可能就不得不考虑使用压缩,但是 ...
hbase开放lzo压缩
hbase仅仅支持对gzip的压缩,对lzo压缩支持不好. 在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量. 但这须要參考详细的应用场景,即是否值得进行压缩.压缩率是否足够等等. ...
HBase学习——3.HBase表设计
1.建表高级属性建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用使用HColumnDescriptor. ...
HBase 的MOB压缩分区策略介绍
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/zNZQhb07Nr/article/details/79832392 HBase应用场景很广泛.社区 ...
Hadoop HBase概念学习系列之HBase表的一些设置（强烈推荐好好领悟）（十三）
压缩格式:默认压缩格式是NONE.可选值有GZ.LZO.SNAPPY. 版本数:HBase默认定义为3个版本. 以秒为单位的存活时间TTL:使用对象是行中的列簇,一旦达到过期时间,HBase会删除这些 ...
HBase学习之路（十）HBase表的设计原则
建表高级属性下面几个 shell 命令在 hbase 操作中可以起到很大的作用,且主要体现在建表的过程中,看下面几个 create 属性 1. BLOOMFILTER 默认是 NONE 是否使用布 ...
HBase（九）HBase表以及Rowkey的设计
一命名空间 1 命名空间的结构 1) Table:表,所有的表都是命名空间的成员,即表必属于某个命名空间,如果没有指定, 则在 default 默认的命名空间中. 2) RegionServer g ...
hbase表的写入
hbase列式存储给我们画了一个很美好的大饼,好像有了它,很多问题都可以轻易解决.但在实际的使用过程当中,你会发现没有那么简单,至少一些通用的准则要遵守,还需要根据业务的实际特点进行集群的参数调整,不 ...
七 HBase表结构设计
表结构设计之高表与宽表选择 HBase 中的表可以设计为高表(tall-narrow table) 和宽表(flat-wide table). 高表 : ...
hbase表的高性能设计
第7章 HBase优化 7.1 高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷 ...

随机推荐

WIN32 动态 UAC 提权
UAC(User Account Control) 是 Windows 平台的用户权限控制.它可以让程序使用管理员权限执行某些操作. 静态 UAC 提权静态 UAC 提权让程序一直运行在管理员权限下 ...
AI正在改变人类社会 - 内容行业的衰落
现在的 AI 技术,每天都在进化.我有一种感觉,普通人大概没意识到,它马上就要改变人类社会了. 历史上,这种事一再发生.在你不知不觉中,某些大事件悄悄酝酿,突然就冲击到了你的生活,将你的人生全部打乱, ...
当ChatGPT遇上了CoT
最近在看CoT(Chain-of-Thought,思维链)方面的论文<Chain-of-Thought Prompting Elicits Reasoning in Large Language ...
15-Verilog Coding Style
Verilog Coding Style 1.为什么需要Coding Style 可综合性 - 代码需要综合成网表,如果写了一些不可综合的代码,会出现错误可读性,代码通常有多个版本,所以需要保证代码 ...
Kubernerts - 概览
1. Kubernerts K8s,是用于自动部署.扩容和管理容器化应用程序的开源系统 1.1 特性自动化上线与回滚分步骤针对应用或者配置更改上线,监控应用的运行状态同时不会终止所有实例,若出现问 ...
[转帖]TiDB的使用限制
https://docs.pingcap.com/zh/tidb/stable/tidb-limitations 本文会将详细描述 TiDB 中常见的使用限制,包括:标识符长度,最大支持的数据库.表. ...
[转帖]JMeter压测Redis
https://www.cnblogs.com/yjlch1016/p/14052402.html 一.Redis Data Set插件: https://jmeter-plugins.org/wik ...
[转帖]configure: error: cannot guess build type；you must specify one
该问题一般出现在国产平台,从错误描述来看,意思是:无法猜测build类型,你必须指定一个. 解决办法: 1. 在系统/usr路径下搜索 config.guess 和 config.sub 这两个文件. ...
【转帖】《MySQL高级篇》四、索引的存储结构
1. 为什么使用索引假如给数据使用二叉树这样的数据结构进行存储,如下图所示 2.索引及其优缺点 2.1 索引概述 2.2 优点类似大学图书馆建书目索引,提高数据检索的效率,降低数据库的 IO ...
[转帖]nginx性能和软中断
https://plantegg.github.io/2022/11/04/nginx%E6%80%A7%E8%83%BD%E5%92%8C%E8%BD%AF%E4%B8%AD%E6%96%AD/ n ...

HBase-表的压缩

HBase-表的压缩的更多相关文章

随机推荐

热门专题