最近朋友公司在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍!详谈中,笔者建议朋友至少从几点原因入手分析: HBase中的数据相对于Hive中的数据会新增一些附加信息导致磁盘占用的增加,比如布隆过滤器 Hive中的数据是否进行过压缩,比如snappy,压缩比还是很高的 row key和列族都会占据一定的空间,当数据量较大时,仅二者就会占据很多不必要的空间 建议将相同查询场景下的几个常用的列的…