从HBase底层原理解析HBASE列族不能设计太多的原因？

在之前的文章《深入探讨HBASE》中，笔者详细介绍了：

HBase基础知识（包括简介、表结构）、系统架构、数据存储
WAL log和HBase中LSM树的应用
HBase寻址机制
minor合并和major合并
region管理以及region server上下线
HMaster工作机制和HBase容错性
HBASE数据迁移和备份

distcp命令拷贝hdfs文件的方式
copytable的方式实现表的迁移和备份
replication的方式实现表的复制
Export/Import的方式实现表的迁移和备份

布隆过滤器在HBase中的应用
协处理器（observer和endpoint）
row key设计要点
HBase热点问题及处理

通过上述文章的介绍，我们了解到：

HBase底层存储依赖于HDFS，HBase中table在行的方向上分割为多个region，它是HBase负载均衡的最小单元，可以分布在不同的RegionServer上，但是一个region不能拆分到多个RegionServer上。

但是region不是HBase物理存储的最小单元，它由一个或者多个store组成，每个store保存一个column family即列族。每个store由一个memstore和多个storefile组成，storefile由hfile组成是对hfile的轻量级封装，存储在hdfs上。

所以，每个column family可以看作是HBase中一个集中的存储单元。在生产中，我们设计列族时会将具有相似属性的比如IO特性或者将经常一起查询的列放到一个列族中，可以减少文件的IO、寻址时间，从而提高性能。

刚才说到HBase中每个store由memstore和storefile组成，这里的memstore其实是Sorted Memory Buffer，在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。

在这个过程中，如果某region下下的storeFile大小超过阀值就需要进行切分。每个列族在文件层面上是以单独的文件存储的。但是不同的列族，却可能会共享一个region。这就会导致一个问题：

HBase 表中列族A的数据有100万行，但是列族B可能才1000行。当进行region split时，会列族B也进行切分，从而导致这1000行数据也分布在多个不同region中，最终导致查询数据时，导致寻址时间等增加，影响性能。

此外，默认情况下，只有一个region，当满足一定条件，region会进行分裂。如果一个HBase表中设置过多的列族，则可能引起以下问题：

一个region中存有多个store，当region分裂时导致多个列族数据存在于多个region中，查询某一列族数据会涉及多个region导致查询效率低（这一点在多个列族存储的数据不均匀时尤为明显）
多个列族则对应有多个store，那么Memstore也会很多，因为Memstore存于内存，会导致内存的消耗过大
HBase中的压缩和缓存flush是基于region的。当一个列族出现压缩或缓存刷新时，因为关联效应会引起临近的其他列族做同样的操作，在列族过多时会涉及大量的IO开销

所以，我们在设计HBase表的列族时，遵循以下几个主要原则，以减少文件的IO、寻址时间：

列族数量，要尽可能的少
列族名字可读性好，但不能过长。原因可类比于HBase row key设计原则
1. 关注微信公众号：大数据学习与分享，获取更对技术干货

从HBase底层原理解析HBASE列族不能设计太多的原因？的更多相关文章

HBase 底层原理详解（深度好文，建议收藏）
HBase简介 HBase 是一个分布式的.面向列的开源数据库.建立在 HDFS 之上.Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库.HBase 的计算和存储能力 ...
为什么不建议在 HBase 中使用过多的列族
我们知道,一张 HBase 表包含一个或多个列族.HBase 的官方文档中关于 HBase 表的列族的个数有两处描述: A typical schema has between 1 and 3 col ...
Spring Cloud底层原理解析
概述毫无疑问,Spring Cloud是目前微服务架构领域的翘楚,无数的书籍博客都在讲解这个技术.不过大多数讲解还停留在对Spring Cloud功能使用的层面,其底层的很多原理,很多人可能并不知晓 ...
git的核心命令使用和底层原理解析
文章目录: GIT体系概述 GIT 核心命令使用 GIT 底层原理一.GIT体系概述 GIT 与 svn 主要区别: 存储方式不一样使用方式不一样管理模式不一样 1.存储方式区别 GIT把内容按 ...
利用Redisson实现分布式锁及其底层原理解析
Redis介绍参考地址:https://blog.csdn.net/turbo_zone/article/details/83422215 redis是一个key-value存储系统.和Memcac ...
spring底层原理解析
注解测试:如何使用注解(去掉配置文件)开发新建MainConfig类注解测试:新建MainTest2注解测试,用来测试//AnnoatationConfigApplicationContext: ...
远程服务调用RMI框架演示,和底层原理解析
远程服务调用RMI框架: 是纯java写的, 只支持java服务之间的远程调用,很简单, // 接口要继承 Remote接口 public interface IHelloService extend ...
HBase中Memstore存在的意义以及多列族引起的问题和设计
Memstore存在的意义 HBase在WAL机制开启的情况下,不考虑块缓存,数据日志会先写入HLog,然后进入Memstore,最后持久化到HFile中.HFile是存储在hdfs上的,WAL预写日 ...
HBase 架构与工作原理3 - HBase 读写与删除原理
本文系转载,如有侵权,请联系我:likui0913@gmail.com 一.前言在 HBase 中,Region 是有效性和分布的基本单位,这通常也是我们在维护时能直接操作的最小单位.比如当一个集群 ...

随机推荐

SPA 路由三部曲之核心原理
为了配合单页面 Web 应用快速发展的节奏,近几年,各类前端组件化技术栈层出不穷.通过不断的版本迭代 React.Vue 脱颖而出,成为当下最受欢迎的两大技术栈. 仅 7 个月的时间,两个技术栈的下载 ...
基于FFmpeg的Dxva2硬解码及Direct3D显示（二）
解析视频源目录解析视频源获取视频流解析视频流说明:这篇博文分为"获取视频流"和"解析视频流"两个部分,使用的是FFmpeg4.1的版本,与网上流传的低 ...
nginx开启目录浏览
使用nginx作为下载站点,开启目录浏览的功能在/etc/nginx/sites-enabled/default中添加: autoindex on ; autoindex_exact_size of ...
【javascript】掌握ES6-10，附xmind思维导图，每个知识点备注说明案例，请享用
前段时间一直想掌握ES6-10,陆陆续续花了1个月的时间,自学了ES6-10的新知识点,大部分都是非常实用的,花了2天时间整理思维导图思维导图已上传博客园,请享用. ES6-10思维导图xmind ...
2020年最新ZooKeeper面试题（附答案）
2020年最新ZooKeeper面试题 1. ZooKeeper 是什么? ZooKeeper 是一个开源的分布式协调服务.它是一个为分布式应用提供一致性服务的软件,分布式应用程序可以基于 Zooke ...
Java中的Socket用法
转发链接:https://www.cnblogs.com/zhanglei93/p/6217384.html (1)Java中的Socket用法 Java中的Socket分为普通的Socket和Nio ...
FL Studio 插件使用教程 —— 3x Osc（下）
我们继续深入研究一下fl的3x Osc教程. 包络线是修饰音色非常重要的一个部件,有了它,音色不再是单调的长音,而能有长有短,有深有浅,变得丰富多彩.因此,学习包络线的运作原理很重要. 图1:包络线界 ...
通用于wps和excel的ntlm hashes窃取利用方式
https://evi1cg.me/archives/Get_NTLM_Hashes.html介绍了通过Microsoft Office 窃取 NTLM Hashes. 不过这种插入方法不适用于wps ...
Java基础教程——Lambda表达式
Lambda表达式 Java8引入Lambda表达式,可以使代码更简洁. 格式:参数,箭头,代码 (参数名)->{代码} Lambda表达式体现了"函数式编程思想"-- 面向 ...
一口气带你读懂80年IT发展史
计算机的发展历史有多长?真正意义上的计算机诞生,距今也只有80多年的时间.80年,对于每一个人来说,是很长的时间,但对于整个历史来说,只是短短的一瞬间.这八十多年只是整段历史中的一粒尘埃罢了,但却对这 ...

从HBase底层原理解析HBASE列族不能设计太多的原因？

从HBase底层原理解析HBASE列族不能设计太多的原因？的更多相关文章

随机推荐

热门专题