HBase读写数据的详细流程及ROOT表/META表介绍

给你一个公主抱 2024-10-21 05:30:05 原文

一、HBase读数据流程

　　1.Client访问Zookeeper，从ZK获取-ROOT-表的位置信息，通过访问-ROOT-表获取.META.表的位置，然后确定数据所在的HRegion位置；

　　2.Client访问HRegion所在的HRegionServer，通过HRegionServer获取需要查找的数据；

　　3.Client到HRegion的中去查找数据，首先到MemStore中查找，查到直接返回；查不到就去ClockCache中查找，查到直接返回；再查不到就去StoreFile中读数据，把读到的数据存入BlockCache中再返回Client。

　　如图：

二、HBase写数据流程

　　1.Client通过Zookeeper调度获取表的元数据信息；

　　2.Cilent通过rpc协议与RegionServer交互，通过-ROOT-表与.META.表找到对应的对应的Region；

　　3.将数据写入HLog日志中，如出现意外可以同通过HLog恢复信息；

　　4.将数据写入Region的MemStore中，当MemStore达到阈值开始溢写，将其中的数据Flush成一个StoreFile；

　　5.MemStore不断生成新的StoreFile，当StoreFile的数量到达阈值后会出发Compact合并操作，将多个StoreFile合并成一个StoreFile；

　　6.StoreFile文件会不断增大，当达到阈值后会出发Split操作，把当前的Region且分为两个新的Region。父Region会下线，两个子Region会被HMaster分配到相应的RegionServer。

　　图略、自己脑补一哈把~~

*********************************************************************************************

补充：1.由读写数据的流程可以发现，Region中的内存分为两块：MemStore(负责写数据)、BlockCache(负责读数据)，这是HBase的一大特点——读写分离，这也是HBase读写速度极快的原因之一；

　　 2.在HBase中，可以看出只有增添操作，所有的更新和删除都是在后续的Compact合并历程中进行的，这使得用户的写操作只有进入内存就可以立刻返回，实现了I/O的高性能。

*********************************************************************************************

　　　　

三、-ROOT-表和.META.表的介绍

　　HBase用-ROOT-表记录.META.表的位置信息(即元数据信息)，而.META.表记录了用户表Region的位置信息。

　　为了定位.META.表中各个Region的位置信息，把.META.表中所有Region的元数据保存在-ROOT-表中，最后由Zookeeper记录-Root-表的位置信息。

　　所以客户端Client要先访问ZK获取-ROOT-表的位置，然后访问-ROOT-表获取.META.表的位置，最后根据.META.表中的信息确定用户数据存放的位置。

HBase读写数据的详细流程及ROOT表/META表介绍的更多相关文章

MapReduce从HBase读写数据简单示例
就用单词计数这个例子,需要统计的单词存在HBase中的word表,MapReduce执行的时候从word表读取数据,统计结束后将结果写入到HBase的stat表中. 1.在eclipse中建立一个ha ...
一条数据的HBase之旅，简明HBase入门教程-Write全流程
如果将上篇内容理解为一个冗长的"铺垫",那么,从本文开始,剧情才开始正式展开.本文基于提供的样例数据,介绍了写数据的接口,RowKey定义,数据在客户端的组装,数据路由,打包分发, ...
大数据学习路线分享-Hbase shell的基本操作完整流程
HBase的命令行工具,最简单的接口,适合HBase管理使用,可以使用shell命令来查询HBase中数据的详细情况.安装完HBase之后,启动hadoop集群(利用hdfs存储),启动zookeep ...
HBase丢失数据的故障和原因分析
hbase的稳定性是近期社区的重要关注点,毕竟稳定的系统才能被推广开来,这里有几次稳定性故障和大家分享. 第一次生产故障的现象及原因现象: 1 hbase发现无法写入 2 通过hbc ...
HBase读写的几种方式（二）spark篇
1. HBase读写的方式概况主要分为: 纯Java API读写HBase的方式: Spark读写HBase的方式: Flink读写HBase的方式: HBase通过Phoenix读写的方式: 第一 ...
【转帖】HBase读写的几种方式（二）spark篇
HBase读写的几种方式(二)spark篇 https://www.cnblogs.com/swordfall/p/10517177.html 分类: HBase undefined 1. HBase ...
<HBase><读写><LSM>
Overview HBase中的一个big table,首先会按行划分成一些region(这些region之间是有序的,由startkey保证),每个region分配到不同的节点进行存储.因此,reg ...
Hbase写数据，存数据，读数据的详细过程
Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多 ...
大数据查询——HBase读写设计与实践
导语:本文介绍的项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的 ...

随机推荐

Win10 SQL Server 2017安装教程
Win10 SQL Server 2017安装教程 1:下载地址 2:开始安装 1:安装环境预备说明还要注意就是要先下载这个VC++的更新,可以解决服务器安装不上的问题,下载链接 :Microsof ...
Confluence 6 home 修改 Home 目录的位置
当 Confluence 第一次启动的时候,Confluence 将会读取 confluence-init.properties 文件并从这个文件中确定如何去查找 Home 目录. 希望修改 home ...
第十九单元 nfs服务
===============服务端介绍: NFS 是Network File System的缩写,即网络文件系统.一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布.功能是通过 ...
【kafka】生产者速度测试
非常有用的参考博客:http://blog.csdn.net/qq_33160722/article/details/52903380 pykafka文档:http://pykafka.readthe ...
【kafka】celery与kafka的联用问题
背景:一个小应用,用celery下发任务,任务内容为kafka生产一些数据. 问题:使用confluent_kafka模块时,单独启用kafka可以正常生产消息,但是套上celery后,kafka就无 ...
bzoj 1495
这是一道...卡了我一个月的树形dp... 我真是太弱了... 其实仔细想想,这题的核心思路并不是特别复杂,但是的确存在不小的难度作为一个看过全网基本所有题解+标程才弄明白这题到底怎么回事的蒟蒻,我 ...
Java SimpleDateFormat 中英文时间格式化转换
2015年08月29日 17:37:43 阅读数:32459 SimpleDateFormat是一个以与语言环境有关的方式来格式化和解析日期的具体类.它允许进行格式化(日期 -> 文本).解析( ...
充分认识Mysql
使用开源产品是一种潮流.在使用之前,我们首先需要对Mysql 有一定的了解,特别是Mysql 的缺点.只有了解其缺点后,我们才知道,能不能真正的应用到我们的业务场景中去. 2.1 Mysql 数据库简 ...
spring cloud 使用spring cloud bus自动刷新配置
Spring Cloud Bus提供了批量刷新配置的机制,它使用轻量级的消息代理(例如RabbitMQ.Kafka等)连接分布式系统的节点,这样就可以通过Spring Cloud Bus广播配置的变化 ...
windows_agent 添加
一:复制windows agent文件和.exe文件到c:\zabbix\目录下二:配置zabbix_agentd.win.conf文件 hostname:设置为自定义名称,但是要和zabbix-s ...