Hbase1.2.4概述
安装Hbase的时候,需要注意版本与Hadoop的版本兼容,具体查看:https://hbase.apache.org/book.html#basic.prerequisites
如下图:
我的Hadoop2.7.3
概述:
HBase是⼀个构建在HDFS上的分布式列存储系统
Hbase读写强一致性,高可靠,与MR良好的继承
HBase的高可靠是怎么做的?通过把数据写在HDFS上面,所以要搭建启动HBase,需要先启动HDFS
HBase的缺点,不支持sql,不支持索引,不支持多表查询,所以HBase替代不了传统关系型数据库,但是在某写场景,HBase的表现是相当优秀的
举一个HBase的应用场景例子,比如监控信息:
阿里有10w台机器,每天机器加入有50个指标,比如cpu,内存等,每个指标要画出自己的走势图,需要进行采点,每5s采点一次,那么每秒要采100w的数据,用传统的关系型数据库是存不下来的,这个时候,HBase就派上用场了
HBase数据模型:
在我个人的理解中,HBase的数据模型就像是一个药柜(表),药柜竖着看,一般几列(列)药性相同的,组成一个组(列族),横着看,如果药柜的每一层前面有一个唯一的标识(rowKey)那就更完美了,每一个抽屉(格子)拉出来,会有这个药材(数据)的多个版本(不同时间戳的数据),所以这个药柜(HBase数据模型)是一个三维(个人感觉)的结构
即:在HBase中,一行数据由行健(RowKey)作为键,包含多个列族(Column Family),列族是由具有同时访问特性的多个列(Qualifer)组成的。数据是可以具有多版本的,由时间戳(TimeStamp)索引
数据在文件中存储的样子,(Table, RowKey, Family, Qualifer, TimeStamp)——>Value,企业中一般将他们的名字设计的很短,比如a 、 b 、1 、2这种一两个字节,这样能大大减少存储空间。
比如说,有的列名就是时间,12345这种,一小时有3600秒,那就是从1到3600,3600列
数据模型中:
行键是主键,它是数据行在表中的唯一标识
所有操作都是基于主键的
表可以是稀疏的,空值是不被存储的
表中的数据按照行键排序
无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列
特点是:
⼤:⼀个表可以有数⼗亿⾏,上百万列
⾯向列:⾯向列(列族)的存储,列(列族)独⽴检索
稀疏:对于空(null)的列,并不占⽤存储空间,表可以设计的⾮常稀疏
数据多版本:每个单元中的数据可以有多个版本,一个格子有很多版本,默认拿到的是最新的版本,每个单元的数据可以有多个版本,可以设置我保留多少个版本,比如一万个,第一万零一个会被删除
数据类型单⼀:HBase中的数据都是字节,没有类型,类型的信息HBase是不维护的,那你要问了,我怎么知道某个值是什么意思,这就需要你在用户层自己转换成自己想要的类型了
传统的数据库中,比如mysql,一张表20列,如果一列的数据大小有1G,我只搜索2列,mysql是先将整张表,20列都获取到,然后在输出2列,做了很多没有用的事情,那用列存储,来取数据,就好太多了
HBase则是直接取出这2列,从这一点就可以看出,在某方面,列存储的优点,而且还能将相同的列进行压缩,io也会变得很小
举个例子,用户画像:
一个用户或者一行数据的列可能是有百万级别的,而且是不断增加的,这个用户画像表的列会无限的增长的,这种用户画像系统,用HBase很合适
HBase物理模型
HBase的数据是很大的,存储的时候会切分成很多块,每一块(Region)的大小都可以配置,默认一般是1G,说到这里,引申一下
HDFS的存储单位是file,file会被切分成block
kafka的存储单位是topic,topic会被切分成partition
HBase的存储单位是table,table会被切分成Region
结论:所有大数据的一些结构都会有一个数据集,这些数据集都会被切分,切分后就可以来分布式的存储,以及并行的处理
hbase 是主从架构,他有自己的master,他的 slaver 叫 Regionserver
Table中的所有⾏都按照row key的字典序排列
Table 在⾏的⽅向上分割为多个Region,比如有100分Region,20台机器,那最开始,每台机器上平均有5个Region,Region按⼤⼩分割的,每个表开始只有⼀个Region,随着数据增多,Region不断增⼤,当增⼤到⼀个阈值的时候,Region就会等分会两个新的Region,之后会有越来越多的Region
每一台机器上都会有一个RegionServer来管理这些Regions
Region是HBase中分布式存储和负载均衡的最⼩单元,不同Region会按照算法分布到不同RegionServer上
Region虽然是分布式存储的最⼩单元,但并不是存储的最⼩单元,每个Region里面是比较复杂的。
数据刚插入的时候,他会先放在一个memStor(一个内存的存储结构),当这个memStor超过一定大小之后(可以设置,记得默认是1G),会将数据写到磁盘上,变成StoreFile(存放在HDFS上),memStor腾出来空间后,数据则继续往里面写
1、Region由⼀个或者多个Store组成,每个Store保存⼀个columns family
2、每个Strore又由⼀个MemStore和0⾄多个StoreFile组成
3、MemStore存储在内存中,StoreFile存储在HDFS上
看到上面的图片,你可能会向,在Region中,他是先缓存在内存中的,万一这台机器挂掉,数据岂不是丢失了?不是的,和其他分布式存储系统或者数据库一样,在写入
他在写任何数据之前,写在memstor之前,都会先写log,这些log会放在hdfs上,log写成功了,才会放在memstor中,log是追加式的写,随机写慢,追加写快,所以,放在memstor中的数据,电脑挂掉或者重启不会丢失
相同列族的数据是存放在一起的,比如列族a1的数据是存放在一个文件里面的,HBase是列族式存储,不是列式存储,相同列族里面的列是行式存储的,他这个列族呢,意思就是告诉大家,要经常访问的列,放在一起,我可以单独存取,这样我就可以不用读其他数据了
HBase架构
HBase是主从结构,主是HMaster,从是RegionServer,每一个节点上都会布一个RegionServer,来管理这个节点上的Region(又重复一遍)
一个表会划分成很多Region,放到不同的RegionServer上来管理
HMaster决定一个Region放在哪个节点上,当一个节点挂掉(数据可没有丢,在HDFS上),HMaster来决定该节点或者RegionServer 上的Region由哪台机器接管
RegionServer之间需要交互,知道彼此的存在,是通过zookeeper来做集群发现或者服务发现
一个Region里面会有很多文件
HRegion
HBase 会⾃动地将表划分为不同的区域,每个区域包含所有⾏的⼀个⼦集,对⽤户来说,每个表是⼀堆数据的集合,靠主键来区分,从物理上来说,⼀张表被拆分成了多块,每⼀块是⼀个HRegion,我们⽤表名+ 开始和结束主键,来区分每⼀个HRegion,⼀个HRegion 会保存⼀个表⾥⾯某段连续的数据,从开始主键到结束主键,⼀张完整的表格是保存在多个HRegion上⾯
HRegionServer
所有的数据库数据都保存在HDFS上⾯,⽤户通过访问HRegionServer获取这些数据,⼀台机器上⾯⼀般只运⾏⼀个HRegionServer,⼀个HRegionServer上⾯有多个HRegion,⼀个HRegion 也只会被⼀个HRegionServer维护,这个图片可以看懂吧?很好的再次的解释了之前说的理论
HRegionServer主要负责响应⽤户I/O请求,从HDFS读写数据,是HBase中最核⼼的模块,HRegionServer内部管理了⼀系列HRegion对象,这些HRegion对象可能是不同用户创建的不同表,每个HRegion对应了Table中的⼀个Region,HRegion中由多个HStore组成,每个HStore 对应了Table中的⼀个Column Family的存储,最好将具备共同IO特性的Column放在⼀个Column Family中
HMaster
每个HRegionServer都会与HMaster通信,HMaster的主要任务就是给HRegionServer分配HRegion,HMaster指定HRegionServer要维护哪些HRegion,当一台HRegionServer宕机时,HMaster会把它负责的HRegion标记为未分配,然后再把它们分配到其他HRegionServer 中
HMaster 没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有⼀个Master 运⾏,HMaster在功能上主要负责Table 和Region 的管理⼯作:管理⽤户对Table 的增、删、改、查操作,管理HRegion Server 的负载均衡,调整Region 分布,在Region Split 后,负责新Region 的分配,在HRegion Server 停机后,负责失效HRegion Server 上的Regions 迁移
其他组件
Client:HBase Client使⽤HBase的RPC机制与HMaster和HRegionServer进⾏通信对于管理类操作,Client与HMaster进⾏RPC对于数据读写类操作,Client与HRegionServer进⾏RPC
Zookeeper:Zookeeper中存储了META表的地址和HMaster的地址HRegionServer也会把⾃⼰以Ephemeral⽅式注册到Zookeeper中,使得HMaster可以随时感知到各个HRegionServer的健康状态。此外,Zookeeper也避免了HMaster的单点问题
说一个HBase的应用:OpenTSDB
基于Hbase构建的分布式、可伸缩的时间序列数据库(TimeSeries Database ),秒级数据采集所有metrics,支持永久存储,可以做容量规划,可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的metrics并进行存储、索引以及服务
这个数据库,是专门来管理时间序列相关的数据库的,每一条数据都有一个时间,比如股票,监控数据,很多大公司都在用
OpenTSDB 基本概念
Metric:监控项,比如CPU利用率
Tags:用来描述metric的标签,由tagk和tagv组成,即tagk=tagv
Value:metric的实际值
Timestamp:时间戳,描述value对应的时间点
Data Point:即某个Metric在某个时间点的数值
举例:
metric:proc.loadavg.1m
timestamp:1234567890
value:0.42
tags:host=web42,pool=static
OpenTSDB 可能的实现方案
简单的实现方案:
rowKey=metric|timestamp|value|host=web42|pool=static
Column=v
Value=0.42
存在问题:
rowKey太长,占用大量存储资源,且为字符串类型,查找开销大,不易获得某个时间区间的所有值
OpenTSDB 实现方案
使用HBase存储,核心的存储,使用两张表,tsdb和tsdb-uid
tsdb-uid保存元数据信息,即编码信息,
metric-->3字节整数、tagk-->3字节整数、tagv-->3字节整数
proc.loadavg.1m-->052、host-->001、web42-->028、pool-->047、static-->001
tsdb保存实际数据
Rowkey:跟前一种方案类似,但是做了编码
Row:每行存储一个小时的数据,列名是秒偏移量,列值是metric值
OpenTSDB 实现方案:表tsdb-uid设计
OpenTSDB 实现方案:表tsdb设计
OpenTSDB 架构
Server: OpenTSDB的agent,通过Collector收集数据,推送数据
TSD:是对外通信的无状态的服务器,对数据进行汇总和存取
HBase:TSD收到数据后,通过异步客户端AsyncHbase将数据写入到HBase
完
Hbase1.2.4概述的更多相关文章
- mac下安装伪分布hadoop2.6.0和hbase1.0.1.1
1.安装JDK,我安装的是java1.7 2.创建管理员账户 3.安装ssh服务(如果已有跳过此步) 4.ssh无密码验证登陆 以上过程略,可参考ubuntu下安装hadoop一文. 5.下载并解压h ...
- 【AR实验室】ARToolKit之概述篇
0x00 - 前言 我从去年就开始对AR(Augmented Reality)技术比较关注,但是去年AR行业一直处于偶尔发声的状态,丝毫没有其"异姓同名"的兄弟VR(Virtual ...
- Recurrent Neural Network系列1--RNN(循环神经网络)概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
- Swift3.0服务端开发(一) 完整示例概述及Perfect环境搭建与配置(服务端+iOS端)
本篇博客算是一个开头,接下来会持续更新使用Swift3.0开发服务端相关的博客.当然,我们使用目前使用Swift开发服务端较为成熟的框架Perfect来实现.Perfect框架是加拿大一个创业团队开发 ...
- .Net 大型分布式基础服务架构横向演变概述
一. 业务背景 构建具备高可用,高扩展性,高性能,能承载高并发,大流量的分布式电子商务平台,支持用户,订单,采购,物流,配送,财务等多个项目的协作,便于后续运营报表,分析,便于运维及监控. 二. 基础 ...
- [C#] 进阶 - LINQ 标准查询操作概述
LINQ 标准查询操作概述 序 “标准查询运算符”是组成语言集成查询 (LINQ) 模式的方法.大多数这些方法都在序列上运行,其中的序列是一个对象,其类型实现了IEnumerable<T> ...
- 【基于WinForm+Access局域网共享数据库的项目总结】之篇一:WinForm开发总体概述与技术实现
篇一:WinForm开发总体概述与技术实现 篇二:WinForm开发扇形图统计和Excel数据导出 篇三:Access远程连接数据库和窗体打包部署 [小记]:最近基于WinForm+Access数据库 ...
- Java消息队列--JMS概述
1.什么是JMS JMS即Java消息服务(Java Message Service)应用程序接口,是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送 ...
- [AlwaysOn Availability Groups]健康模型 Part 1——概述
健康模型概述 在成功部署AG之后,跟踪和维护健康状况是很重要的. 1.AG健康模型概述 AG的健康模型是基于策略管理(Policy Based Management PBM)的.如果不熟悉这个特性,可 ...
随机推荐
- 运行jsp需要安装_______Web服务器。
运行jsp需要安装_______Web服务器. A.Apache B.tomcat C.WebLogic D.IIS 解答:BC Apache是PHP程序运行的服务器,IIS是.net程序运行的服务器 ...
- Spring MVC学习-----------springMVC-mvc.xml
springMVC-mvc.xml 配置文件片段解说 (未使用默认配置文件名称) <?xml version="1.0" encoding="UTF-8" ...
- Spring MVC multipart/form-data Controller 400
问题很简单是解析器定义问题 SpringMVC默认解析器 <bean id="multipartResolver" class="org.springframewo ...
- UIImagePickerController在UIPopoverController中 旋屏问题
1弧度=180/π度1度=π/180弧度今天遇到了 一个问题.UIImagePickerController在UIPopoverController中 旋屏问题. 在查找了许多资料后方知,此乃iOS系 ...
- 关于Z序的总结
//转自:http://blog.csdn.net/flowshell/article/details/4797917 Z 序:一个重叠窗口的堆,每个窗口在Z 序中 都有唯一一个位置.一个窗口的Z 序 ...
- 170228、Linux操作系统安装ELK stack日志管理系统--(1)Logstash和Filebeat的安装与使用
安装测试环境:Ubuntu 16.04.2 LTS 前言 (1)ELK是Elasticsearch,Logstash,Kibana 开源软件的集合,对外是作为一个日志管理系统的开源方案.它可以从任何来 ...
- HTML中条件注释的高级应用
在页面头部加入 <!--[if lt IE 9]><html class="ie"><![endif]--> 可简单CSS Hack,IE6.I ...
- MonogoDB----Date()
以字符串或日期对象的形式返回日期. 使用new Date(),插入的是一个isodate类型:而使用Date()插入的是一个字符串类型. 那isodate是什么日期类型的?我们看这2个值,它比字符串大 ...
- amazonservices api 抽象类 Class Abstraction
http://php.net/manual/zh/language.oop5.abstract.php MWSOrdersPHPClientLibrary-2013-09-01._V533357711 ...
- a标签的href和onclick
1.链接的onclick事件被先执行,href的事件后执行 2.就今天遇到的问题说一下,通过a标签的onclick事件实现点击后定位到指定的div,或者是执行其他函数(比如弹出artdialog等), ...