认识NoSQL

NoSQL:泛指非关系数据库(Not only SQL)
NoSQL两重要特征:使用硬盘和把随机存储器作为存储载体

NoSQL分类(按照存储格式)
1)键值(Key-Value)存储数据库
2)列存储数据库
3)文档型存储数据库
4)图形数据库

目前比较流行的NoSQL数据库有Casssandra,Lucene,Neo4J,MongoDB和HBase

HBase(Hadoop Database)概念

1)是一个高可靠,高性能,面向列,可伸缩的分布式数据库系统
2)它使用HDFS作为底层文件存储系统,在其上运行MapReduce批量处理数据,使用ZooKeeper作为协同服务组件
3)主要用于存储非结构化和半结构化的松散数据

HBase表的特点

1)大:一个表可以有十亿行,上百万列
2)无模式
3)面向列:面向列的存储和权限控制
4)稀疏:对于空(null)的列,不占用存储空间
5)数据多版本:每个单元中的数据可以有多个版本
6)数据类型单一:hbase中数据都是字符串,没有类型

HBase体系架构


1)Client

HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信

  • 管理类操作:Client与HMaster进行RPC
  • 数据读写类操作:Client与HRegionServer进行RPC

Client访问用户数据之前需要首先访问zookeeper,然后访问-ROOT-表,接着访问.META.表,最后才能找到用户数据的位置去访问

  • -ROOT-是系统内部表:ROOT里面存储了对应的.META地址和开始结束信息
  • .META.是系统内部表:.META.里面同样存储了对应的HRegion地址和开始结束信息。

2)Zookeeper

1)保证任何时候,集群中只有一个maser
2)存储所有Region的寻址入口
3)实时监控Region server的上线和下线信息,并实时通知master
4)存储hbase的schema和table的元数据
5)存储了root表的地址(更快查询到那张表有数据)和Hmaster的地址(确定有哪些Hmaster)

3)HMaster

1)为Region server分配region,记录region在哪台Hregion server上
2)新机器加入时,管理HRegion Server的负载均衡,调整Region分布
3)发现失效HRegion Server 并将其上的Regions迁移
4)管理用户对Table的增、删、改、查操作

4)HRegionServer

1)HRegion server 维护 region ,处理对这些 region 的 IO 请求,,向HDFS文件系统中读写数据
2)HRegion server 负责切分在运行过程中变得过大的 region

  • HRegionServer包含一个HLog部分和HRegion部分(多个HRegion)
  • HLog部分保存着用户操作hbase的日志。用户的操作都会先记录到HLog中,然后再保存到HRegion中
  • HRegion是存储的实际数据,它包含了多个HStore
  • HStore:每一个列族都会形成一个HStore,它由MemStore和多个HFile组成
  • MemStore驻留在内存中,当数据保存时,数据会先存储到MemStore中,然后根据用户设定的显式刷写或隐式刷写模式,将数据再保存到HFile中。默认的存储模式是隐式存储
  • HLog的作用
  • HFile负责的是实际数据的存储了,它是HBase中的最小单位

HBase数据模型(物理模型和逻辑模型)

HRegion

HRegionServer内部管理了一系列的HRegion对象

  • Hbase自动把表水平划分成多个区域(region),每个region会保存一个表里面某段连续的数据
  • Hregion由多个HStore组成

Hstore(包含Memstore和storefile两部分)

  • 每个HStore对应了table中的一个column family(CF)的存储
  • Hstore包括位于内存中的memstore和位于磁盘的storefile
  • MemStore:用户写人的数据先回放入memstore,当memstore满了以后会flush成一个storefile
  • StoreFiles:底层实现是Hfile,当storefile文件的数量增长到一定阀值后,系统会进行合并,在合并过程中会进行版本合并和删除工作,将多个storefile合并成更大的storefile
  • 客户端检索数据,先在memstore找,找不到再找storefile

Hlog

在每次用户操作写入memstore的同时,也会写一份数据到HLog文件中,Hlog文件定期会滚动出新的,并删除旧的文件

Hfile

Hfile文件是不定长的,长度固定的只有两块

Row key(行键)

  • row key是用来检索记录的主键
  • 访问HBASE table中的行,只有三种方式:
    1)通过单个row key访问
    2)通过row key的range(正则)
    3)全表扫描

  • Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes)
  • 在HBASE内部,row key保存为字节数组
  • 存储时,数据按照Row key的字典序(byte order)排序存储

Column Family(列族)

  • HBASE表中的每个列,都归属于某个列族
  • 列族是表的schema的一部分(而列不是),必须在使用表之前定义
  • 列名都以列族作为前缀。例如courses:history,courses:math都属于courses 这个列族。

TimeStamp(时间戳)

  • HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引
  • 时间戳的类型是64位整型
  • 时间戳可以由HBASE(在数据写入时自动 )赋值,也可以由客户显式赋值
  • 每个 cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面
  • 为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,HBASE提供 了两种数据版本回收方式。一是保存数据的最后n个版本,二是保存最近一段 时间内的版本

HBase学习1(hbase基础)的更多相关文章

  1. Hbase 学习(一) hbase配置文件同步

    最近在狂啃hadoop的书籍,这部<hbase:权威指南>就进入我的视野里面了,啃吧,因为是英文的书籍,有些个人理解不对的地方,欢迎各位拍砖. HDFS和Hbase配置同步 hbase的配 ...

  2. HBase 学习之一 <<HBase使用客户端API动态创建Hbase数据表并在Hbase下导出执行>>

    HBase使用客户端API动态创建Hbase数据表并在Hbase下导出执行                       ----首先感谢网络能够给我提供一个开放的学习平台,如果没有网上的技术爱好者提供 ...

  3. HBase学习——4.HBase过滤器

    1.过滤器 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter.Filter可以根据簇.列.版本等更多的条件来对数据进行过滤,基于Hbase本身提 ...

  4. HBase学习笔记-HBase性能研究(1)

    使用Java API与HBase集群交互时,需要构建HTable对象,使用该对象提供的方法来进行插入/删除/查询等操作.要创建HTable对象,首先要创建一个带有HBase集群信息的配置对象Confi ...

  5. HBase学习——3.HBase表设计

    1.建表高级属性 建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用HColumnDescriptor. ...

  6. HBase学习笔记-基础(一)

    HBase版本:0.97 1.Get Gets实在Scan的基础上实现的. 2.联合查询(Join) HBase是否支持联合是一个网上常问问题.简单来说 : 不支持.至少不像传统RDBMS那样支持. ...

  7. HBase学习系列

    转自:http://www.aboutyun.com/thread-8391-1-1.html 问题导读: 1.hbase是什么? 2.hbase原理是什么? 3.hbase使用中会遇到什么问题? 4 ...

  8. HBase学习与实践

    Photo by bealach verse on Unsplash 参考书籍:<HBase 权威指南> -- Lars George著. 文章为个人从零开始学习记录,如有错误,还请不吝赐 ...

  9. HBase学习(四) 二级索引 rowkey设计

    HBase学习(四) 一.HBase的读写流程 画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...

随机推荐

  1. Netdata安装和使用(Linux 性能实时监测工具)

    Netdata 是一款 Linux 性能实时监测工具..以web的可视化方式展示系统及应用程序的实时运行状态(包括cpu.内存.硬盘输入/输出.网络等linux性能的数据). Netdata文档地址: ...

  2. #1560 : H国的身份证号码II(dp+矩阵快速幂)

    #1560 : H国的身份证号码II 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 H国的身份证号码是一个N位的正整数(首位不能是0).此外,由于防伪需要,一个N位正整 ...

  3. Extract, Transform, Load

    w https://en.wikipedia.org/wiki/Extract,_transform,_load

  4. Django models ORM基础操作--白话聊Django系列

    上次我们讲完了views视图,那我们这次来看一下Django强大的ORM,可以这么说,你不懂Django的ORM,你就不懂Django,那废话不多说 ORM又称关系对象映射,在ORM里,一张表就是一个 ...

  5. 基于Django的Disqus如何支持每月80亿PV(转)

    原文:基于Django的Disqus如何支持每月80亿PV 本文由 伯乐在线 - 贱圣OMG 翻译.未经许可,禁止转载!英文出处:Matt Robenolt.欢迎加入翻译小组. 现在我们Disqus能 ...

  6. Python3.6全栈开发实例[006]

    6.检查传入字典的每一个value的长度,如果大于2,那么仅保留前两个长度的内容,并将新内容返回给调用者. dic = {"k1": "v1v1", " ...

  7. 中文Ubuntu里用户目录里的路径改成英文

    (附注:转载于http://www.linuxdiyf.com/linux/201105/56.html) 为了使用起来方便,装了Ubuntu中文版,自然在home文件里用户目录的"桌面&q ...

  8. MapReduceTopK TreeMap

    版权声明: https://blog.csdn.net/zhangxiango/article/details/33319281 MapReduce TopK统计加排序中介绍的TopK在mapredu ...

  9. Spring学习笔记3—声明式事务

    1 理解事务 事务:在软件开发领域,全有或全无的操作被称为事务.事务允许我们将几个操作组合成一个要么全部发生要么全部不发生的工作单元. 事务的特性: 原子性:事务是由一个或多个活动所组成的一个工作单元 ...

  10. CentOS7更改网卡名称为eth0

    #!/bin/bash # Author: fansik # Date: 2017年 09月 19日 星期二 :: CST sed -i 's@rhgb@rhgb net.ifnames=0@g' / ...