HBase介绍(2)---数据存储结构

在本文中的HBase术语:
基于列:column-oriented
行:row
列组:column families
列:column
单元:cell

理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么？首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.

Google's BigTable论文清楚地解释了什么是BigTable：
Bigtable是一个疏松的分布式的持久的多维排序的map,这个map被行键,列键,和时间戳索引.每一个值都是连续的byte数组.(A Bigtable is a sparse, distributed, persistent multidimensional sorted map. The map is indexed by a row key, column key, and a timestamp; each value in the map is an uninterpreted array of bytes.)

Hadoop wiki的HBase架构页面提到：
HBase使用和Bigtable非常相同的数据模型.用户存储数据行在一个表里.一个数据行拥有一个可选择的键和任意数量的列.表是疏松的存储的,因此用户可以给行定义各种不同的列.(HBase uses a data model very similar to that of Bigtable. Users store data rows in labelled tables. A data row has a sortable key and an arbitrary number of columns. The table is stored sparsely, so that rows in the same table can have crazily-varying columns, if the user likes.)

实质上,HBase和BigTable是个map.相同于数组(PHP),词典(Pyhton),Hash(Ruby)或者Object (Javascript)中的表现形式.所以每一行是一个map,这个map中还可以有多个map(基于列组).获取一个数据就像你从map中获取数据一样.给定一个行名(即从这个map中获取数据),然后给定一个key(列组名+限定词)来取得数据.

HBase 和BigTable都是在分布式文件系统上构建的,所以基础的文件存储能够散布在分布式文件系统的机器上.
HBase使用Hadoop's Distributed File System(HDFS) 或 Amazon's Simple Storage Service(S3),Kosmos Distributed File System(KFS), 与此一样BigTable使用Google File System(GFS).数据被复制到多个节点就像数据被存储在一个RAID系统上.

不像大多数的map应用,在HBase和BigTable中,key/value 是非常严格地按字母次序排列的.那就是意味着键值为"aaaaa"的行下一个行的键值为"aaaab",但是和键值为"zzzzz"的行离的很远.因为这些系统都是非常庞大和分布式的, 这些特性是非常重要的. 空间接近的列保证当你确定要浏览表时, 你感兴趣的行将会靠近这行.当你选择行的键值时,这是非常重要的事情.例子：考虑你表中的列是域名.最好是倒过来的(因此 "com.jimbojw.www"比"www.jimbojw.com"更好) ,因为你的子域名将会靠近你的主域名.注意在HBase中排序仅仅是kay排序,value是不排序的.

在下面的JSON数据中,我们看到整个数据结构是一个map,并且map中每一个key对应一个包含 "A"和"B"的map.假设整个下面数据是一个table,那么它有"1"."aaaaa","aaaab","xyz","zzzzz"这几个行,每一个行有一个"A"和"B"的map.在HBase的术语中, 称"A"和"B"为列组.

{

  "1" : {

    "A" : "x",

    "B" : "z"

  },

  "aaaaa" : {

    "A" : "y",

    "B" : "w"

  },

  "aaaab" : {

    "A" : "world",

    "B" : "ocean"

  },

  "xyz" : {

    "A" : "hello",

    "B" : "there"

  },

  "zzzzz" : {

    "A" : "woot",

    "B" : "1337"

  }

}

在HBase中一个列组通过限定词或叫做标签使每一个列组能够包含许多的列.

{

  "aaaaa" : {

    "A" : {

      "foo" : "y",

      "bar" : "d"

    },

    "B" : {

      "" : "w"

    }

  },

  "aaaab" : {

    "A" : {

      "foo" : "world",

      "bar" : "domination"

    },

    "B" : {

      "" : "ocean"

    }

  },

  "zzzzz" : {

    "A" : {

      "catch_phrase" : "woot",

    }

    "B" : {

      "" : "1337"

    }

  }

}

在上面的例子中,在"aaaaa"的行中,列组"A"包含两个列:"foo"和"bar",列组"B"仅仅有一个限定词为空字符窜""的列.当我们向HBase获取数据时,你必须提供完整的列名字"<列组>:<限定词>".因此上面的例子中行"aaaaa"和"aaaab" 都包含三个列:"A:foo", "A:bar"和"B:".尽管在行中列组是固定的,但是同一个列中限定词可以是不同的,就像行"zzzzz"中列组"A"中只有一个列 "catch_phrase".最后的维度是时间戳(timestamp).所有的在HBase中存储的数据都有一个用时间戳表示的版本或者你自己通过指定时间戳来插入或获取数据.

{

  "aaaaa" : {

    "A" : {

       "foo" : {

        15 : "y",

        4 : "m"

      },

      "bar" : {

        15 : "d",

      }

    },

    "B" : {

      "" : {

        6 : "w"

        3 : "o"

        1 : "w"

      }

    }

  }

}

每一个列可以指定多少版本的数据被保存在每一个单元.在上面的例子中行"aaaaa"的列"A:foo"包含两个倒序时间戳排列的数据15和4,列 "B"包含由三个倒序时间戳排列的数据.一般的应用程序只是简单(不通过时间戳)的请求一个单元的数据.在这种条件下,HBase只是简单地返回最新的版本,即时间戳最大的版本.要获取"A:foo"返回"y",要获取"B"返回"w".如果应用程序在一个行中请求时带上时间戳,HBase将会返回小于或等于请求时间戳的数据.接着上面的例子如果程序请求"A:foo"带上时间戳10,返回"m",加上时间戳3,返回null.

每一个行可以多个列族,每一个列族可以包含无数个列,每一个列都可以有一个不同于其他列的时间戳.在通用数据库中当表创建时我们就已经定义了列,如果修改表结构的话会非常困难(比如:添加一列).在HBase中我们可以很轻松地添加一个列族或列.

HBase介绍(2)---数据存储结构的更多相关文章

Cassandra 的数据存储结构——本质是SortedMap<RowKey, SortedMap<ColumnKey, ColumnValue>>
Cassandra 的数据存储结构 Cassandra 的数据模型是基于列族(Column Family)的四维或五维模型.它借鉴了 Amazon 的 Dynamo 和 Google's BigTab ...
Berkeley DB的数据存储结构——哈希表（Hash Table）、B树（BTree）、队列（Queue）、记录号（Recno）
Berkeley DB的数据存储结构 BDB支持四种数据存储结构及相应算法,官方称为访问方法(Access Method),分别是哈希表(Hash Table).B树(BTree).队列(Queue) ...
kafka 数据存储结构+原理+基本操作命令
数据存储结构: Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的.每个topic又可以分成几个不同的partition(每个topic有几个partitio ...
HBase 数据存储结构
在HBase中, 从逻辑上来讲数据大概就长这样: 单从图中的逻辑模型来看, HBase 和 MySQL 的区别就是: 将不同的列归属与同一个列族下支持多版本数据这看着感觉也没有那么太大的区别呀, ...
Hashtable数据存储结构-遍历规则，Hash类型的复杂度为啥都是O(1)-源码分析
Hashtable 是一个很常见的数据结构类型,前段时间阿里的面试官说只要搞懂了HashTable,hashMap,HashSet,treeMap,treeSet这几个数据结构,阿里的数据结构面试没问 ...
0809MySQL实战系列：大字段如何优化|数据存储结构
转自https://yq.aliyun.com/articles/59256?spm=5176.100239.blogcont59257.9.5MLR2d 摘要: 背景线上发现一张表,1亿的数据量, ...
Redis之数据存储结构
今天去中关村软件园面试,被问到:你做项目用到的Redis处理数据用的什么结构?顿时石化,”用到的结构,不就是key-value嘛,还有什么结构?“.面试官说:“平时除了工作,要加强学习,下面的面试我觉 ...
mysql之innodb存储引擎---数据存储结构
一.背景 1.1文件组织架构首先看一下mysql数据系统涉及到的文件组织架构,如下图所示: msyql文件组织架构图从图看出: 1.日志文件:slow.log(慢日志),error.log(错误日 ...
mysql的innodb数据存储结构
数据库磁盘读取与系统磁盘读取 1,系统从磁盘中读取数据到内存时是以磁盘块(block)为基本单位,位于同一个磁盘块中的数据会被一次性读取出来. 2,innodb存储引擎中有页(Page)的概念,页 ...

随机推荐

__slots__
__slots__ 由于Python是动态语言,任何实例在运行期都可以动态地添加属性. 如果要限制添加的属性,例如,Student类只允许添加 name.gender和score 这3个属性,就可以利 ...
Spring Session 学习记录1
先写些废话新公司项目是有用到redis,之前老公司使用的缓存框架是ehcache.我redis并不熟悉.看过介绍以后知道是个nosql..既然是个数据库,那我想操作方法和jdbc操作关系数据库应该差 ...
.net core 2.0的一次奇特经历
环境:.net core SDK版本 2.0.0-preview1-005977 VS 2017 version 15.3.0 preview 3.0 问题描述:今天在迁移Job的项目中,中午吃饭的时 ...
iOS开发基础控件--UILabel
UILabel 的常见属性和方法: //创建UIlabel对象 UILabel* label = [[UILabel alloc] initWithFrame:self.view.bounds]; / ...
自定义tag标签的方法
JSP1.0中可以通过继承TagSupport或者BodyTagSupport来实现自定义的tag处理方法. JSP2.0中也支持另外一种更为简单的自定tag的方法,那就是直接讲JSP代码保存成*.t ...
从零玩转JavaWeb系列7web服务器-----用户登录界面二维码的制作
1.用eclipse工具新建一个Dynamic Web Project工程如下: 2.在Java Resources的src目录下新建一个包,包名称为com.it666.code 3.在com.it6 ...
k8s v1.5.8 单节点搭建
setsid etcd -name etcd -data-dir /var/lib/etcd -listen-client-urls http://0.0.0.0:2379,http://0.0.0. ...
Centos7.2下编译安装python3.7
1.安装python3.7所需要的依赖. yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel rea ...
kali linux: 网卡监听及扫描网络
一.网卡监听: kali不支持内置网卡,仅仅支持usb网卡.我用的虚拟机.首先在虚拟机的可移动设备里打开usb网卡的连接,执行ifconfig命令,如下: eth0接口是本地有线网卡信息,lo接口是本 ...
Hadoop2.2.0安装配置手册
第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2.官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独 ...

HBase介绍(2)---数据存储结构

HBase介绍(2)---数据存储结构的更多相关文章

随机推荐

热门专题