HBASE

列式存储，设计思想参考BigTable

文档：http://hbase.apache.org/book.html

hive适合数据分析，离线任务
hbase大数据实时查询
避免显式锁，提供行原子性操作
每行数据只有一台服务器服务，因此有强一致性

存储层使用HDFS

按照CF存储，按照Row-key进行关联

Master\Region Server

高可用容灾

Master协调Region Server,负载均衡，分配Region给Region Server
Region Server包括多个Region。Client直接连接Region Server
Zookeeper 高可用，负责Region和Region Server注册(依赖列表特性)



    客户端有上亿条数据时使用

    - rowKey设计很重要，选一个rowKey，使你的数据均匀的分布在集群中

    - 客户端频繁写一张表时，随机RowKey性能更好

    - 客户端需要频繁读一张表时，有序RowKey性能更好

    - 时间连续的数据，有序RowKey更好

    - Column Family一般不会超过2-3个CF，一般一个就够了

      ，它聚合同一特性的数据

安装

windows环境需要cgyWin，太麻烦了，cgywin挺大的，下载老慢。

download stabe hbase version
修改conf/hbase-env.cmd/sh的JAVA_HOME配置
编辑conf/hbase-site.xml配置(本机文件系统，非hdfs系统)

hbase.rootdir
file:///home/testuser/hbase

hbase.zookeeper.property.dataDir
/home/testuser/zookeeper

启动bin/start-hbase.cmd/sh



    create a table:

      create 'test','cf'

    list information:

      list 'test'

    put data:

      put 'test','row1','cf:a','value1'

    scan table

      scan 'test'

    get a row:

      get 'test','row1'

版本相关

Hbase 2.0仅支持JDK 8, Hbase 1.x不再支持jAVA 6

Habase可能会同一时刻打开大量文件，ulimit -n 检查值，使用ulimit -u 确保系统至少配置为10，240

通过预写日志WAL文件来恢复未flush到磁盘的数据，建议配置足够的WAL文件数，使足够多的数据可以被存储

自动切分HRegion

Namespace

Namespace可以用来管理一组table，功能上类似于RDBS的数据库

Column Family

有相同前缀的列，用冒号分隔，如course:history\course:math都是course列族的

Data Model Operations

Get



		public static final byte[] CF = "cf".getBytes();

		public static final byte[] ATTR = "attr".getBytes();

		...

		Get get = new Get(Bytes.toBytes("row1"));

		Result r = table.get(get);

		byte[] b = r.getValue(CF, ATTR);

查询带Version的GET



	public static final byte[] CF = "cf".getBytes();

	public static final byte[] ATTR = "attr".getBytes();

	...

	Get get = new Get(Bytes.toBytes("row1"));

	get.setMaxVersions(3);  // will return last 3 versions of row

	Result r = table.get(get);

	byte[] b = r.getValue(CF, ATTR);  // returns current version of value

	List<KeyValue> kv = r.getColumn(CF, ATTR);  // returns all versions of this column

获取某一行Row

Put

add new rows或者更新已存在的row，有点像upsert



 	隐式version

	public static final byte[] CF = "cf".getBytes();

	public static final byte[] ATTR = "attr".getBytes();

	...

	Put put = new Put(Bytes.toBytes(row));

	put.add(CF, ATTR, Bytes.toBytes( data));

	table.put(put);	

	显式version

	public static final byte[] CF = "cf".getBytes();

	public static final byte[] ATTR = "attr".getBytes();

	...

	Put put = new Put( Bytes.toBytes(row));

	long explicitTimeInMs = 555;  // just an example

	put.add(CF, ATTR, explicitTimeInMs, Bytes.toBytes(data));

	table.put(put);

Scans

查询多行row



		//rowKey的规则可以是复合的，相对于rdbms，可以是几个字段合在一起

		byte[] startRow = Bytes.add(规则1.getBytes(), 规则2.getBytes(), Bytes.toBytes(startTime.getTime()));

 		Scan scan = new Scan();

		scan.setStartRow(startRow);

		scan.setStopRow(endRow);

		scan.addFamily(family);

		ResultScanner rs = table.getScanner(scan);

Delete

删除行，并不立即删除数据，而是记标记，等Master来整理时被处理

http://hadoop-hbase.blogspot.hk/2012/01/scanning-in-hbase.html

Versions

A {row, column, version} tuple exactly specifies a cell in HBase

row和column相同的数据可能有很多，但是他们的version一定不同

version维度的数据是逆序存储的，所以能更快的找到最新的一条数据

Hbase允许多次写操作的对象为同一version，只有最后的那次写可以被获取
写数据时可以不按version的顺序进行写
api可以操作获取的versions个数，如Get.setMaxVersions()

Hbase number of column families

目前并不能很好的处理列族为2或3的情况，因此尽量保持只有1个列族，除非数据操作总是针对列的，也就是说查询一个列族或另一个列族，但不同时查询两个列族

原因：

刷新、整理是在一个Region上的，一个列族在刷新时，相邻的列族也会被刷新，即使它们的数据量很少，所以多个列族会存在着很多无效I/O的问题
当CFa有1百万条数据，CFb有10亿条数据时，CFa的数据会被分布在很多，很多的Region上，会导致CFa的查询非常低效

RowKey设计

在Hbase中，rows是按字典顺序排序的，这样可以优化查询效率，因为相关的rows是挨着的。
拙劣的设计会使Hbase读写存在热点问题，即绝大多数请求指向同一个node或少量的nodes，甚至导致这台region server上的其他region的操作受影响，因为服务器可能过载了（解决办法和ConcurrentHashMap的设计理念相似，分而治之，类似hashcode再rehash）

解决热点问题

salting 通过一定规则产生随机前缀，达到数据更易均匀分布
hashing
逆序
综合多个属性

HBase基础知识摘要的更多相关文章

HBASE基础知识总结
HBASE基础知识总结一,概要说明文章首先回顾HBase 的数据模型和数据层级结构,对数据的每个层级的作用和架构进行了详细阐述:随后介绍了数据写入和读取的详细流程.先把架构图和流程图来坐镇. 架构 ...
HBASE基础知识
HBASE的集群的搭建HBASE的表设计HBASE的底层存储模型 HBase 是一个高可靠.高性能.面向列.可伸缩的分布式缓存系统.利用HBase 技术可在廉价PC Server上搭建起大规模结构化存 ...
Hadoop第11周练习—HBase基础知识
1 :数据即日志内容 2 :HBase合并过程内容 3 :HBase一致性内容书面作业1:数据即日志内容我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle ...
hbase基础知识一
1. hbase是什么漫画学习hbase----最易懂的Hbase架构原理解析 http://developer.51cto.com/art/201904/595698.htm 1.1 hbase的 ...
[C#高级编程]基础知识摘要一
核心C#: 值类型存储在堆栈中,而引用类型存储在托管堆上. object类型可以用于两个目的: 可以使用object引用绑定任何子类型的对象 object类型执行许多一般用途的基本方法,包括Equal ...
CSS基础知识摘要
元素分类块级元素什么是块级元素?在html中<div>. <p>.<h1>.<form>.<table>.<ul> 和 &l ...
Python基础知识摘要
python字典增,删,改,查 1.增:XXX[新的key] = value 2.删:DEL XXX[key] 3.改:XXX[已经存在的key] = NewValue 4.查:aList.exte ...
加密解密(7)*PKI基础知识(完整)
PKI 基础知识摘要本白皮书介绍了加密和公钥基本结构(PKI)的概念和使用 Microsoft Windows 2000 Server 操作系统中的证书服务的基础知识.如果您还不熟悉加密和公钥技术 ...
[No0000138]软件开发基础知识
1. 本文目的本文目的在于,介绍软件开发的各种基础知识以实现,看了之后,对于软件开发的很多领域的基础知识有所了解如此在进行后续的真正的软件开发时,遇到各种细节知识,才会明白由来和背景知识第 1 ...

随机推荐

input输入框只能输入数字 oninput = "value=value.replace(/[^\d]/g,'')" input输入框输入大于0的数字 oninput="value=value.replace(/\D|^0/g,'')"
项目中因为利用 element-ui 和avue两个ui框架搭建的 1.利用element-ui自带的校验需要注意点 prop :rules ref这三个属性 2.利用oninput时间进行校验 ...
Python+Appium实现APP自动化测试
一.环境准备 1.脚本语言:Python3.x IDE:安装Pycharm 2.安装Java JDK .Android SDK 3.adb环境,path添加E:\Software\Android_SD ...
Redis5设计与源码分析读后感（三）跳跃表
一.引言有序集合在日常开发中相当常见,比如做排名等相关的功能,肯定要用到排序的功能,那么常见底层实现有很多种: 数组 :不便于元素的插入和删除链表 :查询效率低,需要遍历所有元素平衡树OR红黑树 ...
深夜，我偷听到程序员要对session下手……
我是一个web服务器我是一个web服务器,我的工作是给人类提供上网服务,我每天要为数以万计的人提供网页浏览服务. 已经是深夜了,我还在和手下几个兄弟为了一件事紧张讨论着. "老大,现在咱们 ...
项目启动加载配置,以及IP黑名单,使用CommandLineRunner和ApplicationRunner来实现(一般用在网关进行拦截黑名单)
//使用2个类的run方法都可以在项目启动时加载配置,唯一不同的是他们的参数不一样,CommandLineRunner的run方法参数是基本类型,ApplicationRunner的run方法参数是一 ...
Tomcat学习小记（二）
1.Tomcat源码入口生命周期统一管理接口:LifeCycle 实现LifeCycle接口的类:(idea快捷键:Ctrl+h) 多个组件共同实现LifeCycle接口 Tomcat启动入口分析: ...
RabbitMQ小记（四）
1.RabbitMQ管理 (1)权限管理物理服务器和虚拟主机都各自有独立的权限管理,用户访问需要设置权限. 授权命令:rabbitmqctl set permissions [-p vhost] { ...
0923 lca练习
P1967 货车运输题目描述 A 国有 nnn 座城市,编号从 11 1 到 n nn,城市之间有 mmm 条双向道路.每一条道路对车辆都有重量限制,简称限重. 现在有 qqq 辆货车在运输货物, ...
unity 3d 三、空间与运动
3D游戏编程第三次作业简答并用程序验证[建议做] 游戏对象运动的本质是什么? 游戏对象运动的本质是游戏对象Position.Rotate.Scale属性数值的变化. 请用三种方法以上方法,实现物体的 ...
[JZOJ]2109 清兵线题解
## [JZOJ]2109 清兵线题解 **FIRST 题目大意** 给你一些正整数,这些正整数为数轴上若干个点代表的数.现求:假设从原点出发,走m以内(包括m)的距离最多能够访问多少个点,输出m- ...

HBase基础知识摘要