hbase源码系列（四）数据模型-表定义和列族定义的具体含义

　hbase是一个KeyValue型的数据库，在《hbase实战》描述它的逻辑模型【行键，列族，列限定符，时间版本】，物理模型是基于列族的。但实际情况是啥？还是上点代码吧。

　　　　 HTableDescriptor tableDesc = new HTableDescriptor("test");
        //日志flush的时候是同步写，还是异步写
        tableDesc.setDurability(Durability.SYNC_WAL);
        //MemStore大小
        tableDesc.setMemStoreFlushSize(256*1024*1024);

        HColumnDescriptor colDesc = new HColumnDescriptor("f");
        //块缓存，保存着每个HFile数据块的startKey
        colDesc.setBlockCacheEnabled(true);
        //块的大小，默认值是65536
        //加载到内存当中的数据块越小，随机查找性能更好,越大，连续读性能更好
        colDesc.setBlocksize(64*1024);
        //bloom过滤器，有ROW和ROWCOL，ROWCOL除了过滤ROW还要过滤列族
        colDesc.setBloomFilterType(BloomType.ROW);
        //写的时候缓存bloom
        colDesc.setCacheBloomsOnWrite(true);
        //写的时候缓存索引
        colDesc.setCacheIndexesOnWrite(true);　　　　　//存储的时候使用压缩算法  　　　 colDesc.setCompressionType(Algorithm.SNAPPY);
        //进行compaction的时候使用压缩算法
        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);
        //压缩内存和存储的数据，区别于Snappy
        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);
        //写入硬盘的时候是否进行编码
        colDesc.setEncodeOnDisk(true);
        //关闭的时候，是否剔除缓存的块
        colDesc.setEvictBlocksOnClose(true);
        //是否保存那些已经删除掉的kv
        colDesc.setKeepDeletedCells(false);
        //让数据块缓存在LRU缓存里面有更高的优先级
        colDesc.setInMemory(true);
        //最大最小版本
        colDesc.setMaxVersions(3);
        colDesc.setMinVersions(1);
        //集群间复制的时候，如果被设置成REPLICATION_SCOPE_LOCAL就不能被复制了
        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);
        //生存时间
        colDesc.setTimeToLive(18000);

        tableDesc.addFamily(colDesc);

　　在上面列出来表定义和列族定义的所有参数，含义也标上去了，我们经常需要设置的可能就是下面的这些。

　　　　 //bloom过滤器，过滤加速        colDesc.setBloomFilterType(BloomType.ROW);
        //压缩内存和存储中的数据，内存紧张的时候设置
        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);　　　　 //让数据块缓存在LRU缓存里面有更高的优先级
        colDesc.setInMemory(true);
        //最大版本，没必要的话，就设置成1个
        colDesc.setMaxVersions(1);
        //集群间复制的时候，如果被设置成REPLICATION_SCOPE_LOCAL就不能被复制了
        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);　　　　　//存储的时候使用压缩算法，这个基本是必备的，hbase的存储大得惊人  　　　 colDesc.setCompressionType(Algorithm.SNAPPY);        //进行compaction的时候使用压缩算法        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);

　　hbase的表在hdfs上面的是这么存储的，/hbase-root/tableName/regionName/familyName/HFile, 在tableName这一级目录会有一个名.tabledesc的文件，在region这一级目录有一个名为.regioninfo的文件，都是明文的。

　　了解完表和列族的定义之后，我们看看KeyValue是怎么存储的吧，引用一下代码，可能大家一看就都懂了。

　　@Override
    public void write(Cell cell) throws IOException {
      checkFlushed();
      // Row rowkey，起始位置，长度
      write(cell.getRowArray(), cell.getRowOffset(), cell.getRowLength());
      // Column family 列族，起始位置，长度
      write(cell.getFamilyArray(), cell.getFamilyOffset(), cell.getFamilyLength());
      // Qualifier 列名，起始位置，长度
      write(cell.getQualifierArray(), cell.getQualifierOffset(), cell.getQualifierLength());
      // Version 时间戳
      this.out.write(Bytes.toBytes(cell.getTimestamp()));
      // Type Put或者Delete
      this.out.write(cell.getTypeByte());
      // Value 值，起始位置，长度
      write(cell.getValueArray(), cell.getValueOffset(), cell.getValueLength());
    }

　　好吧，列存储的话存储的时候每个列都会重复前面的rowkey、列族这些信息，在列很多的情况下，rowkey和列族越长，消耗的内存和列族都会很大，所以它们都要尽量的短。

　　可以考虑用colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX_TREE)来压缩一下内存中的大小，这个后面后面会讲到。

hbase源码系列（四）数据模型-表定义和列族定义的具体含义的更多相关文章

hbase源码系列（十二）Get、Scan在服务端是如何处理
hbase源码系列(十二)Get.Scan在服务端是如何处理? 继上一篇讲了Put和Delete之后,这一篇我们讲Get和Scan, 因为我发现这两个操作几乎是一样的过程,就像之前的Put和Del ...
11 hbase源码系列（十一）Put、Delete在服务端是如何处理
hbase源码系列(十一)Put.Delete在服务端是如何处理? 在讲完之后HFile和HLog之后,今天我想分享是Put在Region Server经历些了什么?相信前面看了<HTab ...
10 hbase源码系列（十）HLog与日志恢复
hbase源码系列(十)HLog与日志恢复 HLog概述 hbase在写入数据之前会先写入MemStore,成功了再写入HLog,当MemStore的数据丢失的时候,还可以用HLog的数据来进行恢 ...
HBase源码系列之HFile
本文讨论0.98版本的hbase里v2版本.其实对于HFile能有一个大体的较深入理解是在我去查看"到底是不是一条记录不能垮block"的时候突然意识到的. 首先说一个对HFile ...
9 hbase源码系列（九）StoreFile存储格式
hbase源码系列(九)StoreFile存储格式从这一章开始要讲Region Server这块的了,但是在讲Region Server这块之前得讲一下StoreFile,否则后面的不好讲下去 ...
hbase源码系列（十二）Get、Scan在服务端是如何处理？
继上一篇讲了Put和Delete之后,这一篇我们讲Get和Scan, 因为我发现这两个操作几乎是一样的过程,就像之前的Put和Delete一样,上一篇我本来只打算写Put的,结果发现Delete也可以 ...
Spring源码系列(四)--spring-aop是如何设计的
简介 spring-aop 用于生成动态代理类(底层是使用 JDK 动态代理或 cglib 来生成代理类),搭配 spring-bean 一起使用,可以使 AOP 更加解耦.方便.在实际项目中,spr ...
hbase源码系列（十四）Compact和Split
先上一张图讲一下Compaction和Split的关系,这样会比较直观一些. Compaction把多个MemStore flush出来的StoreFile合并成一个文件,而Split则是把过大的文件 ...
hbase源码系列（八）从Snapshot恢复表
在看这一章之前,建议大家先去看一下snapshot的使用.这一章是上一章snapshot的续集,上一章了讲了怎么做snapshot的原理,这一章就怎么从snapshot恢复表. restoreSnap ...

随机推荐

扯淡 id 先用着
)) { ) { ) & ) { ); }}
怎么在eclipse中查到这个类用的是哪个jar的类和Eclipse 编译错误 Access restriction:The type *** is not accessible due to restriction on... 解决方案
找到了一个办法,你先按F3,然后点击Change Attached Source..按钮,在弹出的框里有个路径,我的路径是D:/SNFWorkSpace/JAR/~importu9.jar,然后你去引 ...
Maven .m2\repository\jdk\tools\1.7 missing
在pom.xml文件中加入: <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.too ...
Android:percent 布局
Android 新引入的布局,百分比布局,Percent 布局主要分为两种:PercentFrameLayout he PercentRelativeLayout 布局通过 support 库引入 ...
懒人习惯之ButterKnife Zelezny
项目地址:https://github.com/avast/android-butterknife-zelezny 这个是Android Studio的插件. 其实就间接帮你把LoadView的过 ...
asp.net 中用easyui中的treegird的简单使用
几乎每个‘数人头’项目中都会用到的功能,这里先记下来,以后直接到这里复制代码就行了,ASP.NET MVC中的使用数据库用户表中的除了有个parentid父级ID外,我还多加了以个字段,parent ...
FPGA学习网站
1. OPENCORES.ORG这里提供非常多,非常好的PLD了内核,8051内核就可以在里面找到.进入后,选择project或者由 http//www.opencores.org/browse.c ...
Android-优化UI性能(1)-降低主线程的堵塞时间
Android-优化UI性能(1)-降低主线程的堵塞时间一降低主线程的堵塞时间 Android已经提供了AsyncTask实现从主线程生成新的异步任务的方法. 定义并实现以下的类就可以(方法由系统 ...
菜鸟学SSH（三）——Struts2国际化自动检测浏览器语言版
前几天发了一篇Struts国际化的博客——<菜鸟学习SSH(二)——Struts2国际化手动切换版>,有网友提了一个意见,见下图: 于是就有了下面修改的版本: web.xml <?x ...
github pull request
https://stackoverflow.com/questions/14680711/how-to-do-a-github-pull-request https://help.github.com ...

hbase源码系列（四）数据模型-表定义和列族定义的具体含义

hbase源码系列（四）数据模型-表定义和列族定义的具体含义的更多相关文章

随机推荐

热门专题