HBase删除数据

hbase官方文档中描述了，hbase删除数据可以总结为下面三种（Java API有很多接口，可以总结下面的几种）：

删除一个列的指定版本
删除一个列的所用版本
删除指定列族的所有列

hbase删除数据，并不是马上删掉，只是对数据打一个删除标记，真正删除数据是等到下一次major_compact（除非KEEP_DELETED_CELLS=true）。当删除整行时，hbase会给这条数据每个列族打一个删除标记。有两个需要注意的地方：

1. major_compact之前和之后，查询结果不一样，具体看例子：

public class DeleteExample {

  public static void main(String[] args) throws IOException {

      Configuration conf = HBaseConfiguration.create();

      Connection connection = ConnectionFactory.createConnection(conf);

      Admin admin = connection.getAdmin();

      if(admin.tableExists(TableName.valueOf("test2"))){

          admin.disableTable(TableName.valueOf("test2"));

          admin.deleteTable(TableName.valueOf("test2"));

      }

      HTableDescriptor desc = new HTableDescriptor(TableName.valueOf("test2"));

      HColumnDescriptor coldef = new HColumnDescriptor("cf");

      coldef.setMaxVersions(2);

      desc.addFamily(coldef);

      admin.createTable(desc);

      Table table = connection.getTable(TableName.valueOf("test2"));

      Put put1 = new Put(Bytes.toBytes("r1"));

      put1.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 1, Bytes.toBytes("value1"));

      table.put(put1);

      Put put2 = new Put(Bytes.toBytes("r1"));

      put2.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 2, Bytes.toBytes("value2"));

      table.put(put2);

      Put put3 = new Put(Bytes.toBytes("r1"));

      put3.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 3, Bytes.toBytes("value3"));

      table.put(put3);

      //Delete delete = new Delete(Bytes.toBytes("r1"));

      //delete.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 2);

      //table.delete(delete);

      table.close();

  }

}

上述代码中，创建了test2，并设置列族cf的最大版本数据2，然后先后添加了3个版本的单元格，这是从shell中可以查看数据，如下：

hbase(main):035:0> get 'test2','r1',{COLUMN => 'cf:c1',VERSIONS => 2}

COLUMN                  CELL

 cf:c1                  timestamp=3, value=value3

 cf:c1                  timestamp=2, value=value2

然后，修改java代码，注释掉建表以及添加数据的代码，增加一个delete操作，指定版本时间戳为2（或者3），执行后，再从shell中查看数据，如下：

hbase(main):033:0> get 'test2','r1',{COLUMN => 'cf:c1',VERSIONS => 2}

COLUMN                  CELL

 cf:c1                  timestamp=3, value=value3

 cf:c1                  timestamp=1, value=value1

可以发现，版本1复活了，这是由于服务器把内部处理推迟了，该列的老版本数据仍然存在，删除较新的版本（2）会使它们再次查询到。

如果，在添加数据之后，做下flush和major_compact，然后再做删除操作，查询结果如下：

hbase(main):036:0> flush 'test2'

0 row(s) in 0.5280 seconds

hbase(main):037:0> major_compact 'test2'

0 row(s) in 0.3760 seconds

hbase(main):038:0> get 'test2','r1',{COLUMN => 'cf:c1',VERSIONS => 2}

COLUMN                  CELL

 cf:c1                  timestamp=3, value=value3

1 row(s) in 0.0100 seconds

可以发现，版本1在合并之后，已经被删除了（因为这时已经有2个版本了，达到了设置的最大版本数据），之后再删除版本2，只能查询出版本3了

另外，如果major_compact是在删除版本2之后做的，那么最后查询的数据仍然为版本1和版本3，我理解这是因为列族设置的最大版本数据为2，所以hbase会保留2个版本

2.删除会屏蔽时间戳靠前的put操作，例子如下：

hbase(main):047:0> create 'test6',{NAME=>'f1',VERSIONS=>3}

0 row(s) in 1.2500 seconds

=> Hbase::Table - test6

hbase(main):048:0> put 'test6','r1','f1:c','val',1

0 row(s) in 0.0140 seconds

hbase(main):049:0> put 'test6','r1','f1:c','val',3

0 row(s) in 0.0080 seconds

hbase(main):050:0> put 'test6','r1','f1:c','val',5

0 row(s) in 0.0030 seconds

hbase(main):051:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}

COLUMN                  CELL

 f1:c                   timestamp=5, value=val

 f1:c                   timestamp=3, value=val

 f1:c                   timestamp=1, value=val

3 row(s) in 0.0080 seconds

hbase(main):052:0> delete 'test6','r1','f1:c',3

0 row(s) in 0.0090 seconds

hbase(main):053:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}

COLUMN                  CELL

 f1:c                   timestamp=5, value=val

1 row(s) in 0.0040 seconds

hbase(main):054:0> put 'test6','r1','f1:c','val',2

0 row(s) in 0.0100 seconds

//get操作没有查询到版本2
hbase(main):055:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}

COLUMN                  CELL

 f1:c                   timestamp=5, value=val

1 row(s) in 0.0080 seconds

hbase(main):056:0> flush 'test6'

0 row(s) in 0.5280 seconds

hbase(main):057:0> major_compact 'test6'

0 row(s) in 0.3280 seconds

hbase(main):058:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}

COLUMN                  CELL

 f1:c                   timestamp=5, value=val

1 row(s) in 0.0070 seconds


//做完major_compact之后，在PUT，可以查询对应的版本数据

hbase(main):059:0> put 'test6','r1','f1:c','val',2

0 row(s) in 0.0110 seconds

hbase(main):060:0> get 'test6','r1',{COLUMN => 'f1:c',VERSIONS => 3}

COLUMN                  CELL

 f1:c                   timestamp=5, value=val

 f1:c                   timestamp=2, value=val

2 row(s) in 0.0050 seconds

在hbase shell中，指定时间戳T删除列时，会删除所有时间戳小于T的版本；

java api中 :delete.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("c1"), 3)，是只删除指定的版本

HBase删除数据的更多相关文章

HBase删除数据的原理
转自:https://blog.csdn.net/cenjianteng/article/details/96645447 -------------------------------------- ...
Hbase之批量删除数据
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo ...
Hbase之删除数据
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo ...
实现HBase增量入库（HBase删除自定义时间戳行数据）
目录 1. 背景描述 2. 问题描述 3. 解决方案 1. 背景描述目前在做音乐推荐项目,前期做排序模型优化,任务是使用模型对用户的历史音乐进行排序,有6800多万个用户,约40G的用户数据,使用H ...
通过时间戳批量删除hbase的数据
如何通过时间戳批量删除hbase的数据我们使用hive关联hbase插入数据时,有时会写错数据,此时hbase中的数据量已经很大很大了(上亿).此时,我们要修改错误的数据,只需要删除写错的那部分数据 ...
HBase按照行键范围删除数据
#!/bin/bash #TOOL_PATH=$(cd "$(dirname "$0")"; pwd) #TOOL_PATH_TMP=$(cd "$( ...
HBase按照TimeStamp删除数据
#!/bin/bash #两种时间输入,一种是输入起始日期,另一种是直接输入hbase里面数据的起始时间戳 if [ $# != 5 ];then echo 'usage:sh byTimestamp ...
数据分页处理系列之二：HBase表数据分页处理
HBase是Hadoop大数据生态技术圈中的一项关键技术,是一种用于分布式存储大数据的列式数据库,关于HBase更加详细的介绍和技术细节,朋友们可以在网络上进行搜寻,笔者本人在接下来的日子里也会写 ...
Hbase写数据，存数据，读数据的详细过程
Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多 ...

随机推荐

kali 系列学习02 - 被动扫描
被动扫描是指目标无法察觉的情况下进行信息收集,注意有经验的渗透工程师会在信息收集上花费整个测试过程一半以上的时间,信息量太大,需要自动化的信息收集工具. 一.借鉴<kali linux2 网络渗 ...
redhat-DHCP服务的配置与应用
DHCP服务器为客户端提供自动分配IP地址的服务,减轻网管的负担首先 rpm -q dhcp 查看是否安装dhcp yum -y install dhcp进行安装安装完成 dhcp服务配置 dhc ...
面试官：连Spring AOP都说不明白，自己走还是我送你？
前言因为假期原因,有一段时间没给大家更新了!和大家说个事吧,放假的时候一位粉丝和我说了下自己的被虐经历,在假期前他去某互联网公司面试,结果直接被人家面试官Spring AOP三连问给问的一脸懵逼!其 ...
PHP获取数组中重复值的键值
$array = array ( 0=>'a', 1=>'b', 2=>'a', 5=>'b', 6=>'c', 40=>'d' ); $keyarr =[];$r ...
php进阶学习-单例设计模式
什么是单例模式(singleton)? 在整个应用程序的生命周期中,任何一个时刻,单例类的实例都只存在一个,同时这个类还必须提供一个访问该类的全局访问点. 单例模式的特点一个类只有一个实例私有克隆 ...
【干货】linux使用nginx一个80端口部署多个项目(spring boot、vue、nuxt、微信小程序)
本人只有一个阿里云的ip和一个已经解析过的域名,然后想用80端口部署多个项目,比如输入: www.a.com和www.b.com与www.c.com就能访问不同项目,而不用输入不同端口号区分. 1.这 ...
csust T1097 “是时候表演真正的技术了” 题解（虚点跑最短路）
题目链接题目大意给你n个点m条路,以及k个宝藏点,q次查询要你求出距离这个点最近的宝藏点的距离题目思路一个套路题,建立虚点与k个点连一个权值为0的边,跑最短路即可注意边多了4000条代码 ...
朴素的模式匹配算法BF
1 #include <iostream> 2 using namespace std; 3 int BF(char S[], char T[]); 4 int main() 5 { 6 ...
spring boot 访问外部http请求
以前访问外部请求都要经过要用 httpClient 需要专门写一个方法来发送http请求这个这里就不说了网上一搜全都是现成的方法 springboot 实现外部http请求是通过F ...
用了Dapper之后就不要再见到SqlConnection咯
一.背景前几天看公司一个新项目的底层使用了dapper,大家都知道dapper是一个非常强大的半自动化orm,帮程序员解决了繁琐的mapping问题,用起来非常爽,但我还是遇到了一件非常不爽的事情, ...

HBase删除数据

HBase删除数据的更多相关文章

随机推荐

热门专题