MapReduce-从HBase读取数据处理后再写入HBase

MapReduce-从HBase读取处理后再写入HBase

代码如下

package com.hbase.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Mutation;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableInputFormat;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

* @author:FengZhen

* @create:2018年9月17日

* 从HBase读写入HBase

* zip -d HBaseToHBase.jar 'META-INF/.SF' 'META-INF/.RSA' 'META-INF/*SF'

*/

public class HBaseToHBase extends Configured implements Tool{

	private static String addr="HDP233,HDP232,HDP231";

	private static String port="2181";

	public enum Counters { ROWS, COLS, VALID, ERROR, EMPTY, NOT_EMPTY}

	static class ParseMapper extends TableMapper<ImmutableBytesWritable, Put>{

		private byte[] columnFamily = null;

		@Override

		protected void setup(Mapper<ImmutableBytesWritable, Result, ImmutableBytesWritable, Put>.Context context)

				throws IOException, InterruptedException {

			columnFamily = Bytes.toBytes(context.getConfiguration().get("conf.columnfamily"));

		}

		@Override

		protected void map(ImmutableBytesWritable key, Result value,

				Mapper<ImmutableBytesWritable, Result, ImmutableBytesWritable, Put>.Context context)

				throws IOException, InterruptedException {

			context.getCounter(Counters.ROWS).increment(1);

			String hbaseValue = null;

			Put put = new Put(key.get());

			for (Cell cell : value.listCells()) {

				context.getCounter(Counters.COLS).increment(1);

				hbaseValue = Bytes.toString(CellUtil.cloneValue(cell));

				if (hbaseValue.length() > 0) {

					String top = hbaseValue.substring(0, hbaseValue.length()/2);

					String detail = hbaseValue.substring(hbaseValue.length()/2, hbaseValue.length() - 1);

					put.addColumn(columnFamily, Bytes.toBytes("top"), Bytes.toBytes(top));

					put.addColumn(columnFamily, Bytes.toBytes("detail"), Bytes.toBytes(detail));

					context.getCounter(Counters.NOT_EMPTY).increment(1);

				}else {

					put.addColumn(columnFamily, Bytes.toBytes("empty"), Bytes.toBytes(hbaseValue));

					context.getCounter(Counters.EMPTY).increment(1);

				}

			}

			try {

				context.write(key, put);

				context.getCounter(Counters.VALID).increment(1);

			} catch (Exception e) {

				e.printStackTrace();

				context.getCounter(Counters.ERROR).increment(1);

			}

		}

	}

	static class ParseTableReducer extends TableReducer<ImmutableBytesWritable, Put, ImmutableBytesWritable>{

		@Override

		protected void reduce(ImmutableBytesWritable key, Iterable<Put> values,

				Reducer<ImmutableBytesWritable, Put, ImmutableBytesWritable, Mutation>.Context context)

				throws IOException, InterruptedException {

			for (Put put : values) {

				context.write(key, put);

			}

		}

	}

	public int run(String[] arg0) throws Exception {

		String table = arg0[0];

		String column = arg0[1];

		String destTable = arg0[2];

		Configuration configuration = HBaseConfiguration.create();

		configuration.set("hbase.zookeeper.quorum",addr);

		configuration.set("hbase.zookeeper.property.clientPort", port);

		Scan scan = new Scan();

		if (null != column) {

			byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column));

			if (colkey.length > 1) {

				scan.addColumn(colkey[0], colkey[1]);

				configuration.set("conf.columnfamily", Bytes.toString(colkey[0]));

				configuration.set("conf.columnqualifier", Bytes.toString(colkey[1]));

			}else {

				scan.addFamily(colkey[0]);

				configuration.set("conf.columnfamily", Bytes.toString(colkey[0]));

			}

		}

		Job job = Job.getInstance(configuration);

		job.setJobName("HBaseToHBase2");

		job.setJarByClass(HBaseToHBase2.class);

		job.getConfiguration().set(TableInputFormat.INPUT_TABLE, table);

		job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, destTable);

		job.setMapperClass(ParseMapper.class);

		job.setMapOutputKeyClass(ImmutableBytesWritable.class);

		job.setMapOutputValueClass(Put.class);

//		job.setReducerClass(ParseTableReducer.class);

		job.setOutputKeyClass(ImmutableBytesWritable.class);

		job.setOutputValueClass(Put.class);

		job.setInputFormatClass(TableInputFormat.class);

		TableInputFormat.addColumns(scan, KeyValue.parseColumn(Bytes.toBytes(column)));

		job.setOutputFormatClass(TableOutputFormat.class);

		job.setNumReduceTasks(0);

		//使用TableMapReduceUtil会报类找不到错误

		//Caused by: java.lang.ClassNotFoundException: com.yammer.metrics.core.MetricsRegistry

//		TableMapReduceUtil.initTableMapperJob(table, scan, ParseMapper.class, ImmutableBytesWritable.class, Put.class, job);

//		TableMapReduceUtil.initTableReducerJob(table, IdentityTableReducer.class, job);

		return job.waitForCompletion(true) ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {

		String[] params = new String[] {"test_table_mr", "data:info", "test_table_dest"};

		int exitCode = ToolRunner.run(new HBaseToHBase2(), params);

		System.exit(exitCode);

	}

}

　打包测试

zip -d HBaseToHBase.jar 'META-INF/.SF' 'META-INF/.RSA' 'META-INF/*SF'

hadoop jar HBaseToHBase.jar com.hbase.mapreduce.HBaseToHBase

出现的问题

一开始使用额TableMapReduceUtil,但是报下面这个错

Exception in thread "main" java.lang.NoClassDefFoundError: com/yammer/metrics/core/MetricsRegistry

	at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.addHBaseDependencyJars(TableMapReduceUtil.java:732)

	at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.addDependencyJars(TableMapReduceUtil.java:777)

	at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.initTableMapperJob(TableMapReduceUtil.java:212)

	at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.initTableMapperJob(TableMapReduceUtil.java:168)

	at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.initTableMapperJob(TableMapReduceUtil.java:291)

	at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.initTableMapperJob(TableMapReduceUtil.java:92)

	at com.hbase.mapreduce.HBaseToHBase.run(HBaseToHBase.java:108)

	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)

	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:90)

	at com.hbase.mapreduce.HBaseToHBase.main(HBaseToHBase.java:115)

	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

	at java.lang.reflect.Method.invoke(Method.java:498)

	at org.apache.hadoop.util.RunJar.run(RunJar.java:233)

	at org.apache.hadoop.util.RunJar.main(RunJar.java:148)

Caused by: java.lang.ClassNotFoundException: com.yammer.metrics.core.MetricsRegistry

	at java.net.URLClassLoader.findClass(URLClassLoader.java:381)

	at java.lang.ClassLoader.loadClass(ClassLoader.java:424)

	at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:338)

	at java.lang.ClassLoader.loadClass(ClassLoader.java:357)

	... 16 more

　解决，不使用TableMapReduceUtil，分布设置便可解决此问题

MapReduce-从HBase读取数据处理后再写入HBase的更多相关文章

Java基础知识强化之IO流笔记52：IO流练习之把一个文件中的字符串排序后再写入另一个文件案例
1. 把一个文件中的字符串排序后再写入另一个文件已知s.txt文件中有这样的一个字符串:"hcexfgijkamdnoqrzstuvwybpl" 请编写程序读取数据内容,把数据排 ...
MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...
个人学习记录1：二维数组保存到cookie后再读取
二维数组保存到cookie后再读取 var heartsArray = [[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],[0,0,0,0,0,0,0,0,0,0,0],[0,0, ...
hadoop mapreduce 写入hbase报错 Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
现象:map任务构造数据正常,reduce任务,开始也正常,速度很快 ,在hbase 的管理界面,可以看到,5W以上的请求数当reduce 执行到 70% 左右的时候,就堵住了,查看yarn的web ...
从hbase读取数据优化策略和实验对照结果
起因:工作须要.我须要每5分钟从hbase中.导出一部分数据,然后导入到ES中.可是在開始阶段编写的python脚本,我发现从hbase读取数据的速度较慢,耗费大量的时间.影响整个导数过程,恐怕无法在 ...
flink-----实时项目---day07-----1.Flink的checkpoint原理分析 2. 自定义两阶段提交sink（MySQL） 3 将数据写入Hbase（使用幂等性结合at least Once实现精确一次性语义） 4 ProtoBuf
1.Flink中exactly once实现原理分析生产者从kafka拉取数据以及消费者往kafka写数据都需要保证exactly once.目前flink中支持exactly once的sourc ...
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐 ...
Ambari部署HDP：HBase Master启动后自动消失
这是第一次出勤部署产品.遇到不可控问题,解决,写个心得.记录一下吧^^ 在排查问题的过程中,学到不少知识. (1)centos系统盘和数据盘分开,装操作系统的人没有将IT的空间分配出来,所以分区,自动 ...
记一次OGG数据写入HBase的丢失数据原因分析
一.现象二.原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息 ...

随机推荐

selenium-webdriver 中执行js代码
#获取标签的text文本值 js1="return document.getElementById('key1').innerText" dr.execute_script(js1 ...
PHP 可以获取客户端哪些访问信息
php是一种弱类型的程序语言,但是最web的在程序语言中有系统全局函数: $_SERVER <?php echo "".$_SERVER['PHP_SELF'];#当前正在 ...
Python抓取网页并保存为PDF
https://blog.csdn.net/shenwanjiang111/article/details/67634794
[Spring Data Repositories]学习笔记－－为repository添加通用的方法
如果想把一个方法加到所有的repository中,用前一篇提到的方法就不合适了. 英文原版,请看 http://docs.spring.io/spring-data/data-mongo/docs/1 ...
《从零开始学Swift》学习笔记（Day 37）——默认构造函数
原创文章,欢迎转载.转载请注明:关东升的博客结构体和类的实例在构造过程中会调用一种特殊的init方法,称为构造函数.构造函数没有返回值,可以重载.在多个构造函数重载的情况下,运行环境可以根据它的外部 ...
isnull在order by中的使用——让我长见识了
select * from VisitLogorder by ISNULL(NextVisitDate,'2299-01-01') 此sql的作用是查找表中的数据,并按照NextVisitDate字段 ...
三、Nuxt项目目录结构
使用IDE打开我们初始化完的新项目,然后发现目录如下图所示现在来介绍一下每个目录和文件 .idea 是我使用的IDE是IDEA自动生成的,跟项目无关 .nuxt ...
流畅的python python 序列
内置序列容器类型 list .tuple和collections.deque这些序列能放入不同的类型的数据扁平序列 str.byets.bytearray.memoryview(内存视图)和arr ...
教你管理SQL实例系列（1-15）
全系列转自:51CTO ->jimshu http://jimshu.blog.51cto.com 目录及原本连接如下: 教你管理SQL实例(1)数据库实例教你管理SQL实例(2)服务启动帐户 ...
部署Jenkins+docker集成环境
环境: 主机(mac osx)和虚拟机(Ubuntu 16.04) mac osx系统,运行Jenkins Ubuntu16.04系统,运行docker(用Ubuntu14.04镜像创建一个docke ...

MapReduce-从HBase读取数据处理后再写入HBase

MapReduce-从HBase读取处理后再写入HBase

出现的问题

MapReduce-从HBase读取数据处理后再写入HBase的更多相关文章

随机推荐

热门专题