MapReduce-读取HBase

MapReduce读取HBase数据

代码如下

package com.hbase.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableInputFormat;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

* @author:FengZhen

* @create:2018年9月17日

* MapReduce读取HBase中数据

*/

public class AnalyzeData extends Configured implements Tool{

	private static String addr="HDP233,HDP232,HDP231";

	private static String port="2181";

	public enum Counters { ROWS, COLS, VALID, ERROR }

	static class AnalyzeMapper extends TableMapper<Text, IntWritable>{

		private IntWritable ONE = new IntWritable(1);

		@Override

		protected void map(ImmutableBytesWritable key, Result value,

				Mapper<ImmutableBytesWritable, Result, Text, IntWritable>.Context context)

				throws IOException, InterruptedException {

			context.getCounter(Counters.ROWS).increment(1);

			try {

				for (Cell cell : value.listCells()) {

					context.getCounter(Counters.COLS).increment(1);

					String hbaseValue = Bytes.toString(CellUtil.cloneValue(cell));

					context.write(new Text(hbaseValue), ONE);

					context.getCounter(Counters.VALID).increment(1);

				}

			} catch (Exception e) {

				e.printStackTrace();

				context.getCounter(Counters.ERROR).increment(1);

			}

		}

	}

	static class AnalyzeReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

		@Override

		protected void reduce(Text key, Iterable<IntWritable> values,

				Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

			int count = 0;

			for (IntWritable intWritable : values) {

				count = count + intWritable.get();

			}

			context.write(key, new IntWritable(count));

		}

	}

	public int run(String[] arg0) throws Exception {

		String table = arg0[0];

		String column = arg0[1];

		String outPath = arg0[2];

		Scan scan = new Scan();

		if (null != column) {

			byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column));

			if (colkey.length > 1) {

				scan.addColumn(colkey[0], colkey[1]);

			}else {

				scan.addFamily(colkey[0]);

			}

		}

		Configuration configuration = HBaseConfiguration.create();

		configuration.set("hbase.zookeeper.quorum",addr);

		configuration.set("hbase.zookeeper.property.clientPort", port);

		configuration.set(TableInputFormat.INPUT_TABLE, table);

		Job job = Job.getInstance(configuration);

		job.setJobName("AnalyzeData");

		job.setJarByClass(AnalyzeData.class);

		job.setMapperClass(AnalyzeMapper.class);

		job.setInputFormatClass(TableInputFormat.class);

		TableInputFormat.addColumns(scan, KeyValue.parseColumn(Bytes.toBytes(column)));

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

		//使用TableMapReduceUtil会报类找不到错误

		//Caused by: java.lang.ClassNotFoundException: com.yammer.metrics.core.MetricsRegistry

		//TableMapReduceUtil.initTableMapperJob(table, scan, AnalyzeMapper.class, Text.class, IntWritable.class, job);

		job.setReducerClass(AnalyzeReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		job.setNumReduceTasks(1);

		FileOutputFormat.setOutputPath(job, new Path(outPath));

		return job.waitForCompletion(true) ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {

		String[] params = new String[] {"test_table_mr","data:info","hdfs://fz/data/fz/output/mrReadHBase"};

		int exitCode = ToolRunner.run(new AnalyzeData(), params);

		System.exit(exitCode);

	}

}

MapReduce-读取HBase的更多相关文章

使用MapReduce读取HBase数据存储到MySQL
Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hba ...
Mapreduce读取Hbase表，写数据到一个Hbase表中
public class LabelJob { public static void main(String[] args) throws Exception { Job job = Job.getI ...
Mapreduce读取Hbase表，写数据到多个Hbase表中
Job端的变化: 通过设置conf,配置输出表,在reduce中获取输出表名字 Configuration conf = job.getConfiguration(); //输出表1 conf.set ...
深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运 ...
Mapreduce操作HBase
这个操作和普通的Mapreduce还不太一样,比如普通的Mapreduce输入可以是txt文件等,Mapreduce可以直接读取Hive中的表的数据(能够看见是以类似txt文件形式),但Mapredu ...
Hbase理论&&hbase shell&&python操作hbase&&python通过mapreduce操作hbase
一.Hbase搭建: 二.理论知识介绍: 1Hbase介绍: Hbase是分布式.面向列的开源数据库(其实准确的说是面向列族).HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hb ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...
HBase学习之路（五）MapReduce操作Hbase
MapReduce从HDFS读取数据存储到HBase中现有HDFS中有一个student.txt文件,格式如下 95002,刘晨,女,19,IS 95017,王风娟,女,18,IS 95018,王一 ...
Hbase第五章 MapReduce操作HBase
容易遇到的坑: 当用mapReducer操作HBase时,运行jar包的过程中如果遇到 java.lang.NoClassDefFoundError 类似的错误时,一般是由于hadoop环境没有hba ...
[How to] MapReduce on HBase ----- 简单二级索引的实现
1.简介 MapReduce计算框架是二代hadoop的YARN一部分,能够提供大数据量的平行批处理.MR只提供了基本的计算方法,之所以能够使用在不用的数据格式上包括HBase表上是因为特定格式上的数 ...

随机推荐

POJ1751 Highways
题目链接 http://poj.org/problem?id=1751 题目大意:输入n:然后给你n个点的坐标(任意两点之间皆可达):输入m:接下来m行每行输入两个整数x,y表示点x与点y 已 ...
tsinsen A1333. 矩阵乘法（梁盾）
A1333. 矩阵乘法(梁盾) 时间限制:2.0s 内存限制:256.0MB 总提交次数:515 AC次数:211 平均分:54.14 将本题分享到: 查看未格式化 ...
MVC action 执行两次 background url()
大年初七第一天上班就来解决问题,我也是醉了. 其实是历史遗留问题,今天看到后不能忍了,赶紧解决一下. 旧系统中以一个微信版本的列表页面没有问题,在新系统中重新开发一边后发现列表页面的action总是请 ...
IIPP迷你项目（一）“Rock-paper-scissor-lizard-Spock”
0 前言——关于IIPP 本系列博客的内容均来自<An Introduction to Interactive Programming in Python (Part 1)>(在此我简称为 ...
Storm 集群安装
http://archive.apache.org/dist/storm/ 版本都在这本人安装的是其他版本的自行安装吧,估计都差不多 sudo mkdir /export/serverssudo ...
将CodedUI Test 放到控制台程序中，模拟鼠标键盘操作
CodedUI Test是微软的自动化测试工具,在VS中非常好用.可以用来模拟鼠标点击,键盘输入.但执行的时候必须要用mstest调用,无法传入参数(当然可以写入config文件中,但每次修改十分麻烦 ...
搭建Spring所需的各类jar包汇总详解
Spring jar包官网下载地址:http://repo.spring.io/release/org/springframework/spring/ Spring jar包的描述:针对3.2.2以上 ...
unknown facet type would you like to ignore facet from module
去idea plugin 里面把红色的插件重新勾选一下,点apply 重启就可以了
android开发软键盘出现后防止EditText控件遮挡总体平移UI
在EditText控件接近底部的情况下软键盘弹出后会把获得焦点的EditText控件遮挡无法看到输入信息防止这种情况发生就须要设置AndroidManifest.xml的属性前面的xml信 ...
springboot整合Ehcache
首先引入maven包: <dependency> <groupId>org.springframework.boot</groupId> <artifactI ...

MapReduce-读取HBase

MapReduce读取HBase数据

代码如下

MapReduce-读取HBase的更多相关文章

随机推荐

热门专题