在伪分布式模式和全分布式模式下 HBase 是架构在 HDFS 上的，因此完全可以将MapReduce 编程框架和 HBase 结合起来使用。也就是说，将 HBase 作为底层“存储结构”，

MapReduce 调用 HBase 进行特殊的处理，这样能够充分结合 HBase 分布式大型数据库和MapReduce 并行计算的优点。

相对应MapReduce的hbase实现类：

1）InputFormat 类：HBase 实现了 TableInputFormatBase 类，该类提供了对表数据的大部分操作，其子类 TableInputFormat 则提供了完整的实现，用于处理表数据并生成键值对。TableInputFormat 类将数据表按照 Region 分割成 split，既有多少个 Regions 就有多个splits。然后将 Region 按行键分成<key,value>对，key 值对应与行健，value 值为该行所包含的数据。
2）Mapper 类和 Reducer 类：HBase 实现了 TableMapper 类和 TableReducer 类，其中TableMapper 类并没有具体的功能，只是将输入的<key,value>对的类型分别限定为 Result 和ImmutableBytesWritable。IdentityTableMapper 类和 IdentityTableReducer 类则是上述两个类的具体实现，其和 Mapper 类和 Reducer 类一样，只是简单地将<key,value>对输出到下一个阶段。

3）OutputFormat 类：HBase 实现的 TableOutputFormat 将输出的<key,value>对写到指定的 HBase 表中，该类不会对 WAL（Write-Ahead Log）进行操作，即如果服务器发生
故障将面临丢失数据的风险。可以使用 MultipleTableOutputFormat 类解决这个问题，该类可以对是否写入 WAL 进行设置。

代码：

import java.io.IOException; 

import java.util.Iterator; 

import java.util.StringTokenizer; 

 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.hbase.HBaseConfiguration; 

import org.apache.hadoop.hbase.HColumnDescriptor; 

import org.apache.hadoop.hbase.HTableDescriptor; 

import org.apache.hadoop.hbase.client.HBaseAdmin; 

import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat; 

import org.apache.hadoop.hbase.mapreduce.TableReducer; 

import org.apache.hadoop.hbase.util.Bytes; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.io.NullWritable; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 

 

public class WordCountHBase { 

 

  // 实现 Map 类 

  public static class Map extends 

      Mapper<LongWritable, Text, Text, IntWritable> { 

    private final static IntWritable one = new IntWritable(1); 

    private Text word = new Text(); 

 

    public void map(LongWritable key, Text value, Context context) 

        throws IOException, InterruptedException { 

      StringTokenizer itr = new StringTokenizer(value.toString()); 

      while (itr.hasMoreTokens()) { 

        word.set(itr.nextToken()); 

        context.write(word, one); 

      } 

    } 

  } 

 

  // 实现 Reduce 类 

  public static class Reduce extends 

      TableReducer<Text, IntWritable, NullWritable> { 

 

    public void reduce(Text key, Iterable<IntWritable> values, 

        Context context) throws IOException, InterruptedException { 

 

      int sum = 0; 

 

      Iterator<IntWritable> iterator = values.iterator(); 

      while (iterator.hasNext()) { 

        sum += iterator.next().get(); 

      } 

 

      // Put 实例化，每个词存一行 

      Put put = new Put(Bytes.toBytes(key.toString())); 

      // 列族为 content，列修饰符为 count，列值为数目 

      put.add(Bytes.toBytes("content"), Bytes.toBytes("count"), 

          Bytes.toBytes(String.valueOf(sum))); 

 

      context.write(NullWritable.get(), put); 

    } 

  } 

 

  // 创建 HBase 数据表 

  public static void createHBaseTable(String tableName)  

throws IOException { 

    // 创建表描述 

    HTableDescriptor htd = new HTableDescriptor(tableName); 

    // 创建列族描述 

    HColumnDescriptor col = new HColumnDescriptor("content"); 

    htd.addFamily(col); 

 

    // 配置 HBase 

    Configuration conf = HBaseConfiguration.create(); 

 

    conf.set("hbase.zookeeper.quorum","master"); 

    conf.set("hbase.zookeeper.property.clientPort", "2181"); 

    HBaseAdmin hAdmin = new HBaseAdmin(conf); 

 

    if (hAdmin.tableExists(tableName)) { 

      System.out.println("该数据表已经存在，正在重新创建。"); 

      hAdmin.disableTable(tableName); 

      hAdmin.deleteTable(tableName); 

    } 

 

    System.out.println("创建表：" + tableName); 

    hAdmin.createTable(htd); 

  } 

 

  public static void main(String[] args) throws Exception { 

    String tableName = "wordcount"; 

    // 第一步：创建数据库表 

    WordCountHBase.createHBaseTable(tableName); 

 

    // 第二步：进行 MapReduce 处理 

    // 配置 MapReduce 

    Configuration conf = new Configuration(); 

    // 这几句话很关键 

    conf.set("mapred.job.tracker", "master:9001"); 

    conf.set("hbase.zookeeper.quorum","master"); 

    conf.set("hbase.zookeeper.property.clientPort", "2181"); 

    conf.set(TableOutputFormat.OUTPUT_TABLE, tableName); 

 

    Job job = new Job(conf, "New Word Count"); 

    job.setJarByClass(WordCountHBase.class); 

 

    // 设置 Map 和 Reduce 处理类 

    job.setMapperClass(Map.class); 

    job.setReducerClass(Reduce.class); 

 

    // 设置输出类型 

    job.setMapOutputKeyClass(Text.class); 

    job.setMapOutputValueClass(IntWritable.class); 

 

    // 设置输入和输出格式 

    job.setInputFormatClass(TextInputFormat.class); 

    job.setOutputFormatClass(TableOutputFormat.class); 

 

    // 设置输入目录 

    FileInputFormat.addInputPath(job, new Path("hdfs://master:9000/in/")); 

    System.exit(job.waitForCompletion(true) ? 0 : 1); 

 

  } 

}

常见错误及解决方法：

1、java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.mapreduce.TableOutputFormat

错误输出节选：

13/09/10 21:14:01 INFO mapred.JobClient: Running job: job_201308101437_0016

13/09/10 21:14:02 INFO mapred.JobClient:  map 0% reduce 0%

13/09/10 21:14:16 INFO mapred.JobClient: Task Id : attempt_201308101437_0016_m_000007_0, Status : FAILED

java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.mapreduce.TableOutputFormat

	at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:849)

	at org.apache.hadoop.mapreduce.JobContext.getOutputFormatClass(JobContext.java:235)

	at org.apache.hadoop.mapred.Task.initialize(Task.java:513)

	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:353)

	at org.apache.hadoop.mapred.Child$4.run(Child.java:255)

	at java.security.AccessController.doPrivileged(Native Method)

	at javax.security.auth.Subject.doAs(Subject.java:396)

	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1149)

	at org.apache.hadoop.mapred.Child.main(Child.java:249)

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.mapreduce.TableOutputFormat

	at java.net.URLClassLoader$1.run(URLClassLoader.java:202)

	at java.security.AccessController.doPrivileged(Native Method)

	at java.net.URLClassLoader.findClass(URLClassLoader.java:190)

	at java.lang.ClassLoader.loadClass(ClassLoader.java:306)

	at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)

	at java.lang.ClassLoader.loadClass(ClassLoader.java:247)

	at java.lang.Class.forName0(Native Method)

	at java.lang.Class.forName(Class.java:249)

	at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:802)

	at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:847)

	... 8 more

错误原因：

相关的类文件没有引入到 Hadoop 集群上。

解决步骤：

A、停止HBase数据库：

[hadoop@master bin]$ stop-hbase.sh

stopping hbase............

master: stopping zookeeper.

[hadoop@master bin]$ jps

16186 Jps

26186 DataNode

26443 TaskTracker

26331 JobTracker

26063 NameNode

停止Hadoop集群：

[hadoop@master bin]$ stop-all.sh

Warning: $HADOOP_HOME is deprecated.

stopping jobtracker

master: Warning: $HADOOP_HOME is deprecated.

master:

master: stopping tasktracker

node1: Warning: $HADOOP_HOME is deprecated.

node1:

node1: stopping tasktracker

stopping namenode

master: Warning: $HADOOP_HOME is deprecated.

master:

master: stopping datanode

node1: Warning: $HADOOP_HOME is deprecated.

node1: stopping datanode

node1:

node1: Warning: $HADOOP_HOME is deprecated.

node1:

node1: stopping secondarynamenode

[hadoop@master bin]$ jps

16531 Jps

B、需要配置 Hadoop 集群中每台机器，在 hadoop 目录的 conf 子目录中，找 hadoop-env.sh文件，并添加如下内容：

# set hbase environment

export HBASE_HOME=/opt/modules/hadoop/hbase/hbase-0.94.11-security

export HADOOP_CLASSPATH=$HBASE_HOME/hbase-0.94.11-security.jar:$HBASE_HOME/hbase-0.94.11-security-tests.jar:$HBASE_HOME/conf:$HBASE_HOME/lib/zookeeper-3.4.5.jar

C、重新启动集群和hbase数据库。

基于MapReduce的HBase开发的更多相关文章

深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运 ...
MapReduce教程(一)基于MapReduce框架开发<转>
1 MapReduce编程 1.1 MapReduce简介 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题. MapReduce分成了两个部分: ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...
基于Solr的HBase多条件查询测试
背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力.针对HBa ...
Hbase理论&&hbase shell&&python操作hbase&&python通过mapreduce操作hbase
一.Hbase搭建: 二.理论知识介绍: 1Hbase介绍: Hbase是分布式.面向列的开源数据库(其实准确的说是面向列族).HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hb ...
HDFS,MapReduce,Hive,Hbase 等之间的关系
HDFS: HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的. Hive与Hbase的数据一般都存储在HDFS上.Hadoop HDFS为 ...
HBase 开发环境搭建（Eclipse\MyEclipse + Maven）
写在前面的话首先, 搭建基于MyEclipse的Hadoop开发环境相信,能看此博客的朋友,想必是有一定基础的了.我前期写了大量的基础性博文.可以去补下基础. 比如, CentOS图形界面下如何安 ...
搭建基于MyEclipse的Hadoop开发环境
不多说,直接上干货! 前面我们已经搭建了一个伪分布模式的Hadoop运行环境.请移步, hadoop-2.2.0.tar.gz的伪分布集群环境搭建(单节点) 我们绝大多数都习惯在Eclipse或MyE ...
[How to] MapReduce on HBase ----- 简单二级索引的实现
1.简介 MapReduce计算框架是二代hadoop的YARN一部分,能够提供大数据量的平行批处理.MR只提供了基本的计算方法,之所以能够使用在不用的数据格式上包括HBase表上是因为特定格式上的数 ...

随机推荐

[Swust OJ 771]--奶牛农场(几何题，画图就好)
题目链接:http://acm.swust.edu.cn/problem/771/ Description 将军有一个用栅栏围成的矩形农场和一只奶牛,在农场的一个角落放有一只矩形的箱子,有一天将 ...
linux shell 执行多个命令的方法
(1)在每个命令之间用:(分号)隔开. (2)在每个命令之间用&&隔开. &&表示:若前一个命令执行成功,才会执行下一个.这样,可确保所有的命令执行完毕后,其执行过程都 ...
cocos2d-x游戏开发系列教程-超级玛丽10-怪物与马里奥冲突检测
在超级玛丽游戏中,马里奥在移动,怪物也在移动,当他们遇见时,需要判断是马里奥身亡还是怪物身亡. 这个判断的代码在怪物类的检测函数实现中. 比如蘑菇怪的冲突检测函数: bool CMMonsterMus ...
Sicily-1024
一．题意: 有n个节点,n-1条边,并且任意两个节点都连通.模拟一下,实际上是一棵树的便利,求从特定根节点出发最长路径的值.这里用了广搜. 二．每个节点只有两条邻接边,每个节点用一个vector来 ...
GitHub学习笔记
安装 Ubuntu上安装Git sudo apt-get install git Windows上安装Git msysgit是Windows版的Git.从http://msysgit.github.i ...
2-06. 数列求和（20）（ZJUPAT 数学）
题目链接:http://pat.zju.edu.cn/contests/ds/2-06 给定某数字A(1<=A<=9)以及非负整数N(0<=N<=100000).求数列之和S ...
10994 - Simple Addition(规律)
Problem E Simple Addition Input: Standard Input Output: Standard Output Let’s define a simple recurs ...
Week4（9月30日）：
Part I:提问 =========================== 1.什么是DRY? 2.解释下面的模型验证规则. public class Movie { public int ID { ...
DG创建和提取虚拟机文件
http://www.cr173.com/soft/33359.html http://www.diskgenius.cn/help/newvmdk.php
python 正则表达式汇总
一. 正则表达式基础 1.1.概念介绍正则表达式是用于处理字符串的强大工具,它并不是Python的一部分. 其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同. 它拥 ...

基于MapReduce的HBase开发