HBase本身提供了很多种数据导入的方式，通常有两种常用方式：

使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase
另一种方式就是使用HBase原生Client API

本文就是示范如何通过MapReduce作业从一个文件读取数据并写入到HBase中。

首先启动Hadoop与HBase，然后创建一个空表，用于后面导入数据：

hbase(main):006:0> create 'mytable','cf'

0 row(s) in 10.8310 seconds

=> Hbase::Table - mytable

hbase(main):007:0> list

TABLE

mytable

1 row(s) in 0.1220 seconds

=> ["mytable"]

hbase(main):008:0> scan 'mytable'

ROW                         COLUMN+CELL

0 row(s) in 0.2130 seconds

一、示例程序

下面的示例程序通过TableOutputFormat将HDFS上具有一定格式的文本数据导入到HBase中。

首先创建MapReduce作业，目录结构如下：

Hdfs2HBase/

├── classes

└── src

    ├── Hdfs2HBase.java

    ├── Hdfs2HBaseMapper.java

    └── Hdfs2HBaseReducer.java

Hdfs2HBaseMapper.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class Hdfs2HBaseMapper extends Mapper<LongWritable, Text, Text, Text> {

        public void map(LongWritable key, Text line, Context context) throws IOException,InterruptedException {

                String lineStr = line.toString();

                int index = lineStr.indexOf(":");

                String rowkey = lineStr.substring(0, index);

                String left = lineStr.substring(index+1);

                context.write(new Text(rowkey), new Text(left));

        }

}

Hdfs2HBaseReducer.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.util.Bytes;

public class Hdfs2HBaseReducer extends Reducer<Text, Text, ImmutableBytesWritable, Put> {

        public void reduce(Text rowkey, Iterable<Text> value, Context context) throws IOException,InterruptedException {

                String k = rowkey.toString();

                for(Text val : value) {

                        Put put = new Put(k.getBytes());

                        String[] strs = val.toString().split(":");

                        String family = strs[0];

                        String qualifier = strs[1];

                        String v = strs[2];

                        put.add(family.getBytes(), qualifier.getBytes(), v.getBytes());

                        context.write(new ImmutableBytesWritable(k.getBytes()), put);

                }

        }

}

Hdfs2HBase.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Hdfs2HBase {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        if(otherArgs.length != 2) {

            System.err.println("Usage: wordcount <infile> <table>");

            System.exit(2);

        }

        Job job = new Job(conf, "hdfs2hbase");

        job.setJarByClass(Hdfs2HBase.class);

        job.setMapperClass(Hdfs2HBaseMapper.class);

        job.setReducerClass(Hdfs2HBaseReducer.class);

        job.setOutputKeyClass(ImmutableBytesWritable.class);

        job.setOutputValueClass(Put.class);

        job.setOutputFormatClass(TableOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, otherArgs[1]);

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

配置javac编译依赖环境：

$HADOOP_HOME/share/hadoop/common/hadoop-common-2.4.1.jar

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.4.1.jar

$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar

这里要操作HBase，故除了上面三个jar包，还需要$HBASE_HOME/lib目录下的jar包。为了方便，我们在/etc/profile的CLASSPATH里包含所有的依赖包：

TEMP=`ls /home/hadoop/hbase/lib/*.jar`

HBASE_JARS=`echo $TEMP | sed 's/ /:/g'`

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:/home/hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar:/home/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:/home/hadoop/hadoop/share/hadoop/common/lib/commons-cli-1.2.jar:$HBASE_JARS

编译

$ javac -d classes/ src/*.java

打包

$ jar -cvf hdfs2hbase.jar classes

运行

创建一个data.txt文件，内容如下（列族是建表时创建的列族cf）：

r1:cf:c1:value1

r2:cf:c2:value2

r3:cf:c3:value3

将文件复制到hdfs上：

$ hadoop/bin/hadoop fs -put data.txt /hbase

运行MapReduce作业：

$ hadoop/bin/hadoop jar Hdfs2HBase/hdfs2hbase.jar com.lisong.hdfs2hbase.Hdfs2HBase /hbase/data.txt mytable

报错NoClassDefFoundError找不到类定义：

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/io/ImmutableBytesWritable

    at com.lisong.hdfs2hbase.Hdfs2HBase.main(Hdfs2HBase.java:30)

    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

    ...

    at org.apache.hadoop.util.RunJar.run(RunJar.java:221)

    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)

    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)

    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)

    ... 7 more

原因是我没有把HBase的jar包加到hadoop-env.sh中。

TEMP=`ls /home/hadoop/hbase/lib/*.jar`

HBASE_JARS=`echo $TEMP | sed 's/ /:/g'`

HADOOP_CLASSPATH=$HBASE_JARS

再次运行发现又报了Unable to initialize MapOutputCollector的错误：

15/08/10 08:55:44 WARN mapred.MapTask: Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer

java.lang.NullPointerException

    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:1008)

    at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:401)

    ...

    at java.lang.Thread.run(Thread.java:745)

15/08/10 08:55:44 INFO mapred.LocalJobRunner: map task executor complete.

15/08/10 08:55:44 WARN mapred.LocalJobRunner: job_local2138114942_0001

java.lang.Exception: java.io.IOException: Unable to initialize any output collector

    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)

    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

Caused by: java.io.IOException: Unable to initialize any output collector

    at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412)

    ...

    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

    at java.lang.Thread.run(Thread.java:745)

15/08/10 08:55:44 INFO mapreduce.Job: Job job_local2138114942_0001 failed with state FAILED due to: NA

15/08/10 08:55:45 INFO mapreduce.Job: Counters: 0

原因是我没有指明Map输出的Key/Value类型，在Hdfs2HBase.java中添加以下两句：

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(Text.class);

如果没有专门定义Mapper输出类型的话，job.setOutputKeyClass和job.setOutputValueClass设置的是Mapper和Reducer两个的输出类型。

job.setOutputKeyClass(ImmutableBytesWritable.class);

job.setOutputValueClass(Put.class);

而Hdfs2HBaseMapper输出类型是Text/Text，所以这里需要单独指定。

修改Hdfs2HBase.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Hdfs2HBase {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        if(otherArgs.length != 2) {

            System.err.println("Usage: wordcount <infile> <table>");

            System.exit(2);

        }

        Job job = new Job(conf, "hdfs2hbase");

        job.setJarByClass(Hdfs2HBase.class);

        job.setMapperClass(Hdfs2HBaseMapper.class);

        job.setReducerClass(Hdfs2HBaseReducer.class);

        job.setMapOutputKeyClass(Text.class);    // +

        job.setMapOutputValueClass(Text.class);  // +

        job.setOutputKeyClass(ImmutableBytesWritable.class);

        job.setOutputValueClass(Put.class);

        job.setOutputFormatClass(TableOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, otherArgs[1]);

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

再次编译、打包，然后运行成功！

查询HBase表，验证数据是否已导入：

hbase(main):001:0> scan 'mytable'

ROW                         COLUMN+CELL

 r1                         column=cf:c1, timestamp=1439223857492, value=value1

 r2                         column=cf:c2, timestamp=1439223857492, value=value2

 r3                         column=cf:c3, timestamp=1439223857492, value=value3

3 row(s) in 1.3820 seconds

可以看到，数据导入成功！

由于需要频繁的与存储数据的RegionServer通信，占用资源较大，一次性入库大量数据时，TableOutputFormat效率并不好。

二、拓展-TableReducer

我们可以将Hdfs2HBaseReducer.java代码改成下面这样，作用是一样的：

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.util.Bytes;

public class Hdfs2HBaseReducer extends TableReducer<Text, Text, ImmutableBytesWritable> {

    public void reduce(Text rowkey, Iterable<Text> value, Context context) throws IOException,InterruptedException {

        String k = rowkey.toString();

        for(Text val : value) {

            Put put = new Put(k.getBytes());

            String[] strs = val.toString().split(":");

            String family = strs[0];

            String qualifier = strs[1];

            String v = strs[2];

            put.add(family.getBytes(), qualifier.getBytes(), v.getBytes());

            context.write(new ImmutableBytesWritable(k.getBytes()), put);

        }

    }

}

这里直接继承了TableReducer，TableReducer是部分特例化的Reducer，它只有三个类型参数：输入Key/Value是对应Mapper的输出，输出Key可以是任意的类型，但是输出Value必须是一个Put或Delete实例。

编译打包运行，结果与前面的一样！

个人站点：http://songlee24.github.com

MapReduce将HDFS文本数据导入HBase中的更多相关文章

使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-con ...
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中利用shell脚本将文本数据导入到mysql中需求1:处理文本中的数据,将文本中的数据插入到mys ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
java实现服务端守护进程来监听客户端通过上传json文件写数据到hbase中
1.项目介绍: 由于大数据部门涉及到其他部门将数据传到数据中心,大部分公司采用的方式是用json文件的方式传输,因此就需要编写服务端和客户端的小程序了.而我主要实现服务端的代码,也有相应的客户端的测试 ...
简单通过java的socket&serversocket以及多线程技术实现多客户端的数据的传输，并将数据写入hbase中
业务需求说明,由于公司数据中心处于刚开始部署的阶段,这需要涉及其它部分将数据全部汇总到数据中心,这实现的方式是同上传json文件,通过采用socket&serversocket实现传输. 其中 ...
hive和hbase本质区别——hbase本质是OLTP的nosql DB，而hive是OLAP 底层是hdfs，需从已有数据库同步数据到hdfs;hive可以用hbase中的数据，通过hive表映射到hbase表
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完 ...
Oracle数据导入Hbase操作步骤
——本文非本人原创,为公司同事整理,发布至此以便查阅一.入库前数据准备 1.入hbase详细要求及rowkey生成规则,参考文档“_入HBase库要求 20190104.docx”. 2.根据标准库 ...
spark批量写写数据到Hbase中（bulkload方式）
1:为什么大批量数据集写入Hbase中,需要使用bulkload BulkLoad不会写WAL,也不会产生flush以及split. 如果我们大量调用PUT接口插入数据,可能会导致大量的GC操作.除了 ...

随机推荐

剑指offer重构二叉树给出二叉树的前序和后序重构二叉树
题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树. 假设输入的前序遍历和中序遍历的结果中都不含重复的数字. 例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4, ...
PAT Basic 1066
1066 图像过滤图像过滤是把图像中不重要的像素都染成背景色,使得重要部分被凸显出来.现给定一幅黑白图像,要求你将灰度值位于某指定区间内的所有像素颜色都用一种指定的颜色替换. 输入格式: 输入在第一 ...
【21】外边距折叠(collapsing margins)
[21]外边距折叠(collapsing margins) 外边距合并指的是,当两个垂直外边距相遇时,它们将形成一个外边距. 合并后的外边距的高度等于两个发生合并的外边距的高度中的较大者. [注意]m ...
python基础-面向对象（类）
类类的定义 >>> class P: ... pass ... >>> P <class __main__.P at 0x0000000001F4B ...
apache下虚拟域名配置
在我们开发中通过虚拟域名来访问一个指定的项目确实很方便,接下来教大家如何通过手动的方式去配置虚拟域名(已apache服务器为例) 一.首页我们得找到host文件.windows下这个文件在c盘中WIN ...
hdu 4764 巴什博弈
Stone Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Subm ...
推荐两个不错的flink项目
最近flink真是风生水起,但是浪院长看来这不过是阿里错过了创造spark影响力之后,想要在flink领域创建绝对的影响力.但是,不可否认flink在实时领域确实目前来看独树一帜,当然也有它不适合的地 ...
Java 学习（3）：java 对象和类
目录: --- 对象 --- 类 --- 源文件的声明规则 --- Java 包对象: 对象是类的一个实例(对象不是找个女朋友),有状态和行为.例如,一条狗是一个对象,它的状态有:颜色.名字.品种: ...
Linux之VMware虚拟机取消DHCP
1.点击编辑项 2.选择VMnet1 点击更改设置 3.选择VMnet1 去掉使用本地DHCP服务点击应用原文地址:https://blog.csdn.net/star_in_shy/arti ...
洛谷 P 3371 单元最短路
题目描述如题,给出一个有向图,请输出从某一点出发到所有点的最短路径长度. 输入输出格式输入格式: 第一行包含三个整数N.M.S,分别表示点的个数.有向边的个数.出发点的编号. 接下来M行每行包含三 ...

MapReduce将HDFS文本数据导入HBase中

一、示例程序

二、拓展-TableReducer

MapReduce将HDFS文本数据导入HBase中的更多相关文章

随机推荐

热门专题