hbase运行mapreduce设置及基本数据加载方法

hbase与mapreduce集成后，运行mapreduce程序，同时需要mapreduce jar和hbase jar文件的支持，这时我们需要通过特殊设置使任务可以同时读取到hadoop jar和hbase jar文件内容，否则任务会报错。

我们知道仅仅运行mapreduce任务时，不需要设置classpath，这时因为运行bin/yarn命令时已经在命令脚本中针对hadoop执行jar包路径进行了预设置的缘故，但是bin/yarn不能自动设置hbase可执行jar路径，这也是情理之中的事。

一、mapreduce运行hbase程序方法（需要设置环境变量，否则会报错）：

1、如果直接通过mapreduce去运行hbase程序，会报错找不到类：

$ /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/yarn jar /opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6/lib/hbase-server-0.98.6-cdh5.3.6.jar

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter
     at java.lang.Class.getDeclaredMethods0(Native Method)
     at java.lang.Class.privateGetDeclaredMethods(Class.java:2570)
     at java.lang.Class.getMethod0(Class.java:2813)
     at java.lang.Class.getMethod(Class.java:1663)
     at org.apache.hadoop.util.ProgramDriver$ProgramDescription.<init>(ProgramDriver.java:60)
     at org.apache.hadoop.util.ProgramDriver.addClass(ProgramDriver.java:104)
     at org.apache.hadoop.hbase.mapreduce.Driver.main(Driver.java:39)
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
     at java.lang.reflect.Method.invoke(Method.java:606)
     at org.apache.hadoop.util.RunJar.main(RunJar.java:212)

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.filter.Filter
     at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
     at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
     at java.security.AccessController.doPrivileged(Native Method)
     at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
     at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
     at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
     ... 12 more


2、要想执行这个程序，需要设置classpath，设置方法如下：

--执行任务如下：

$ export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6

$ export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

$ HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp` $HADOOP_HOME/bin/yarn jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.6.jar

SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in [jar:file:/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

2017-07-02 15:56:56,424 WARN [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

An example program must be given as the first argument.

Valid program names are:
   CellCounter: Count cells in HBase table
   completebulkload: Complete a bulk data load.
   copytable: Export a table from local cluster to peer cluster
   export: Write table data to HDFS.
   import: Import data written by Export.
   importtsv: Import data in TSV format.
   rowcounter: Count rows in HBase table
   verifyrep: Compare the data from tables in two different clusters. WARNING: It doesn't work for incrementColumnValues'd cells since the timestamp is changed after being appended to the log.

--根据输出提示，可以得到hbase-server-0.98.6-cdh5.3.6.jar包提供的功能如下：
   CellCounter: Count cells in HBase table
   completebulkload: Complete a bulk data load.
   copytable: Export a table from local cluster to peer cluster
   export: Write table data to HDFS.
   import: Import data written by Export.
   importtsv: Import data in TSV format.
   rowcounter: Count rows in HBase table
   verifyrep:Compare the data from tables in two different clusters. WARNING: It doesn't work for incrementColumnValues'd cells since the timestamp is changed after being appended to the log.

现在执行一个hbase程序试试看-统计表中条目数：

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp` $HADOOP_HOME/bin/yarn jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.6.jar rowcounter user

二、hbase数据加载方式：

向hbase中加载数据，一般数据来源三种：
     log
     rdbms
     爬虫

1、测试数据：

student.tsv

10001    zhangsan    35    male    beijing    0109876543

10002    lisi    32    male    shanghia    0109876563

10003    zhaoliu    35    female    hangzhou    01098346543

10004    qianqi    35    male    shenzhen    01098732543

2、上传文件到hdfs上：

/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -mkdir -p /user/hadoop/hbase/importtsv

/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -put /opt/datas/student.tsv /user/hadoop/hbase/importtsv

3、hbase中创建student表：

create 'student','info'

4、将数据导入hbase的脚本程序：

export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6

export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
${HADOOP_HOME}/bin/yarn jar \

${HBASE_HOME}/lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv \

-Dimporttsv.columns=HBASE_ROW_KEY,\

info:name,info:age,info:sex,info:address,info:phone \

student \

hdfs://chavin.king:9000/user/hadoop/hbase/importtsv

--注意：

通常mapreduce在写hbase时使用的事tableOutputFormat方式，在reduce中直接生成put对象写入hbase，该方式在大数据量写入时效率低下（hbase会block写入，频繁进行flush，split，compact等大量io操作），并对hbase节点稳定性造成一定的影响（GC时间过长，相应缓慢，导致节点超市退出，并引起一系列连锁反应）。

5、bulk load方式导入数据到hbase中：

1）创建hbase中student2表：

create 'student2','info'

2）通过以下脚本生成hfile文件：

export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6

export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
${HADOOP_HOME}/bin/yarn jar \

${HBASE_HOME}/lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv \

-Dimporttsv.columns=HBASE_ROW_KEY,\

info:name,info:age,info:sex,info:address,info:phone \

-Dimporttsv.bulk.output=hdfs://chavin.king:9000/user/hadoop/hbase/hfileoutput \

student2 \

hdfs://chavin.king:9000/user/hadoop/hbase/importtsv

--这里首先指定了参数-Dimporttsv.bulk.output，这时上述任务首先将目标文件转换为hfile格式文件，但并不马上导入到目标表中。

3）bulk load方式导入数据进入hbase student2表：

此步骤通过参数completebulkload直接移动步骤2生成的hfile文件到目标表路径，加快了数据加载的速度，同时提升了job运行稳定性。

--说明：

hbase支持bulk load的入库方式，即上述处理方式，它利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接在hdfs中生成持久化的hfile格式文件，然后上传至合适位置，即完成海量数据快速入库的办法。配合mapreduce完成，高效快捷，而且不占用hregion资源，增添负载，在大数据量写入时能极大的提高写入效率，并减低对hbase节点的写入压力。

通过生成hfile，然后再bulkload到hbase的方式来替代之前直接调用HTableOutputFormat的方法有如下好处：

a）消除了对hbase集群插入压力

b）提高了job的运行速度，降低了job执行时间。

三、加载oracle经典测试表dept和emp到hbase中：

1、测试数据如下：

dept.tsv

10    ACCOUNTING    NEW YORK

20    RESEARCH    DALLAS

30    SALES    CHICAGO

40    OPERATIONS    BOSTON

emp.tsv

7369    SMITH    CLERK    7902    1980-12-17    800.00        20

7499    ALLEN    SALESMAN    7698    1981-02-20    1600.00    300.00    30

7521    WARD    SALESMAN    7698    1981-02-22    1250.00    500.00    30

7566    JONES    MANAGER    7839    1981-04-02    2975.00        20

7654    MARTIN    SALESMAN    7698    1981-09-28    1250.00    1400.00    30

7698    BLAKE    MANAGER    7839    1981-05-01    2850.00        30

7782    CLARK    MANAGER    7839    1981-06-09    2450.00        10

7788    SCOTT    ANALYST    7566    1987-04-19    3000.00        20

7839    KING    PRESIDENT        1981-11-17    5000.00        10

7844    TURNER    SALESMAN    7698    1981-09-08    1500.00    0.00    30

7876    ADAMS    CLERK    7788    1987-05-23    1100.00        20

7900    JAMES    CLERK    7698    1981-12-03    950.00        30

7902    FORD    ANALYST    7566    1981-12-03    3000.00        20

7934    MILLER    CLERK    7782    1982-01-23    1300.00        10

2、上传表到hdfs上

/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -mkdir -p /user/hadoop/hbase/scott/dept

/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -put /opt/datas/dept.tsv /user/hadoop/hbase/scott/dept

/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -mkdir -p /user/hadoop/hbase/scott/emp

/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -put /opt/datas/emp.tsv /user/hadoop/hbase/scott/emp

3、hbase中创建dept表和emp表

hbase(main):042:0* create 'dept','info'

0 row(s) in 0.5810 seconds

=> Hbase::Table - dept

hbase(main):043:0> create 'emp','info'

0 row(s) in 0.2290 seconds

4、通过以下脚本转换dept.tsv和emp.tsv文件为hfile格式文件：

export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6

export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
${HADOOP_HOME}/bin/yarn jar \

${HBASE_HOME}/lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv \

-Dimporttsv.columns=HBASE_ROW_KEY,\

info:dname,info:loc \

-Dimporttsv.bulk.output=hdfs://chavin.king:9000/user/hadoop/hbase/deptfile \

dept \

hdfs://chavin.king:9000/user/hadoop/hbase/scott/dept

export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6

export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
${HADOOP_HOME}/bin/yarn jar \

${HBASE_HOME}/lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv \

-Dimporttsv.columns=HBASE_ROW_KEY,\

info:ename,info:job,info:mgr,info:hiredate,info:sal,info:comm,info:deptno \

-Dimporttsv.bulk.output=hdfs://chavin.king:9000/user/hadoop/hbase/empfile \

emp \

hdfs://chavin.king:9000/user/hadoop/hbase/scott/emp

5、通过以下脚本将步骤4产生文件导入到目标表

hbase运行mapreduce设置及基本数据加载方法的更多相关文章

js不需要知道图片宽高的懒加载方法（经过实际测试，不加宽高仍然是无法正常加载的，设置height:auto,height:100%，仍然显示高度为0）
js不需要知道图片宽高的懒加载方法懒加载是如何实现的? - 简书https://www.jianshu.com/p/e86c61468285找到一个不需要知道图片宽高的懒加载方法了(经过实际测试,不 ...
nodemon运行提示错误：无法加载文件 C:\Users\gxf\AppData\Roaming\npm\nodemon.ps1，因为在此系统上禁止运行脚本。
nodemon运行提示错误:无法加载文件 C:\Users\gxf\AppData\Roaming\npm\nodemon.ps1,因为在此系统上禁止运行脚本. 这是你笔记本禁止运行脚本,解决办法 ...
LIB库加载方法-引用百度百科
LIB库加载方法,有三种,如下: 1.LIB文件直接加入到工程文件列表中在VC中打开File View一页,选中工程名,单击鼠标右键,然后选中\"Add Files to Project\ ...
jquery ajax局部加载方法介绍
[导读] 在jquery中实现ajax加载的方法有很多种,不像以前的js的ajax只有那一种,下面我们介绍jquery ajax实现局部加载方法总结,有需要了解的朋友可参考.例代码如下复制代码 $ ...
iOS控制器与视图加载方法
转载记录, 请看原文: 1. iOS中的各种加载方法(initWithNibName,loadNibNamed,initWithCoder,awakeFromNib等等)简单使用 http://w ...
gin框架的热加载方法
gin是用于实时重新加载Go Web应用程序的简单命令行实用程序.只需gin在您的应用程序目录中运行,您的网络应用程序将 gin作为代理提供.gin检测到更改后,将自动重新编译您的代码.您的应用在下次 ...
xib文件的加载方法
xib文件的加载方法以UITableViewCell的cell为例很多时候因为系统的cell无法满足我们的日常需求,我们都会自定义cell 因为cell的界面比较固定,所以通常都会选择用xib来描 ...
javascript文件加载模式与加载方法
加载方式形象图像化方法,见 http://www.growingwiththeweb.com/2014/02/async-vs-defer-attributes.html 1. script标签, ...
iOS UI-(多)视图控制器的生命周期、加载方法和模态视图方法以及屌丝方法
#import "ViewController.h" #import "SecondViewController.h" @interface ViewContr ...

随机推荐

反射简化switch语句
1. 一个简单工厂类 public class FactoryModule { public ModuleIntf getModule(String moduleType) { ModuleIntf ...
Android源码阅读笔记二消息处理机制
消息处理机制: .MessageQueue: 用来描述消息队列2.Looper:用来创建消息队列3.Handler:用来发送消息队列初始化: .通过Looper.prepare()创建一个Loope ...
Socket网络编程--聊天程序(5)
上一小节我们讲了使用select来避免使用多进程的资源浪费问题.上次只是实现了从多个客户端发送数据给服务器端,接下来就要实现从服务器端发送数据给各个客户端. 使用select多路转换处理聊天程序2 c ...
kafka项目中踩到的一个坑（客户端和服务器端版本不一致问题）
启动项目时控制台抛出的异常信息: -- :: --- [ main] o.s.s.c.ThreadPoolTaskScheduler : Initializing ExecutorService 't ...
--save与--save-dev的区别
--save安装的包会在生产和开发环境中都使用: --save-dev的包只在开发环境中使用,在生产环境中就不需要这个包了,不再打包:
Android Launcher分析和修改4——初始化加载数据
上面一篇文章说了Launcher是如何被启动的,Launcher启动的过程主要是加载界面数据然后显示出来, 界面数据都是系统APP有关的数据,都是从Launcher的数据库读取,下面我们详细分析Lau ...
【平差软件学习---科傻】四、科傻二等水准平差（参数设置和in1文件讲解）
[平差软件学习---科傻]四.科傻二等水准平差(参数设置和in1文件讲解) 这个算是最后一集了,也可能不是如果我想到不足的地方我会在补上一集视频,或者是文章页.总感觉自己操作的很熟练,到自己真正讲的时 ...
Java多线程系列——线程池原理之 ThreadPoolExecutor
ThreadPoolExecutor 简介 ThreadPoolExecutor 是线程池类. 通俗的讲,它是一个存放一定数量线程的线程集合.线程池允许多个线程同时运行,同时运行的线程数量就是这个线程 ...
FPGA编程—组合逻辑编码器等verilog实现
本篇博客主要实现对组合逻辑电路的一些常用模块的实现.组合逻辑中,包括译码器,编码器,输入输出选择器,数值比较器,算法单元等. 先来实现编码器,最常用的8-3编码器,这里先讲一下要用到的case ,c ...
Kiss MySQL goodbye for development and say hello to HSQLDB
The days of using MySQL, DB2, PostgreSQL etc for development is over.. I don’t know why any program ...

hbase运行mapreduce设置及基本数据加载方法

hbase运行mapreduce设置及基本数据加载方法的更多相关文章

随机推荐

热门专题