本例中需要将hdfs上的文本文件,解析后插入到hbase的表中.

本例用到的hadoop版本2.7.2 hbase版本1.2.2

hbase的表如下:
    1. create 'ns2:user', 'info'
hdfs上的文本文件如下[data/hbase_input/hbase.txt]
    1. 1,xiejl,20
    1. 2,haha,30
    1. 3,liudehua,40
    1. 4,daoming,41
可以通过命令查看hadoop的classpath现在包含哪些jar包:
    1. [hadoop@master ~]$ hdfs classpath

java的主方法:
    1. package com.xjl456852.mapreduce;
    1. import org.apache.hadoop.fs.Path;
    1. import org.apache.hadoop.hbase.client.Put;
    1. import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
    1. import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
    1. import org.apache.hadoop.io.Text;
    1. import org.apache.hadoop.mapreduce.Job;
    1. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    1. import java.io.IOException;
    1. /**
    1. * 将hdfs中的文本文件写入到hbase的表中
    1. * 程序的运行需要加入hadoop的配置文件和hbase的配置文件到jar包中
    1. * 对应的hbase的表
    1. * create 'ns2:user','info'
    1. *
    1. * Created by xiejl on 2016/8/10.
    1. */
    1. public class HBaseApp {
    1. public static void main(String [] args) {
    1. try {
    1. Job job = Job.getInstance();
    1. job.setJobName("text into hbase table");
    1. job.setJarByClass(HBaseApp.class);
    1. FileInputFormat.addInputPath(job, new Path(args[0]));
    1. //设置表名
    1. job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, args[1]);
    1. //设置输出格式为table
    1. job.setOutputFormatClass(TableOutputFormat.class);
    1. //设置输出的key类型为ImmutableBytesWritable
    1. job.setOutputKeyClass(ImmutableBytesWritable.class);
    1. //设置输出的value类型为Put
    1. job.setOutputValueClass(Put.class);
    1. //因为map输出key和reduce输出的key类型不一致,所以需要再设置map的key输出类型为Text
    1. job.setMapOutputKeyClass(Text.class);
    1. //因为map输出value和reduce输出的value类型不一致,所以需要再设置map的value输出类型为Text
    1. job.setMapOutputValueClass(Text.class);
    1. //Mapper
    1. job.setMapperClass(MyMapper.class);
    1. //Reducer
    1. job.setReducerClass(MyReducer.class);
    1. System.exit(job.waitForCompletion(true) ? 0 : 1);
    1. } catch (InterruptedException e) {
    1. e.printStackTrace();
    1. } catch (IOException e) {
    1. e.printStackTrace();
    1. } catch (ClassNotFoundException e) {
    1. e.printStackTrace();
    1. }
    1. }
    1. }
Mapper类:
    1. package com.xjl456852.mapreduce;
    1. import org.apache.hadoop.io.LongWritable;
    1. import org.apache.hadoop.io.Text;
    1. import org.apache.hadoop.mapreduce.Mapper;
    1. import java.io.IOException;
    1. /**
    1. * Created by xiejl on 2016/8/10.
    1. */
    1. public class MyMapper extends Mapper<LongWritable, Text, Text, Text> {
    1. @Override
    1. protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    1. String line = value.toString();
    1. int index = line.indexOf(",");
    1. String rowKey = line.substring(0, index);
    1. //跳过逗号
    1. String valueLine = line.substring(index+1);
    1. context.write(new Text(rowKey), new Text(valueLine));
    1. }
    1. }
Reducer类:
    1. package com.xjl456852.mapreduce;
    1. import org.apache.hadoop.hbase.client.Put;
    1. import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
    1. import org.apache.hadoop.hbase.util.Bytes;
    1. import org.apache.hadoop.io.Text;
    1. import org.apache.hadoop.mapreduce.Reducer;
    1. import java.io.IOException;
    1. /**
    1. * Created by xiejl on 2016/8/11.
    1. */
    1. public class MyReducer extends Reducer<Text, Text, ImmutableBytesWritable, Put> {
    1. @Override
    1. protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
    1. byte[] rowKey = Bytes.toBytes(key.toString());
    1. for(Text text : values) {
    1. //设置put对象的行键
    1. Put put = new Put(rowKey);
    1. String line = text.toString();
    1. int index = line.indexOf(",");
    1. String name = line.substring(0, index);
    1. String age = line.substring(index+1);
    1. //列族的是建表时固定的,列和值是插入时添加的.
    1. put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"),Bytes.toBytes(name));
    1. put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"),Bytes.toBytes(age));
    1. context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())), put);
    1. }
    1. }
    1. }
将程序打为jar包,jar包中需要加入hadoop的配置文件和hbase的配置 (有人将程序打成胖包,就是将依赖的jar,依赖的四个类库hbase-client,hbase-server,hbase-common,hbsae-protocol放入lib目录中,我试验不行,会出现map和reduce任务都执行到100%时卡住不动,等十分钟又出现 FAILED AttemptID:attempt_xxx Timed out after 600 secs,然后又重新执行mapreduce任务,然后又卡住,得结束掉mapreduce进程才能终止)

需要修改集群的配置文件,以满足hadoop执行hbase表插入操作时,能找到相关的类库.

将HBase的类jar包加到hadoop的classpath下, 修改${HADOOP_HOME}/etc/hadoop/hadoop-env.sh。配置好这个文件,分发到各个节点,改这个配置不用重启集群.

    1. TEMP=`ls /opt/modules/hbase/lib/*.jar`
    1. HBASE_JARS=`echo $TEMP | sed 's/ /:/g'`
    1. HADOOP_CLASSPATH=$HBASE_JARS

如果现在运行程序还是会出错,详情可以看我的另一篇文章.hadoop执行hbase插入表操作,出错:Stack trace: ExitCodeException exitCode=1:(xjl456852原创)

还需要在${HADOOP_HOME}/etc/hadoop/yarn-site.xml中加入mapreduce运行时需要的类库,需要设置yarn.application.classpath:
所以我在yarn-site.xml中加入了如下配置,并加入了hbase的lib目录,配置好这个文件,分发到各个节点,这个配置需要重启集群
    1. <property>
    1. <name>yarn.application.classpath</name>
    1. <value>
    1. /opt/modules/hadoop/etc/*,
    1. /opt/modules/hadoop/etc/hadoop/*,
    1. /opt/modules/hadoop/lib/*,
    1. /opt/modules/hadoop/share/hadoop/common/*,
    1. /opt/modules/hadoop/share/hadoop/common/lib/*,
    1. /opt/modules/hadoop/share/hadoop/mapreduce/*,
    1. /opt/modules/hadoop/share/hadoop/mapreduce/lib/*,
    1. /opt/modules/hadoop/share/hadoop/hdfs/*,
    1. /opt/modules/hadoop/share/hadoop/hdfs/lib/*,
    1. /opt/modules/hadoop/share/hadoop/yarn/*,
    1. /opt/modules/hadoop/share/hadoop/yarn/lib/*,
    1. /opt/modules/hbase/lib/*
    1. </value>
    1. </property>

然后执行:
    1. hadoop jar hbase.jar com.xjl456852.mapreduce.HBaseApp data/hbase_input ns2:user
查看hbase的表内容:
    1. hbase(main):001:0> scan 'ns2:user'
    1. ROW COLUMN+CELL
    1. 1 column=info:age, timestamp=1470966325326, value=20
    1. 1 column=info:name, timestamp=1470966325326, value=xiejl
    1. 2 column=info:age, timestamp=1470966325326, value=30
    1. 2 column=info:name, timestamp=1470966325326, value=haha
    1. 3 column=info:age, timestamp=1470966325326, value=40
    1. 3 column=info:name, timestamp=1470966325326, value=liudehua
    1. 4 column=info:age, timestamp=1470966325326, value=41
    1. 4 column=info:name, timestamp=1470966325326, value=daoming
    1. 4 row(s) in 0.3100 seconds
可以看到数据已经插入到hbase表中.


还可以将Reducer类写成继承TableReducer方式,代码如下,执行后会有同样的结果:
    1. package com.xjl456852.mapreduce;
    1. import org.apache.hadoop.hbase.client.Put;
    1. import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
    1. import org.apache.hadoop.hbase.mapreduce.TableReducer;
    1. import org.apache.hadoop.hbase.util.Bytes;
    1. import org.apache.hadoop.io.Text;
    1. import java.io.IOException;
    1. /**
    1. * 如果继承TableReducer,从源码中可以看到,输出的value是Mutation类型,也就是输出的值可以是Put,Delete之类的类型
    1. * Created by xiejl on 2016/8/11.
    1. */
    1. public class MyReducer2 extends TableReducer<Text, Text, ImmutableBytesWritable> {
    1. @Override
    1. protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
    1. byte[] rowKey = Bytes.toBytes(key.toString());
    1. for(Text text : values) {
    1. //设置put对象的行键
    1. Put put = new Put(rowKey);
    1. String line = text.toString();
    1. int index = line.indexOf(",");
    1. String name = line.substring(0, index);
    1. String age = line.substring(index+1);
    1. //列族的是建表时固定的,列和值是插入时添加的.
    1. put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"),Bytes.toBytes(name));
    1. put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"),Bytes.toBytes(age));
    1. context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())), put);
    1. }
    1. context.getCounter("reduce", "over").increment(1);
    1. }
    1. }


hadoop执行hdfs文件到hbase表插入操作(xjl456852原创)的更多相关文章

  1. BulkLoad加载本地文件到HBase表

    BulkLoad加载文件到HBase表 1.功能 将本地数据导入到HBase中 2.原理 BulkLoad会将tsv/csv格式的文件编程hfile文件,然后再进行数据的导入,这样可以避免大量数据导入 ...

  2. Hadoop之HDFS文件操作常有两种方式(转载)

    摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件    命令行     Java API HD ...

  3. Hadoop之HDFS文件操作

    摘要:Hadoop之HDFS文件操作常有两种方式.命令行方式和JavaAPI方式.本文介绍怎样利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件    命令行     Java API HD ...

  4. HDFS文件和HIVE表的一些操作

    1. hadoop fs -ls  可以查看HDFS文件 后面不加目录参数的话,默认当前用户的目录./user/当前用户 $ hadoop fs -ls 16/05/19 10:40:10 WARN ...

  5. hadoop的hdfs文件操作实现上传文件到hdfs

    这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下hdfs文件操作操作示例,包括上传文件到 ...

  6. Hadoop 执行 hdfs 命令烦人的警告信息

    问题描述: 安装完 hadoop,执行 hdfs dfs -ls 命令时,报警告如下: -- ::, WARN util.NativeCodeLoader: Unable to load native ...

  7. Java 向Hbase表插入数据报(org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac)

    org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac 代码: //1.create HTa ...

  8. Java 向Hbase表插入数据报(org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac

    org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac 代码: //1.create HTa ...

  9. Java 向Hbase表插入数据异常org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apache.client.HTable

    出错代码如下: //1.create HTablePool HTablePool hp=new HTablePool(con, 1000); //2.get HTable from HTablepoo ...

随机推荐

  1. java关键字-transient

    java语言的关键字,变量修饰符,如果用transient声明一个实例变量,当对象存储时,它的值不需要维持. Java的serialization提供了一种持久化对象实例的机制.当持久化对象时,可能有 ...

  2. CSU1659: Graph Center(最短路)

    Description The center of a graph is the set of all vertices of minimum eccentricity, that is, the s ...

  3. api接口、RPC、WebService REST

    RPC:所谓的远程过程调用 (面向方法) SOA:所谓的面向服务的架构(面向消息) REST:所谓的 Representational state transfer (面向资源) RPC 即远程过程调 ...

  4. Android(java)学习笔记260:JNI之native方法头文件的生成

    1. JDK1.6 ,进入到工程的bin目录下classes目录下: 使用命令: javah  packageName.ClassName 会在当前目录下生成头文件,从头文件找到jni协议方法 下面举 ...

  5. nginx 配置访问正则匹配

    server{ listen 80; server_name api.zyy.com; root /var/www/api_zyy; index index.php; location ~ /asse ...

  6. 高性能Java Web 页面静态化技术

    package com.yancms.util; import java.io.*; import org.apache.commons.httpclient.*; import org.apache ...

  7. Head First HTML与CSS — 布局与定位

    1.流(flow)是浏览器在页面上摆放HTML元素所用的方法. 对于块元素,浏览器从上到下沿着元素流逐个显示所遇到的各个元素,会在每个块元素之间加一个换行: 对于内联元素,在水平方向会相互挨着,总体上 ...

  8. ADO.NET之使用DataGridView控件显示从服务器上获取的数据

    今天回顾下ADO.NET中关于使用DataGridiew控件显示数据的相关知识 理论整理: 使用 DataGridView 控件,可以显示和编辑来自多种不同类型的数据源的表格数据. SqlDataAd ...

  9. <display:table>属性解释

    参考官方网站:http://www.displaytag.org/1.2/displaytag/tagreference.html 所有属性: cellpadding,cellspacing,clas ...

  10. How to start the Virtualbox VMs under terminal

    Since we have servral machine on my testbed(fedora), and if I need start some VMs on that, I have to ...