hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）

实现将 HDFS 中的数据写入到 HBase 表中

Runner类

 package com.yjsj.hbase_mr2;

 import com.yjsj.hbase_mr2.ReadFruitFromHDFSMapper;

 import com.yjsj.hbase_mr2.WriteFruitMRFromTxtReducer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 import java.io.IOException;

 class Txt2FruitRunner extends Configured implements Tool {

     public int run(String[] args) throws Exception {

 //得到 Configuration

         Configuration conf = this.getConf();

 //创建 Job 任务

         Job job = Job.getInstance(conf, this.getClass().getSimpleName());

         job.setJarByClass(Txt2FruitRunner.class);

         Path inPath = new Path("hdfs://master:9000/input_fruit/fruit.tsv");

         FileInputFormat.addInputPath(job, inPath);

         //设置 Mapper

         job.setMapperClass(ReadFruitFromHDFSMapper.class);

         job.setMapOutputKeyClass(ImmutableBytesWritable.class);

         job.setMapOutputValueClass(Put.class);

         //设置 Reducer

         TableMapReduceUtil.initTableReducerJob("fruit_hdfs", WriteFruitMRFromTxtReducer.class, job);

         //设置 Reduce 数量，最少 1 个

         job.setNumReduceTasks(1);

         boolean isSuccess = job.waitForCompletion(true);

         if (!isSuccess) {

             throw new IOException("Job running with error");

         }

         return isSuccess ? 0 : 1;

     }

     public static void main(String[] args) throws Exception {

         Configuration conf = HBaseConfiguration.create();

         conf = HBaseConfiguration.create();

         conf.set("hbase.zookeeper.quorum", "master,node1,node2");

         conf.set("hbase.zookeeper.property.clientPort", "2181");

         conf.set("hbase.master", "master:60000");

         int status = ToolRunner.run(conf, new Txt2FruitRunner(), args);

         System.exit(status);

     }

 }

Mapper类

 package com.yjsj.hbase_mr2;

 import java.io.IOException;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.util.Bytes;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 public class ReadFruitFromHDFSMapper extends Mapper<LongWritable, Text, ImmutableBytesWritable, Put> {

     @Override

     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         //从 HDFS 中读取的数据

         String lineValue = value.toString();

         //读取出来的每行数据使用\t 进行分割，存于 String 数组

         String[] values = lineValue.split("\t");

         //根据数据中值的含义取值

         String rowKey = values[0];

         String name = values[1];

         String color = values[2];

         //初始化 rowKey

         ImmutableBytesWritable rowKeyWritable = new ImmutableBytesWritable(Bytes.toBytes(rowKey));

         //初始化 put 对象

         Put put = new Put(Bytes.toBytes(rowKey));

         //参数分别:列族、列、值

         put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes(name));

         put.add(Bytes.toBytes("info"), Bytes.toBytes("color"), Bytes.toBytes(color));

         context.write(rowKeyWritable, put);

     }

 }

Reduce类

package com.yjsj.hbase_mr2;

import java.io.IOException;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.io.NullWritable;

public class WriteFruitMRFromTxtReducer extends TableReducer<ImmutableBytesWritable, Put, NullWritable> {

    @Override

    protected void reduce(ImmutableBytesWritable key, Iterable<Put> values, Context context) throws IOException, InterruptedException {

        //读出来的每一行数据写入到 fruit_hdfs 表中

        for (Put put : values) {

            context.write(NullWritable.get(), put);

        }

    }

}

hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）的更多相关文章

Flink 使用（一）——从kafka中读取数据写入到HBASE中
1.前言本文是在<如何计算实时热门商品>[1]一文上做的扩展,仅在功能上验证了利用Flink消费Kafka数据,把处理后的数据写入到HBase的流程,其具体性能未做调优.此外,文中并未就 ...
hbase使用MapReduce操作3（实现将 fruit 表中的一部分数据，通过 MR 迁入到 fruit_mr 表中）
Runner类实现将 fruit 表中的一部分数据,通过 MR 迁入到 fruit_mr 表中. package com.yjsj.hbase_mr; import org.apache.hadoo ...
把hdfs数据写入到hbase表
功能:把hdfs上的数据写入到hbase表. hadoop的mapreduce输出要导入到hbase表,最好先输出HFile格式,再导入hbase,因为HFile是hbase的内部存储格式,所以导入效 ...
HBase结合MapReduce批量导入（HDFS中的数据导入到HBase）
HBase结合MapReduce批量导入 package hbase; import java.text.SimpleDateFormat; import java.util.Date; import ...
hbase使用MapReduce操作2（微博表实现）
package com.yjsj.weibo; import java.io.IOException; import java.util.ArrayList; import java.util.Ite ...
hbase使用MapReduce操作1（基本增删改查）
操作代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apach ...
hive和hbase本质区别——hbase本质是OLTP的nosql DB，而hive是OLAP 底层是hdfs，需从已有数据库同步数据到hdfs;hive可以用hbase中的数据，通过hive表映射到hbase表
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完 ...
通过删除hbase表中的region来达到删除表中数据
公司最近在搞一个hbase删除数据,由于在建表的时候是通过region来对每日的数据进行存储的,所以要求在删除的时候直接通过删除region的来删除数据(最好的方案是只删除region中的数据,不把r ...
HDFS之append数据到已存在文件中
遇到一个问题,想往已存在的hdfs文件中直接添加数据,默认的话应该是被拒绝的.查看了一些资料,可以这样操作: 在pdfs-site.xml中添加append支持: <property> & ...

随机推荐

css中选择器
css中常用的选择器有: 1.元素选择器:h1{} 如<h1></h1> 2.类选择器:.test{}或者h1.test{} 如<h1 class="test ...
【Java】JVM（二）、Java垃圾收集算法
一.标记-清除算法算法主要分为两个步骤 1. 标记: 遍历所有的 GC Roots, 然后标记所有可达对象为存活对象 2. 清除: 遍历堆中所有对象,然后将没有标记的对象清除. 存在不足: 1. 效 ...
too few PGs per OSD (20 < min 30)
ceph osd pool set replicapool pg_num 150 ceph osd pool set replicapool pgp_num 150
spring jpa exists
Subquery<A> subquery = criteriaQuery.subquery(A.class);Root<A> root1 = subquery.from(A.c ...
【校招面试之 C/C++】第12题 C++ 重载、重写和重定义
1.成员函数重载特征: a.相同的范围(在同一个类中): b.函数名字相同: c.参数不同(参数个数不同或者参数类型不同,但是返回值不同不能使重载): d.virtual关键字可有可无. 2.重写 ...
day9:vcp考试
Q161. An administrator wants to select a Host Power Management Policy for an ESXi 6.x host that will ...
swift UIAlertController使用 UIAlertController的宽度为270
添加子控件 1. 有标题, alert标题高度大概是 40, 子控件的 Y一般在40 ,如果中间有换行, \n 的高度大概是30 2.alert的宽度是270, 设置frame 的时候注意 /// ...
[udemy]WebDevelopment_History of The Web
WWW vs Internet For the begining, Internet was there. it was for the academics among universities Th ...
【转】Hadoop HDFS分布式环境搭建
原文地址 http://blog.sina.com.cn/s/blog_7060fb5a0101cson.html Hadoop HDFS分布式环境搭建最近选择给大家介绍Hadoop HDFS系统 ...
ecplise导入工程出现乱码的解决方案
eclipse之所以会出现乱码问题是因为eclipse编辑器选择的编码规则是可变的.一般默认都是UTF-8或者GBK,当从外部导入的一个工程时,如果该工程的编码方式与eclipse中设置的编码方式不同 ...

hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）

hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）的更多相关文章

随机推荐

热门专题