hdfs数据到hbase过程

需求：将HDFS上的文件中的数据导入到hbase中

实现上面的需求也有两种办法，一种是自定义mr，一种是使用hbase提供好的import工具

一、hdfs中的数据是这样的

hbase创建好表

create 'NNTB','info'

二、自定义mr

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import java.io.IOException;

/**

 * 用于HDFS的数据读取，写入到hbase中，

 * hbase里预先创建好表：create 'NNTB','info'

 * */

public class HdfsToHBase {

    public static void main(String[] args) throws Exception{

        System.setProperty("hadoop.home.dir", "D:\\hadoop-2.7.6");//这行我是本地运行所需指定的hadoop home

        Configuration conf = HBaseConfiguration.create();

        conf.set("hbase.zookeeper.quorum", "202.168.27.196:2181");//ip乱写的，端口默认2181

        conf.set(TableOutputFormat.OUTPUT_TABLE, "NNTB");

        Job job = Job.getInstance(conf, HdfsToHBase.class.getSimpleName());

        TableMapReduceUtil.addDependencyJars(job);

        job.setJarByClass(HdfsToHBase.class);

        job.setMapperClass(HdfsToHBaseMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(HdfsToHBaseReducer.class);

        FileInputFormat.addInputPath(job, new Path("hdfs://202.168.27.196:9000/user/hadoop/gznt/gznt_bmda/*"));

        job.setOutputFormatClass(TableOutputFormat.class);

        job.waitForCompletion(true);

    }

    public static class HdfsToHBaseMapper extends Mapper<LongWritable, Text, Text, Text> {

        private Text outKey = new Text();

        private Text outValue = new Text();

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String[] splits = value.toString().split("\t");

            outKey.set(splits[0]);

            outValue.set(splits[1]+"\t"+splits[2]+"\t"+splits[3]+"\t"+splits[4]);

            context.write(outKey, outValue);

        }

    }

    //:::   create 'NNTB','info'

    public static class HdfsToHBaseReducer extends TableReducer<Text, Text, NullWritable> {

        @Override

        protected void reduce(Text k2, Iterable<Text> v2s, Context context) throws IOException, InterruptedException {

            Put put = new Put(k2.getBytes());

            for (Text v2 : v2s) {

                String[] splis = v2.toString().split("\t");

                //info，对应hbase列族名

                if(splis[0]!=null && !"NULL".equals(splis[0])){

                    put.addColumn("info".getBytes(), "NodeCode".getBytes(),splis[0].getBytes());

                }

                if(splis[1]!=null && !"NULL".equals(splis[1])){

                    put.addColumn("info".getBytes(), "NodeType".getBytes(),splis[1].getBytes());

                }

                if(splis[2]!=null && !"NULL".equals(splis[2])){

                    put.addColumn("info".getBytes(), "NodeName".getBytes(),splis[2].getBytes());

                }

                if(splis[3]!=null && !"NULL".equals(splis[3])){

                    put.addColumn("info".getBytes(), "IsWarehouse".getBytes(),splis[3].getBytes());

                }

            }

            context.write(NullWritable.get(),put);

        }

    }

}

参考自：HBase从hdfs导入数据

参考文献中的hbase导入工具介绍

(my_python_env)[root@hadoop26 ~]# hbase org.apache.hadoop.hbase.mapreduce.Import

ERROR: Wrong number of arguments: 0

Usage: Import [options] <tablename> <inputdir>

By default Import will load data directly into HBase. To instead generate

HFiles of data to prepare for a bulk data load, pass the option:

  -Dimport.bulk.output=/path/for/output

在命令中中使用命令进行导入：

hbase org.apache.hadoop.hbase.mapreduce.Import table2 /t2

hdfs数据到hbase过程的更多相关文章

用mapreduce读取hdfs数据到hbase上
hdfs数据到hbase过程将HDFS上的文件中的数据导入到hbase中实现上面的需求也有两种办法,一种是自定义mr,一种是使用hbase提供好的import工具 hbase先创建好表 cre ...
bulk-load 装载HDFS数据到HBase
bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中,对于海量数据装载入hbase非常有用,参考http://hbase.apache.org/docs/r0.89 ...
phoenix将hdfs数据导入hbase
http://phoenix.apache.org/bulk_dataload.html
HBase伪分布式安装(HDFS)+ZooKeeper安装+HBase数据操作+HBase架构体系
HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,H ...
Hadoop基础-HDFS数据清理过程之校验过程代码分析
Hadoop基础-HDFS数据清理过程之校验过程代码分析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 想称为一名高级大数据开发工程师,不但需要了解hadoop内部的运行机制,还需 ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
【HBase】HBase与MapReduce集成——从HDFS的文件读取数据到HBase
目录需求步骤一.创建maven工程,导入jar包二.开发MapReduce程序三.结果需求将HDFS路径 /hbase/input/user.txt 文件的内容读取并写入到HBase 表 ...
大数据查询——HBase读写设计与实践
导语:本文介绍的项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的 ...
一条数据的HBase之旅，简明HBase入门教程-Write全流程
如果将上篇内容理解为一个冗长的"铺垫",那么,从本文开始,剧情才开始正式展开.本文基于提供的样例数据,介绍了写数据的接口,RowKey定义,数据在客户端的组装,数据路由,打包分发, ...

随机推荐

Boost.Asio的使用技巧
基本概念 Asio proactor I/O服务 work类 run() vs poll() stop() post() vs dispatch() buffer类缓冲区管理 I/O对象 socke ...
Flash芯片你都认识吗？
[导读]Flash存储器,简称Flash,它结合了ROM和RAM的长处,不仅具备电子可擦除可编程的性能,还不会因断电而丢失数据,具有快速读取数据的特点;在现在琳琅满目的电子市场上,Flash总类可谓繁 ...
$Django 数据库图片渲染设计站点设计截断函数
1.数据库图片渲染设计 1.模型层 class User_info (AbstractUser): head_img = models.FileField (upload_to='test', def ...
go语言的安装、环境变量配置及简单使用
go语言的安装.环境变量配置及简单使用 1.安装git并且配置在path中,默认就勾选了下载地址https://git-scm.com/download/win 2.下载安装visualstudio ...
基于Hadoop2.7.3集群数据仓库Hive1.2.2的部署及使用
基于Hadoop2.7.3集群数据仓库Hive1.2.2的部署及使用 HBase是一种分布式.面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行和列组成,列划分到列族中.HBase ...
maven：打包时报错，报’找不到符号’
参考文章:https://www.cnblogs.com/kelly-one/p/7349930.html 问题描述: 工程开发调试都没有问题,就是不能导出WAR包,用mvn clean packag ...
LightOJ1004
#include<bits/stdc++.h> using namespace std; int Map[106][106]; int Vis[106][106]; int Num[106 ...
【原创】大数据基础之Marathon（2）marathon-lb
marathon-lb 官方:https://github.com/mesosphere/marathon-lb 一简介 Marathon load balancer (Marathon-LB) i ...
bootstrap排列顺序
写在 typora 的笔记复制过来排版很丑,所以截图算了..
Es6模块语法笔记
/** * Created by Administrator on 2017/4/15. */ /*---------------------export命令--------------------- ...

hdfs数据到hbase过程

hdfs数据到hbase过程的更多相关文章

随机推荐

热门专题