HBase从hdfs导入数据

需求：将HDFS上的文件中的数据导入到hbase中

实现上面的需求也有两种办法，一种是自定义mr，一种是使用hbase提供好的import工具

一、hdfs中的数据是这样的

每一行的数据是这样的id name age gender birthday

(my_python_env)[root@hadoop26 ~]# hadoop fs  -cat /t1/*

1    zhangsan    10    male    NULL

2    lisi    NULL    NULL    NULL

3    wangwu    NULL    NULL    NULL

4    zhaoliu    NULL    NULL    1993

二、自定义mr

public class HdfsToHBase {

    public static void main(String[] args) throws Exception{

        Configuration conf = HBaseConfiguration.create();

        conf.set("hbase.zookeeper.quorum", "hadoop26:2181");

        conf.set("hbase.rootdir", "hdfs://hadoop26:9000/hbase");

        conf.set(TableOutputFormat.OUTPUT_TABLE, args[1]);

        Job job = Job.getInstance(conf, HdfsToHBase.class.getSimpleName());

        TableMapReduceUtil.addDependencyJars(job);

        job.setJarByClass(HdfsToHBase.class);

        job.setMapperClass(HdfsToHBaseMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(HdfsToHBaseReducer.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        job.setOutputFormatClass(TableOutputFormat.class);

        job.waitForCompletion(true);

    }

    public static class HdfsToHBaseMapper extends Mapper<LongWritable, Text, Text, Text>{

        private Text outKey = new Text();

        private Text outValue = new Text();

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String[] splits = value.toString().split("\t");

            outKey.set(splits[0]);

            outValue.set(splits[1]+"\t"+splits[2]+"\t"+splits[3]+"\t"+splits[4]);

            context.write(outKey, outValue);

        }

    }

    public static class HdfsToHBaseReducer extends TableReducer<Text, Text, NullWritable>{

        @Override

        protected void reduce(Text k2, Iterable<Text> v2s, Context context) throws IOException, InterruptedException {

            Put put = new Put(k2.getBytes());

            for (Text v2 : v2s) {

                String[] splis = v2.toString().split("\t");

                if(splis[0]!=null && !"NULL".equals(splis[0])){

                    put.add("f1".getBytes(), "name".getBytes(),splis[0].getBytes());

                }

                if(splis[1]!=null && !"NULL".equals(splis[1])){

                    put.add("f1".getBytes(), "age".getBytes(),splis[1].getBytes());

                }

                if(splis[2]!=null && !"NULL".equals(splis[2])){

                    put.add("f1".getBytes(), "gender".getBytes(),splis[2].getBytes());

                }

                if(splis[3]!=null && !"NULL".equals(splis[3])){

                    put.add("f1".getBytes(), "birthday".getBytes(),splis[3].getBytes());

                }

            }

            context.write(NullWritable.get(),put);

        }

    }

}

2.1打包运行

首先在hbase中创建一个表

hbase(main)::> create 'table1','f1'

 row(s) in 0.4240 seconds

=> Hbase::Table - table1

然后运行

hadoop jar HdfsToHBase.jar com.lanyun.hadoop2.HdfsToHBase /t1/part* table1

最后查看table1中的数据

hbase(main)::* scan 'table1'

ROW                                              COLUMN+CELL

                                                column=f1:age, timestamp=, value=

                                                column=f1:gender, timestamp=, value=male

                                                column=f1:name, timestamp=, value=zhangsan

                                                column=f1:name, timestamp=, value=lisi

                                                column=f1:name, timestamp=, value=wangwu

                                                column=f1:birthday, timestamp=, value=

                                                column=f1:name, timestamp=, value=zhaoliu

 row(s) in 0.0430 seconds

三、使用habse提供的import工具

首先查看其用法

(my_python_env)[root@hadoop26 ~]# hbase org.apache.hadoop.hbase.mapreduce.Import

ERROR: Wrong number of arguments:

Usage: Import [options] <tablename> <inputdir>

By default Import will load data directly into HBase. To instead generate

HFiles of data to prepare for a bulk data load, pass the option:

  -Dimport.bulk.output=/path/for/output

在hbase中创建表table2

hbase(main)::> create 'table2','f1'

 row(s) in 0.4080 seconds

=> Hbase::Table - table2

在命令中中使用命令进行导入

hbase org.apache.hadoop.hbase.mapreduce.Import table2 /t2

查看table2中的数据

hbase(main)::> scan 'table2'

ROW                                              COLUMN+CELL

                                                column=f1:age, timestamp=, value=

                                                column=f1:gender, timestamp=, value=male

                                                column=f1:name, timestamp=, value=zhangsan

                                                column=f1:name, timestamp=, value=lisi

                                                column=f1:name, timestamp=, value=wangwu

                                                column=f1:birthday, timestamp=, value=

                                                column=f1:name, timestamp=, value=zhaoliu

 row(s) in 0.0440 seconds

四、注意

import工具很方便，但是只能导入Export导出的数据。

HBase从hdfs导入数据的更多相关文章

大数据学习笔记——HBase使用bulkload导入数据
HBase使用bulkload批量导入数据 HBase可使用put命令向一张已经建好了的表中插入数据,然而,当遇到数据量非常大的情况,一条一条的进行插入效率将会大大降低,因此本篇博客将会整理提高批量导 ...
MapReduce的方式进行HBase向HDFS导入和导出
附录代码: HBase---->HDFS import java.io.IOException; import org.apache.hadoop.conf.Configuration; imp ...
HBase高速导入数据--BulkLoad
Apache HBase是一个分布式的.面向列的开源数据库.它能够让我们随机的.实时的訪问大数据.可是如何有效的将数据导入到HBase呢?HBase有多种导入数据的方法.最直接的方法就是在MapRed ...
使用sqoop工具从oracle导入数据
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被Ma ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
sqoop:mysql和Hbase/Hive/Hdfs之间相互导入数据
1.安装sqoop 请参考http://www.cnblogs.com/Richardzhu/p/3322635.html 增加了SQOOP_HOME相关环境变量:source ~/.bashrc ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
Sqoop与HDFS、Hive、Hbase等系统的数据同步操作
Sqoop与HDFS结合下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出. Sqoop import 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. 我们来 ...

随机推荐

ELK stack elasticsearch/logstash/kibana 关系和介绍
ELK stack elasticsearch 后续简称ES logstack 简称LS kibana 简称K 日志分析利器 elasticsearch 是索引集群系统 logstash 是日志归集集 ...
nyoj 91 阶乘之和
点击打开链接阶乘之和时间限制:3000 ms | 内存限制:65535 KB 难度: 描述给你一个非负数整数n,判断n是不是一些数(这些数不允许重复使用,且为正数)的阶乘之和,如9=1!+2 ...
springMVC spring hibernate pom.xml备份
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...
CDN和DNS
相信有很多的朋友会被这几个名词绕的有些头大,很多朋友觉得智能DNS跟双线加速.CDN加速是类似的技术.其实不然,虽然他们的目的都是一个:让用户更快的访问网站.但是他们的应用原理却大相径庭.大家一定很清 ...
ubuntu14.04开启crontab日志
ubuntu默认没有开启cron日志记录 1. 修改rsyslog sudo vim /etc/rsyslog.d/50-default.conf cron.* /var/log/cron.log # ...
高可用HA，高性能
天天开发,免不了听一些技术论坛,都是专业的词汇,没听过就很陌生,记录一下. ======================================================== 高可用: ...
DatabaseError: no such table: django_session
最近我也遇到这个问题了,从网上查了下,说是数据库同步出了问题,只需要运行如下命令:python manage.py syncdb就可以了 (这是django1.4之前的命令,1.4之后的是 pytho ...
Redis服务器配置
Redis 服务器提供了一些配置选项(configuration option),通过修改这些选项的值,可以改变选项对应功能的行为. 比如:介绍 SELECT 命令时曾经说过,Redis 服务器默认会 ...
C#(Visual Studio) AssemblyInfo
AssemblyInfo .NET Project的Properties文件夹下会自动生成一个AssemblyInfo.cs的文件,该文件包含的信息和项目->右键->属性->Appl ...
[mysq]ERROR 2006 (HY000) at line xx: MySQL server has gone away 解决方法
vi /etc/my.cnf wait_timeout=2880000interactive_timeout = 2880000max_allowed_packet = 100M 完整配置文件 [my ...

HBase从hdfs导入数据

HBase从hdfs导入数据的更多相关文章

随机推荐

热门专题