用MR生成HFile文件格式后，数据批量导入HBase

环境hadoop cdh5.4.7 hbase1.0.0

测试数据：

topsid uid roler_num typ
10 111111 255 0

在Hbase 创建t2数据库： create 't2','info'。创建数据库t2， columnFamily：info

import java.io.IOException;

import java.net.URI;

import java.text.SimpleDateFormat;

import java.util.Date;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class HFileCreate {

    static class HFileImportMapper2 extends

            Mapper<LongWritable, Text, ImmutableBytesWritable, KeyValue> {

        protected SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");

        protected final String CF_KQ = "info";

        protected final int ONE = 1;

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            String line = value.toString();

            System.out.println("line : " + line);

            String[] datas = line.split("\\s+");

            // row格式为:yyyyMMdd-sid-uid-role_num-timestamp-typ

            String row =

                     datas[0] + "-" + datas[1] + "-" + datas[2] + "-"

                     + "-" + datas[3];

            ImmutableBytesWritable rowkey = new ImmutableBytesWritable(

                    Bytes.toBytes(row));

            KeyValue kv = new KeyValue(Bytes.toBytes(row),

                    this.CF_KQ.getBytes(), datas[3].getBytes(),

                    Bytes.toBytes(this.ONE));

            context.write(rowkey, kv);

        }

    }

    public static void main(String[] args) {

        Configuration conf = new Configuration();

        conf.addResource("hbase-site.xml");

        String tableName = "t2";

        String input  = "hdfs://node11:9000/datas/t3";

        String output = "hdfs://node11:9000/datas/out12";

        System.out.println("table : " + tableName);

        HTable table;

        try {

            // 运行前，删除已存在的中间输出目录

            try {

                FileSystem fs = FileSystem.get(URI.create(output), conf);

                fs.delete(new Path(output), true);

                fs.close();

            } catch (IOException e1) {

                e1.printStackTrace();

            }

            table = new HTable(conf, tableName.getBytes());

            Job job = new Job(conf);

            job.setJobName("Generate HFile");

            job.setJarByClass(HFileCreate.class);

            job.setInputFormatClass(TextInputFormat.class);

            job.setMapperClass(HFileImportMapper2.class);

            FileInputFormat.setInputPaths(job, input);

            job.getConfiguration().set("mapred.mapoutput.key.class",

                    "org.apache.hadoop.hbase.io.ImmutableBytesWritable");

            job.getConfiguration().set("mapred.mapoutput.value.class",

                    "org.apache.hadoop.hbase.KeyValue");

            FileOutputFormat.setOutputPath(job, new Path(output));

            HFileOutputFormat2.configureIncrementalLoad(job, table);

            try {

                job.waitForCompletion(true);

            } catch (InterruptedException e) {

                e.printStackTrace();

            } catch (ClassNotFoundException e) {

                e.printStackTrace();

            }

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

输出目录要有带columnFamily的文件HFile才生成成功：

4、需要先配置自己HBase_HOME 在配置文件中自己查看。

echo $HBase_HOME

5、我的配置:export HBASE_HOME=/home/hbase-1.0.0-cdh5.4.7

输入：

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` hadoop jar ${HBASE_HOME}/lib/hbase-server-1.0.0-cdh5.4.7.jar

例如我的：

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` hadoop jar /home/hbase-1.0.0-cdh5.4.7/lib/hbase-server-1.0.0-cdh5.4.7.jar completebulkload  /datas/out12  t2

一般执行到这步就成功导入。

6、查询HBase

7、HBase-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!--

/**

 *

 * Licensed to the Apache Software Foundation (ASF) under one

 * or more contributor license agreements.  See the NOTICE file

 * distributed with this work for additional information

 * regarding copyright ownership.  The ASF licenses this file

 * to you under the Apache License, Version 2.0 (the

 * "License"); you may not use this file except in compliance

 * with the License.  You may obtain a copy of the License at

 *

 *     http://www.apache.org/licenses/LICENSE-2.0

 *

 * Unless required by applicable law or agreed to in writing, software

 * distributed under the License is distributed on an "AS IS" BASIS,

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 * See the License for the specific language governing permissions and

 * limitations under the License.

 */

-->

<configuration>

      <property>

  <name>hbase.rootdir</name>

  <value>hdfs://node11:9000/hbase</value>

</property>

<property>

  <name>hbase.cluster.distributed</name>

  <value>true</value>

</property>

<property>

  <name>hbase.zookeeper.quorum</name>

  <value>node11</value>

</property>

<property>

  <name>dfs.replication</name>

  <value>1</value>

</property>

<property>

  <name>hbase.regionserver.wal.codec</name>

  <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>

</property>

<property>

  <name>hbase.region.server.rpc.scheduler.factory.class</name>

  <value>org.apache.hadoop.hbase.ipc.PhoenixRpcSchedulerFactory</value>

  <description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>

</property>

<property>

  <name>hbase.rpc.controllerfactory.class</name>

  <value>org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory</value>

  <description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>

</property>

<property>

  <name>hbase.coprocessor.regionserver.classes</name>

  <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value>

</property>

<property>

  <name>hbase.master.loadbalancer.class</name>

  <value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>

</property>

<property>

  <name>hbase.coprocessor.master.classes</name>

  <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>

</property>                   

</configuration>

用MR生成HFile文件格式后，数据批量导入HBase的更多相关文章

数据批量导入HBase
测试数据: datas 1001 lilei 17 13800001111 1002 lily 16 13800001112 1003 lucy 16 13800001113 1004 meimei ...
SQL Server中bcp命令的用法以及数据批量导入导出
原文:SQL Server中bcp命令的用法以及数据批量导入导出 1.bcp命令参数解析 bcp命令有许多参数,下面给出bcp命令参数的简要解析用法: bcp {dbtable | query} { ...
.net core利用MySqlBulkLoader大数据批量导入MySQL
最近用core写了一个数据迁移小工具,从SQLServer读取数据,加工后导入MySQL,由于数据量太过庞大,数据表都过百万,常用的dapper已经无法满足.三大数据库都有自己的大数据批量导入数据的方 ...
将execl里的数据批量导入数据库
本文将采用NPOI插件来读取execl文件里的数据,将数据加载到内存中的DataTable中 /// <summary> /// 将Excel转换为DataTable /// </s ...
mysql中把一个表的数据批量导入另一个表中
mysql中把一个表的数据批量导入另一个表中不管是在网站开发还是在应用程序开发中,我们经常会碰到需要将MySQL或MS SQLServer某个表的数据批量导入到另一个表的情况,甚至有时还需要指定 ...
ELK数据批量导入
数据批量导入 • 使用 _bulk 批量导入数据 – 批 ...
[Django]数据批量导入
前言:历经一个月的复习,考试终于结束了.这期间上班的时候有研究了Django网页制作过程中,如何将数据批量导入到数据库中. 这个过程真的是惨不忍睹,犯了很多的低级错误,这会在正文中说到的.再者导入数据 ...
将Excle中的数据批量导入数据库
namespace 将Excle中的数据批量导入数据库{ class Program { static void Main(string[] args) { S ...
Java实现Excel数据批量导入数据库
Java实现Excel数据批量导入数据库概述: 这个小工具类是工作中的一个小插曲哦,因为提数的时候需要跨数据库导数... 有的是需要从oracle导入mysql ,有的是从mysql导入oracle ...

随机推荐

C#中out和ref的区别
来源:https://www.cnblogs.com/sunliyuan/p/5999045.html 首先,俩者都是按地址传递的,使用后都将改变原来参数的数值. 其次,ref可以把参数的数值传递进函 ...
[前端自动化]grunt的简单使用
前言现在前端自动化已经是家常便饭,各种工具也是层出不穷,grunt.gulp.webpack是应用最广的三种工具,虽然grunt看似已垂垂老矣,但是以前写的很多项目一直用的就是grunt,温故方能知 ...
ApplicationContext用法示例
1.通过ApplicationContext将bean注入容器中 import org.springframework.context.ApplicationContext; import org.s ...
学会如何使用shiro
摘:https://www.cnblogs.com/learnhow/p/5694876.html 一.架构要学习如何使用Shiro必须先从它的架构谈起,作为一款安全框架Shiro的设计相当精妙.S ...
一个历时五天的 Bug
一个程序员在没有成长成为架构师之前,几乎都要跟 Bug为伴,程序员有很多时间都是花在了查找各种 Bug上. 我印象深刻的一个Bug, 是一个服务器网络框架无锁队列的 Bug .那个 Bug 连续查找了 ...
存储过程如何传变量到like下
存储过程中执行如下DDL语句create or replace procedure etl_test(v_com varchar2) is v_spname varchar2(40); com var ...
altium designer设置不会产生.pcbpreview、.schpreview等的垃圾文件
使用altium的是时候发现只要打开pcb或者原理图的时候就会生成一些垃圾文件,删除后再次打开还是会自动生成这些东西,对于我这样有些许洁癖的人没很是难以忍受的.那么怎么把它删除呢.其实通过字面的意思就 ...
学习加密(四)spring boot 使用RSA+AES混合加密,前后端传递参数加解密
学习加密(四)spring boot 使用RSA+AES混合加密,前后端传递参数加解密技术标签: RSA AES RSA AES 混合加密整合前言: 为了提高安全性采用了RS ...
python方法参数：*和**操作符
* def test_args_kwargs(arg1, arg2, arg3): print("arg1:", arg1) print("arg2:", ar ...
springMVC接收请求参数的几种方式
1. 用注解@RequestParam绑定请求参数用注解@RequestParam绑定请求参数a到变量a,当请求参数a不存在时会有异常发生,可以通过设置属性required=false解决,例如: ...

用MR生成HFile文件格式后，数据批量导入HBase

用MR生成HFile文件格式后，数据批量导入HBase的更多相关文章

随机推荐

热门专题