使用MapReduce查询Hbase表指定列簇的全部数据输出到HDFS（一）

package com.bank.service;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
* 查询hbase表指定列簇的全部数据输出到HDFS上
* @author mengyao
*
*/
public class ReadHbase extends Configured implements Tool {

private static String tableName;
private static String outputDir;

static class ReadHbaseMapper extends TableMapper<Text, Text> {
       private static Text k = new Text();
       private static Text v = new Text();
       @Override
       protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {
           StringBuffer sb = new StringBuffer("");
           for(java.util.Map.Entry<byte[], byte[]> val : value.getFamilyMap(Bytes.toBytes("info")).entrySet()){
               String str = new String(val.getValue());
               if (str != null) {
                   sb.append(new String(val.getKey()));
                   sb.append(":");
                   sb.append(str);
                   sb.append(",");
               }
           }
           String line = sb.toString();
           k.set(key.get());
           v.set(new String(line.substring(0,line.length()-1)));
           context.write(k, v);
       }
   }

static class ReadHbaseReduce extends Reducer<Text, Text, Text, Text> {
       private Text result = new Text();
       @Override
       protected void reduce(Text key, Iterable<Text> value, Context context) throws IOException, InterruptedException {
           for (Text val : value) {
               result.set(val);
               context.write(key, result);
           }
       }
   }

   @Override
   public int run(String[] arg0) throws Exception {
       tableName = arg0[0];
       outputDir = arg0[1];
       Job job = Job.getInstance(getConf(), ReadHbase.class.getSimpleName());
       job.setJarByClass(ReadHbase.class);
       job.setReducerClass(ReadHbaseReduce.class);
       job.setOutputKeyClass(Text.class);
       job.setOutputValueClass(Text.class);
       FileOutputFormat.setOutputPath(job, new Path(outputDir));
       TableMapReduceUtil.initTableMapperJob(tableName, new Scan(), ReadHbaseMapper.class, Text.class, Text.class, job);
       TableMapReduceUtil.addDependencyJars(job);
       return job.waitForCompletion(true) ? 0 : 1;
   }

   public static void main(String[] args) throws Exception {
       String[] otherArgs = new GenericOptionsParser(args).getRemainingArgs();
       if (otherArgs.length != 2) {
           System.err.println(" Usage:" + ReadHbase.class.getSimpleName() + " <tableName> <outputDir> ");
           System.exit(2);
       }
       Configuration conf = HBaseConfiguration.create();
       conf.set("hbase.zookeeper.quorum", "h5:2181,h6:2181,h7:2181");
       conf.set("hbase.zookeeper.property.clientPort", "2181");
       conf.set("dfs.socket.timeout", "3600000");
       int status = ToolRunner.run(conf, new ReadHbase(), otherArgs);
       System.exit(status);
   }

}

使用MapReduce查询Hbase表指定列簇的全部数据输出到HDFS（一）的更多相关文章

Mapreduce读取Hbase表，写数据到多个Hbase表中
Job端的变化: 通过设置conf,配置输出表,在reduce中获取输出表名字 Configuration conf = job.getConfiguration(); //输出表1 conf.set ...
Mapreduce读取Hbase表，写数据到一个Hbase表中
public class LabelJob { public static void main(String[] args) throws Exception { Job job = Job.getI ...
SQL Server 查询数据库表的列数
select count(*) from sysobjects a join syscolumns b on a.id=b.id where a.name='表名' go
SQL SERVER 查询一个表有多少列
) from syscolumns where id = object_id('tbname') 或者 select * from syscolumns where id = object_id('t ...
oracle 在已有表新增列内批量加数据
创建每列随机值的语句 create table TEST_ZHAA01A_03 as select rownum as id, to_char(sysdate + rownum/24/3600, 'y ...
c# 遍历 Mysql 所有表所有列，查找目标数据
在 Mysql 的 information_schema 库中 COLUMNS 表中存放了所有表的所有列. using MySql.Data.MySqlClient; using System; us ...
sql查询单表之中大于2条的数据
SELECT COUNT(字段)AS COUNT,字段FROM 表名 GROUP BY 字段 HAVING COUNT >=
仅对原表新增列的全量数据.csv
w
mysql 查询指定数据库所有表, 指定表所有列, 指定列所有表所有外键及索引, 以及索引的创建和删除
查询指定数据库中所有表 (指定数据库的,所有表) // 可以把 TABLE_NAME 换成 * 号, 查看更丰富的信息 SELECT TABLE_NAME FROM information_sc ...

随机推荐

[转] GPS坐标转换经纬度及换算方法
GPS坐标和经纬度的算法和概率不太一样,但是我们可能会将他们互通起来用,下面先贴上我做的转换工具:http://map.yanue.net/gps.html.里面实现了gps到谷歌地图百度地图经纬度的 ...
[转] 浅谈 C++ 中的 new/delete 和 new[]/delete[]
转:http://www.cnblogs.com/hazir/p/new_and_delete.html 在 C++ 中,你也许经常使用 new 和 delete 来动态申请和释放内存,但你可曾想过以 ...
在PHP中使用CURL，“撩”服务器只需几行——php curl详细解析和常见大坑
在PHP中使用CURL,"撩"服务器只需几行--php curl详细解析和常见大坑七夕啦,作为开发,妹子没得撩就"撩"下服务器吧,妹子有得撩的同学那就左拥妹子 ...
webform 复杂点的服务器控件
1 , dropdownlist: 下拉框属性items 列表集合, 里面的每一个元素是一个 listitem . 联动的时候注意要设置属性 .Autopostback 为ture: 注注 ...
codesmith的使用
新建一个C#模版. model类的模版代码如下: <%-- Name: 模型层代码生成模版 Author: XX Description: 根据数据库的内容生成模型层代码 Version: V1 ...
css空格和去浮动的应用
今天做了项目用到css,请教前端解决,第一个是记得css空格之间的关系是隶属关系,但是在元素中却是并列关系,如<div class="right_side_item_moban gra ...
CentOS 6.4搭建zabbix
系统环境:CentOS 6.4 64bit Zabbix版本:zabbix 2.2.3 前提条件:已安装好LNMP环境一.服务端: 1. 下载zabbix安装包zabbix-2.2.3.tar.g ...
启发式算法、寻路算法A*算法
原文链接: http://blog.csdn.net/b2b160/article/details/4057781
Java前端Rsa公钥加密，后端Rsa私钥解密(目前还不支持中文加密解密，其他都行)
Base64工具类,可以让rsa编码的乱码变成一串字符序列 package com.utils; import java.io.ByteArrayInputStream; import java.io ...
你好，C++（22）排排坐，吃果果——4.3.3 for循环：某个范围内…每个都…
4.3.3 for循环:某个范围内…每个都… 既然while语句和do…while…语句都已经可以满足我们表达循环现象的需要,那为什么C++还要专门提供for语句来表达循环现象呢?在现实世界中,常常 ...

使用MapReduce查询Hbase表指定列簇的全部数据输出到HDFS（一）

使用MapReduce查询Hbase表指定列簇的全部数据输出到HDFS（一）的更多相关文章

随机推荐

热门专题