【HBase】HBase与MapReduce的集成案例

需求

在HBase先创建一张表myuser2 —— create 'myuser2','f1'，然后读取myuser表中的数据，将myuser表中f1列族下name列和age列的数据写入到表myuser2中

步骤

一、创建maven工程，导入jar包

<repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.6.0-mr1-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-client</artifactId>
            <version>1.2.0-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-server</artifactId>
            <version>1.2.0-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.testng</groupId>
            <artifactId>testng</artifactId>
            <version>6.14.3</version>
            <scope>test</scope>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                    <!--    <verbal>true</verbal>-->
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.2</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*/RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

二、开发MapReduce程序

定义一个main类——HbaseReadWrite

package cn.itcast.mr.demo1;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
public class HbaseReadWrite extends Configured implements Tool {
    @Override
    public int run(String[] args) throws Exception {
        //创建Job对象
        Job job = Job.getInstance(super.getConf(), "HbaseMapReduce");
        //创建Scan对象，这里如果不设置过滤器，就是全表查询，因为在Mapper类中已经设置了判断条件，所以这里不需要设置过滤器
        Scan scan = new Scan();
        /**
         *  这是自定义Map逻辑的工具类
         *  这里需要五个参数：
         *  tablename 就是 要读取数据的表名
         *  scan 就是 HBASE 在java代码 实现增删改查时用来设置过滤器，获取数据等的
         *  接着就是自己定义的Mapper类，k2和v2的输出类型
         *  最后是Job对象
         */
        TableMapReduceUtil.initTableMapperJob("myuser",scan,HbaseReadMapper.class, Text.class, Put.class,job);
        /**
         * 这是自定义Reduce逻辑的工具类
         * 这里只需要三个参数即可
         * tablename 就是要写入数据的表名
         * 然后一个自定义的reduce类和job对象
         */
        TableMapReduceUtil.initTableReducerJob("myuser2",HbaseWriteReducer.class,job);
        //提交任务
        boolean b = job.waitForCompletion(true);
        return b?0:1;
    }
    /**
     * main方法，负责run的退出
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        Configuration configuration = HBaseConfiguration.create();
        //一定记得要在configuration中设置zookeeper的地址，否则无法连接
        configuration.set("hbase.zookeeper.quorum","node01:2181,node02:2181,node03:2181");
        int run = ToolRunner.run(configuration, new HbaseReadWrite(), args);
        System.exit(run);
    }
}

自定义Mapper逻辑，定义一个Mapper类——HbaseReadMapper

package cn.itcast.mr.demo1;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import java.io.IOException;
import java.util.List;
public class HbaseReadMapper extends TableMapper<Text, Put> {
    /**
     *
     * @param key   ke2输出类型为Text，因为是rowKey
     * @param result     v2输出类型为Put，因为Hbase插入数据都是Put对象
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void map(ImmutableBytesWritable key, Result result, Context context) throws IOException, InterruptedException {
        //获取Hbase表中rowKey的字节
        byte[] rowKeyBytes = key.get();
        //将rowKey字节转换为字符串，因为k2输出类型为Text
        String rowKey = Bytes.toString(rowKeyBytes);
        //新建Put对象
        Put put = new Put(rowKeyBytes);
        //获取Hbase所有数据
        List<Cell> cells = result.listCells();
        //循环遍历到每一条数据
        for (Cell cell : cells) {
            //获取cell的列族
            byte[] family = cell.getFamily();
            //获取cell的列
            byte[] qualifier = cell.getQualifier();
            //判断cell的列族和列值，拿到需要的数据
            if ("f1".equals(Bytes.toString(family))){
                if ("name".equals(Bytes.toString(qualifier)) || "age".equals(Bytes.toString(qualifier))){
                    put.add(cell);
                }
            }
        }
        //判断Put是否为空
        if (!put.isEmpty()){
            context.write(new Text(rowKey),put);
        }
    }
}

自定义Reducer逻辑，定义一个Reducer类——HbaseWriterReduce

package cn.itcast.mr.demo1;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.Text;
import java.io.IOException;
public class HbaseWriteReducer extends TableReducer<Text, Put, ImmutableBytesWritable> {
    /**
     *
     * @param key   输入值，k2为Text，也就是rowKey
     * @param values    输入值，v2为Put
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void reduce(Text key, Iterable<Put> values, Context context) throws IOException, InterruptedException {
        // ImmutableBytesWritable是用来封装rowKey的
        ImmutableBytesWritable immutableBytesWritable = new ImmutableBytesWritable();
        // key就是rowKey
        immutableBytesWritable.set(key.getBytes());
        // 循环遍历拿到每一个put对象，输出即可
        for (Put put : values) {
            context.write(immutableBytesWritable,put);
        }
    }
}

三、运行结果

【HBase】HBase与MapReduce的集成案例的更多相关文章

HBase与Sqoop集成案例
HBase与Sqoop集成案例:将RDBMS中的数据抽取到HBase中 Step1.配置sqoop-env.sh如下: Step2.在Mysql中创建一张数据库library,一张表book CRE ...
MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
hadoop笔记之MapReduce的应用案例(利用MapReduce进行排序)
MapReduce的应用案例(利用MapReduce进行排序) MapReduce的应用案例(利用MapReduce进行排序) 思路: Reduce之后直接进行结果合并具体样例: 程序名:Sort. ...
hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果 ...
Apache的HBase与cdh的sqoop集成（不建议不同版本之间的集成）
1.修改sqoop的配资文件 2.从mysql导入到hbase(import) bin/sqoop import \ --connect jdbc:mysql://linux-hadoop3.ibei ...
基于Hbase数据的Mapreduce程序环境开发
一.实验目标编写Mapreduce程序,以Hbase表数据为Map输入源,计算结果输出到HDFS或者Hbase表中. 在非CDH5的Hadoop集群环境中,将编写好的Mapreduce程序整个工程打 ...
hbase自带mapreduce计数表行数功能
$HBASE_HOME/bin/hbase org.apache.hadoop.hbase.mapreduce.RowCounter ‘tablename’ mapreduce来计数,很快的!!!
Hbase理论&&hbase shell&&python操作hbase&&python通过mapreduce操作hbase
一.Hbase搭建: 二.理论知识介绍: 1Hbase介绍: Hbase是分布式.面向列的开源数据库(其实准确的说是面向列族).HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hb ...
076 Apache的HBase与cdh的sqoop集成（不建议不同版本之间的集成）
1.修改sqoop的配资文件 2.从mysql导入到hbase(import) bin/sqoop import \ --connect jdbc:mysql://linux-hadoop3.ibei ...

随机推荐

[译]谈谈SpringBoot 事件机制
要"监听"事件,我们总是可以将"监听器"作为事件源中的另一个方法写入事件,但这将使事件源与监听器的逻辑紧密耦合. 对于实际事件,我们比直接方法调用更灵活.我们可 ...
如何让一张图片变成二值图像？python+opencv图像处理
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:张熹熹 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自 ...
week homework：大家来找茬
上周课程主题为用户体验,每位同学也根据自己使用APP的体验,例举出一些手机或电脑客户端软件的bug或用户体验非常不好的地方: Tianfu: GitHub.com:界面不够直观,有许多功能不知道入口在 ...
Matlab学习-（1）
1. 认识Matlab (1)MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发.数据可视化.数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simul ...
Jwt认识与攻击
今天看到2018强网杯的题目,因此总结一下. Json Web Token Json Web Token简称jwt 那么怎么样可以让HTTP记住曾经发生的事情呢? 这里的选择可以很多:cookie,s ...
IDEA惊天bug：进程已结束,退出代码-1073741819 (0xC0000005)
由于昨天要写的文章没有写完,于是今天早上我四点半就"自然醒"了,心里面有事,睡觉也不安稳.洗漱完毕后,我打开电脑,正襟危坐,摆出一副要干架的态势,不能再拖了. 要写的文章中涉及到一 ...
Android 中 OkHttp 三步实现生命周期绑定
简介 OkHttps 是 OkHttp 增强版的超轻量封装包. 和 Retrofit 相比,它更加轻量(只有 59Kb),是 Retrofit (124Kb)的一半,而且更加的开箱即用,API 更加自 ...
[Qt] Release模式下产生调试信息
分两步,设置Qt配置文件,设置VS. https://blog.csdn.net/itas109/article/details/83652387 F:\Qt\Qt5.7.1\5.7\msvc2015 ...
.net 使用TCP模拟UDP广播通信加强广播通信的稳定性
应用场景:当每一台终端开启程序后发出消息,其他终端必须收到消息然后处理思路1:使用UDP广播. 缺点:UDP广播信号不稳定,无法确定每一台机器能接收到信号思路2:将一台主机作为服务器,使用 ...
pynlpir.License过期问题解决方案
报错信息:pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update&qu ...