hbase的wordcount

package com.neworigin.HBaseMR;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Mutation;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

public class HbaseMRTest {

    static Configuration conf=null;

    static{

//        配置configuration的三种方法

//        ①直接将hbase-site.xml拿来放到src下面

        conf=HBaseConfiguration.create();

//        ②设置服务器和端口

//        conf.set("hbase.zookeeper.quorum", "s100:2181,s101:2181,s102:2181");

//        ③扥开设置服务器和端口

        conf.set("hbase.zookeeper.quorum", "s100,s101,s102");

        conf.set("hbase.zookeeper.property.clientPort", "2181");

    }

////    表信息

//    public static final String tablename="wordtest";//表一

//    public static final String colf="content";//表列族

//    public static final String col="info";//列

//

//    public static final String tablename2="stat";//表二

//

//public static void initTB(){

//

//}

public static class HBmapper extends TableMapper<Text,IntWritable>/*输出类型*/{

    private static IntWritable one=new IntWritable(1);

    private static Text word =new Text();

//    输入类型，key：row key  value：一行数据的结果集 result

    protected void map(ImmutableBytesWritable key, Result value,

            Mapper<ImmutableBytesWritable, Result, Text, IntWritable>.Context context)

            throws IOException, InterruptedException {

        for(Cell cell:value.rawCells())

        {

            word.set(CellUtil.cloneValue(cell));//读取值

            context.write(word, one);//输出：单词----1

        }

    }

}

public static class HBreducer extends TableReducer<Text,IntWritable,ImmutableBytesWritable>{

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values,

            Reducer<Text, IntWritable, ImmutableBytesWritable, Mutation>.Context context)

            throws IOException, InterruptedException {

        int sum=0;

        //叠加单词个数

        for(IntWritable value:values)

        {

            sum+=value.get();

        }

        Put put = new Put(Bytes.toBytes(key.toString()));//设置row key为单词

        put.add(Bytes.toBytes("content"), Bytes.toBytes("info"), Bytes.toBytes(String.valueOf(sum)));

        //写到hbase中的需要指定rowkey和put

        context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())), put);

    }

}

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

    Job job=new Job(conf,"HBaseMR");

    Scan scan =new Scan();

    TableMapReduceUtil.initTableMapperJob("wordtest",scan, HBmapper.class, Text.class, IntWritable.class, job);

    TableMapReduceUtil.initTableReducerJob("stat", HBreducer.class, job);

    job.waitForCompletion(true);

    System.out.println("finished");

}

}

hbase的wordcount的更多相关文章

Storm 学习之路（八）—— Storm集成HDFS和HBase
一.Storm集成HDFS 1.1 项目结构本用例源码下载地址:storm-hdfs-integration 1.2 项目主要依赖项目主要依赖如下,有两个地方需要注意: 这里由于我服务器上安装的是 ...
Storm 系列（八）—— Storm 集成 HDFS 和 HBase
一.Storm集成HDFS 1.1 项目结构本用例源码下载地址:storm-hdfs-integration 1.2 项目主要依赖项目主要依赖如下,有两个地方需要注意: 这里由于我服务器上安装的是 ...
spark ---词频统计(二)
利用python来操作spark的词频统计,现将过程分享如下: 1.新建项目:(这里是在已有的项目中创建的,可单独创建wordcount项目) ①新建txt文件: wordcount.txt (文件内 ...
hbase和mapreduce开发 WordCount
代码: /** * hello world by world 测试数据 * @author a * */ public class DefinedMapper extends Mapper<Lo ...
大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）
上次实现了flume+kafka+hbase+ELK:http://www.cnblogs.com/super-d2/p/5486739.html 这次我们可以加上storm: storm-0.9.5 ...
MapReduce剖析笔记之一：从WordCount理解MapReduce的几个阶段
WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop ...
【hbase】——HBase 写优化之 BulkLoad 实现数据快速入库
1.为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是 ...
WordCount示例深度学习MapReduce过程（1）
我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功.在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,Wou ...
JStorm第一个程序WordCount详解
一.Strom基本知识(回顾) 1,首先明确Storm各个组件的作用,包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple nimbus是整个storm任务 ...

随机推荐

ETCD网络层实现（待完成）
ETCD系列之三:网络层实现 ETCD系列之二:部署集群 ETCD系列之一:简介 ETCD相关介绍--整体概念及原理方面
【译】第42节---EF6-DbSet.AddRange & DbSet.RemoveRange
原文:http://www.entityframeworktutorial.net/entityframework6/addrange-removerange.aspx EF 6中的DbSet引入了新 ...
spring读取bean有几种方式
bean加载到spring的方式: 第一种:xml 第二种:注释「一定要配合包扫描」: <context:component-scan base-package="Cristin.Co ...
【BZOJ】2734: [HNOI2012]集合选数
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=2734 考虑$N=4$的情况: \begin{bmatrix} 1&3 &X ...
Django本地开发，引用静态文件，火狐浏览器不能访问静态文件，谷歌浏览器却能访问静态文件
查了一下是settings.py设置问题 # Static files (CSS, JavaScript, Images)# https://docs.djangoproject.com/en/1.1 ...
浅谈Java中的栈和堆
人们常说堆栈堆栈,堆和栈是内存中两处不一样的地方,什么样的数据存在栈,又是什么样的数据存在堆中? 这里浅谈Java中的栈和堆首先,将结论写在前面,后面再用例子加以验证. Java的栈中存储以下类型数 ...
javaee开发模式
model1模式:技术组成:jsp+javaBeanmodel1的弊端:随着业务复杂性导致jsp页面比较混乱model2模式:技术组成:jsp+servlet+javaBeanmodel2的优点:开 ...
Oracle简单语句查询
语法3-1:简单查询语句语法 SELECT [DISTINCT] * |列名称[AS][列别名],列名称[AS][列别名],...FROM 表名称[表别名]; 在整个简单查询之中,主要有两个子句完成: ...
jmeter5.0之源码导入 IntelliJ IDEA
IDEA 编译 Jmeter 1.下载并解压 jmeter 源码 http://archive.apache.org/dist/jmeter/source/ 下载源码后解压『Jmeter』,我这边下载 ...
学习笔记36—坚果云 | Papership或Zotero使用webDAV验证服务器不成功怎么办？
很多人都喜欢用坚果云作为Zotero的第三方云盘,从而无限扩展Zotero的存储空间.可是大家在Papership或zotero客户端中验证坚果云webDAV服务器时,会出现验证不成功的问题,相信这个 ...

hbase的wordcount

hbase的wordcount的更多相关文章

随机推荐

热门专题