MapReduce WordCount Combiner程序

注意使用Combiner之后的累加情况是不同的；

pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>com.stono</groupId>

    <artifactId>mr01</artifactId>

    <version>1.0-SNAPSHOT</version>

    <packaging>jar</packaging>

    <name>mr01</name>

    <url>http://maven.apache.org</url>

    <properties>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <java.version>1.7</java.version>

        <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>

        <maven.build.timestamp.format>yyyy-MM-dd HH:mm:ss</maven.build.timestamp.format>

        <hadoop-mapreduce-client.version>2.7.2</hadoop-mapreduce-client.version>

        <hbase-client.version>1.1.2</hbase-client.version>

        <slf4j.version>1.7.25</slf4j.version>

        <kafka-client.version>0.10.2.1</kafka-client.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>jdk.tools</groupId>

            <artifactId>jdk.tools</artifactId>

            <version>1.8</version>

            <scope>system</scope>

            <systemPath>D:/Java/jdk1.8.0_161/lib/tools.jar</systemPath>

        </dependency>

        <!-- 日志记录 Slf4j -->

        <dependency>

            <groupId>org.slf4j</groupId>

            <artifactId>slf4j-api</artifactId>

            <version>${slf4j.version}</version>

        </dependency>

        <!-- mapreduce -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>${hadoop-mapreduce-client.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-mapreduce-client-core</artifactId>

            <version>${hadoop-mapreduce-client.version}</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>3.8.1</version>

            <scope>test</scope>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>2.3.2</version>

                <configuration>

                    <source>1.7</source>

                    <target>1.7</target>

                </configuration>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-jar-plugin</artifactId>

                <configuration>

                    <archive>

                        <manifest>

                            <addClasspath>false</addClasspath>

                            <mainClass>com.bsr.combiner.JobRunner</mainClass> <!-- 你的主类名 -->

                        </manifest>

                    </archive>

                </configuration>

            </plugin>

            <!--<plugin>-->

            <!--<artifactId> maven-assembly-plugin </artifactId>-->

            <!--<configuration>-->

            <!--<descriptorRefs>-->

            <!--<descriptorRef>jar-with-dependencies</descriptorRef>-->

            <!--</descriptorRefs>-->

            <!--<archive>-->

            <!--<manifest>-->

            <!--<mainClass>com.bsr.basis.JobRunner</mainClass>-->

            <!--</manifest>-->

            <!--</archive>-->

            <!--</configuration>-->

            <!--<executions>-->

            <!--<execution>-->

            <!--<id>make-assembly</id>-->

            <!--<phase>package</phase>-->

            <!--<goals>-->

            <!--<goal>single</goal>-->

            <!--</goals>-->

            <!--</execution>-->

            <!--</executions>-->

            <!--</plugin>-->

        </plugins>

    </build>

</project>

Mapper:

package com.bsr.combiner;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

/*

四个参数的含义

第一个参数：map中key-value的key的类型,默认值是输入行的偏移量

第二个参数：map中key-value的value的类型 在此需求中是某一行的内容（数据）

第三个参数：reduce中key-value中的key类型

第四个参数：redece的输出参数int

但是在mapreduce中涉及到了网络间的传输，所以需要序列化，而hadoop提供了相关的序列化类型

long-LongWritable

String-Text

int-IntWritable

 */

public class MapperWordCount extends Mapper<LongWritable, Text, Text, IntWritable>{

    /*重写mapper的map方法 编写自己的逻辑

     * key是偏移量不用管

     * value是一行的内容 例：hello zhangsan you you

     * context是返回结果

     */

    @Override

    protected void map(LongWritable key, Text value,

            Context context)

            throws IOException, InterruptedException {

        String[] values=value.toString().split(" ");//对得到的一行数据进行切分 在此需求中是以空格进行切分

        for(String word:values){

            context.write(new Text(word), new IntWritable(1));//遍历数组 输出map的返回值 即<hello,1><zhangsan,1><you,1><you,1>

        }

    }

}

Combiner：

package com.bsr.combiner;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class Combiner extends Reducer<Text, IntWritable,Text, IntWritable>{

            @Override

            protected void reduce(Text key, Iterable<IntWritable> values,

                    Context context)

                    throws IOException, InterruptedException {

                int count=0;//初始一个计数器

                for(IntWritable value:values){
                    count ++;//对values进行遍历 每次加1

                }

                context.write(key,new IntWritable(count));//最后写返回值<hello,5>

            }

}

reduce：

package com.bsr.combiner;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

/*

 * 此方法是WordCount的reduce

 * 参数：1.map阶段返回的key类型String-Text

 *         2.map阶段返回值中value的类型Int-IntWritable

 *         3.reduce阶段返回值中key的类型String-Text

 *         4.reduce阶段返回值中value的类型Int-IntWritable

 */

public class ReducerWordCount extends Reducer<Text, IntWritable,Text, IntWritable>{

    /*

     * 实现父类的reduce方法

     *key是一组key-value的相同的哪个key

     *values是一组key-value的所有value

     *key value 的情况，比如<hello,{1,1,1,1,1}>

     *

     * context 返回值,<hello,5>

     */

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values,

            Context context)throws IOException, InterruptedException {

            int count=0;//初始一个计数器

            for(IntWritable value:values){

                count = count + i.get();//对values进行遍历 需要累加

            }

            context.write(key,new IntWritable(count));//最后写返回值<hello,5>

    }

}

Job：

package com.bsr.combiner;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.Job;

public class JobRunner {

    /*

     * 提交写好的mapreduce程序 当做一个Job进行提交

     *

     */

    public static void main(String[] args) throws Exception {

        //读取classpath下的所有xxx-site.xml配置文件，并进行解析

        Configuration conf=new Configuration();

        FileSystem fs = FileSystem.get(configuration);

        String s = "/wc/output2";

        Path path = new Path(s);

        fs.delete(path, true)

        Job wcjob=Job.getInstance(conf);//初始一个job

        //通过主类的类加载器机制获取到本job的所有代码所在的jar包

        wcjob.setJarByClass(JobRunner.class);

        //指定本job使用的mapper类

        wcjob.setMapperClass(MapperWordCount.class);

        //指定本job使用的reducer类

        wcjob.setReducerClass(ReducerWordCount.class);

        //设置本job使用的从combiner类

        wcjob.setCombinerClass(Combiner.class);

        //指定mapper输出的kv的数据类型

        wcjob.setMapOutputKeyClass(Text.class);

        wcjob.setMapOutputValueClass(IntWritable.class);

        //指定reducer输出的kv数据类型

        wcjob.setOutputKeyClass(Text.class);

        wcjob.setOutputValueClass(IntWritable.class);

        //指定本job要处理的文件所在的路径

        FileInputFormat.setInputPaths(wcjob, new Path("/wc/data/"));

        //指定本job输出的结果文件放在哪个路径

        FileOutputFormat.setOutputPath(wcjob, new Path("/wc/output2/"));

        //将本job向hadoop集群提交执行

        boolean res=wcjob.waitForCompletion(true);

        System.exit(res?0:1);//执行成功的话正常退出系统执行有误则终止执行

    }

}

注意：https://www.cnblogs.com/esingchan/p/3917094.html 的讲解

MapReduce WordCount Combiner程序的更多相关文章

Hadoop基础-MapReduce的Combiner用法案例
Hadoop基础-MapReduce的Combiner用法案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.编写年度最高气温统计如上图说所示:有一个temp的文件,里面存放 ...
[b0004] Hadoop 版hello word mapreduce wordcount 运行
目的: 初步感受一下hadoop mapreduce 环境: hadoop 2.6.4 1 准备输入文件 paper.txt 内容一般为英文文章,随便弄点什么进去 hadoop@ssmaster:~$ ...
[b0013] Hadoop 版hello word mapreduce wordcount 运行(三)
目的: 不用任何IDE,直接在linux 下输入代码.调试执行环境: Linux Ubuntu Hadoop 2.6.4 相关: [b0012] Hadoop 版hello word mapred ...
[b0012] Hadoop 版hello word mapreduce wordcount 运行(二)
目的: 学习Hadoop mapreduce 开发环境eclipse windows下的搭建环境: Winows 7 64 eclipse 直接连接hadoop运行的环境已经搭建好,结果输出到ecl ...
【Cloud Computing】Hadoop环境安装、基本命令及MapReduce字数统计程序
[Cloud Computing]Hadoop环境安装.基本命令及MapReduce字数统计程序 1.虚拟机准备 1.1 模板机器配置 1.1.1 主机配置 IP地址:在学校校园网Wifi下连接下 V ...
Hadoop学习之路（十八）MapReduce框架Combiner分区
对combiner的理解 combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量.它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致 ...
wordcount小程序
wordcount小程序 (1)github网址 https://github.com/yuyuyu960818/count_txt_file (2)PSP表 PSP2.1 PSP阶段预估耗时 (分 ...
Python实现MapReduce,wordcount实例，MapReduce实现两表的Join
Python实现MapReduce 下面使用mapreduce模式实现了一个简单的统计日志中单词出现次数的程序: from functools import reduce from multiproc ...
Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量
1.完成Hadoop2.2.0单机版环境搭建之后需要利用一个例子程序来检验hadoop2 的mapreduce的功能 //启动hdfs和yarn sbin/start-dfs.sh sbin/star ...

随机推荐

1、QQ装机部落---腾讯软件
亲,赚钱快人一步,我给你推荐QQ装机部落!大品牌,口碑好,知名软件,绿色无毒,每天结算,回报高!到这里注册:http://zjbl.qq.com/#/?invid=476058088 返利网邀请码立即 ...
OpenGL Column-Major Matrix 使用注意事项
这column major的矩阵是彻底把我搞晕了,以后右乘规则下的矩阵应该这么用假设我想创建一个2x2的矩阵,数学上我这么写: 1 2 3 4 用代码创建的话这么写 // 按照 row major ...
飞思卡尔开发板-迅为IMX6开兼容单核双核四核Plus开发板
飞思卡尔开发硬件接口介绍: 核心板参数尺寸:51mm*61mm CPU:Freescale Cortex-A9 四核 i.MX6Q,主频 1.2 GHz 内存:2GB DDR3 存储:16GB EM ...
迅为电子HMI人机界面|CAN总线触摸屏
本文转自迅为:http://www.topeet.com 协议特色: 1. 支持所有 CAN 协议,例如常用的 J1939 和 CANopen 协议. 2. 提供高度开放的 CAN 帧的编辑界面,用户 ...
struts2 前端显示错误信息
当我们显示错误信息的时候,会发现错误信息会以列表的形式显示,这样就不美观了,达不到我们想要的标准.所以我们可以用另外的方式输出错误信息. 例如我现在增加了两个错误信息: this.addFieldEr ...
javascript的prototype经典使用场景
prototype的经典使用场景就是为对象增加属性和方法,如给自定义的Man对象增加个姓名属性和语言方法: function man() { this.age = "22&qu ...
一次URL请求过程--tomcat
一:请求的过程 1.DNS域名解析 2.建立TCP连接(三次握手) 3.发送请求--tomcat进行处理 4.四次挥手关闭连接二:详解1---DNS域名解析 1.浏览器会检查缓存中有没有这个域名对应 ...
笔试算法题（53）：四种基本排序方法的性能特征（Selection，Insertion，Bubble，Shell）
四种基本算法概述: 基本排序:选择,插入,冒泡,希尔.上述算法适用于小规模文件和特殊文件的排序,并不适合大规模随机排序的文件.前三种算法的执行时间与N2成正比,希尔算法的执行时间与N3/2(或更快)成 ...
Python之面向对象slots与迭代器协议
Python之面向对象slots与迭代器协议 slots: # class People: # x=1 # def __init__(self,name): # self.name=name # de ...
Spider-Python爬虫之PyQuery基本用法
1.安装方法 pip install pyquery 2.引用方法 from pyquery import PyQuery as pq 3.简介 pyquery 是类型jquery 的一个专供pyth ...

MapReduce WordCount Combiner程序

MapReduce WordCount Combiner程序的更多相关文章

随机推荐

热门专题