mapreduce代码实现入门

　　mapreduce代码主要包括三个类，map类、reduce类以及测试类！

以wordcount为例，

map类为：

    static class WordMapper extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        public void map(Object key, Text value, Context context)

            throws IOException, InterruptedException{

            StringTokenizer itr = new StringTokenizer(value.toString());

            while (itr.hasMoreElements()) {

                word.set(itr.nextToken());

                context.write(word, one);

            }

        }

    }

reduce类为：

    static class WordReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

        private IntWritable res = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context)

            throws IOException, InterruptedException

        {

            int sum = 0;

            for(IntWritable val:values){

                sum += val.get();

            }

            res.set(sum);

            context.write(key, res);

        }

    }

主函数代码为：

    public static void main(String args[]) throws Exception{

        String inputfilepath = "hdfs://localhost:9000/input1";

        String outputfilepath = "hdfs://localhost:9000/output4";

        Configuration conf = new Configuration();

        Job job = new Job(conf);

        job.setJarByClass(WordCount.class);

        job.setJobName("word-count");

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setMapperClass(WordMapper.class);

        job.setReducerClass(WordReducer.class);

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(inputfilepath));

        FileOutputFormat.setOutputPath(job, new Path(outputfilepath));

        job.waitForCompletion(true);

    }

其他的hadoop简单实例代码如：

数字求和：

 package goal;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.FloatWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.util.GenericOptionsParser;

 public class Sum {

     public static class SumMapper extends

         Mapper<Object, Text, Text, FloatWritable>{

         private Text word = new Text("sum");

         private static FloatWritable nv = new FloatWritable(1.0f);

         public void map(Object key, Text value, Context context)

             throws IOException, InterruptedException

         {

             StringTokenizer str = new StringTokenizer(value.toString());

             float sum = 0;

             while(str.hasMoreTokens()){

                 String s = str.nextToken();

                 float val = Float.parseFloat(s);

                 sum = val;

             }

             nv.set(sum);

             context.write(word, nv);

         }

     }

     public static class SumReducer extends

         Reducer<Text, FloatWritable, Text, FloatWritable>{

         private Text k = new Text("sum");

         private FloatWritable res = new FloatWritable();

         public void reduce(Text key, Iterable<FloatWritable> values,

                 Context context) throws IOException, InterruptedException{

             float sum = 0;

             for(FloatWritable val : values){

                 float v = val.get();

                 sum += v;

             }

             res.set(sum);

             context.write(k, res);

         }

     }

     public static void main(String args[])throws Exception{

         String other[] = {"hdfs://localhost:9000/input2/1.txt", "hdfs://localhost:9000/output3"};

         Configuration conf = new Configuration();

         System.out.println("yes");

         Job job = new Job(conf, "number sum");

         job.setJarByClass(Sum.class);

         job.setMapperClass(SumMapper.class);

         job.setReducerClass(SumReducer.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(FloatWritable.class);

         FileInputFormat.addInputPath(job, new Path(other[0]));

         FileOutputFormat.setOutputPath(job, new Path(other[1]));

         System.exit(job.waitForCompletion(true) ? 0 : 1);

         System.out.println("yes");

     }

 }

mapreduce代码实现入门的更多相关文章

Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本3（九）
不多说,直接上干货! 下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2. Hadoop MapReduce编程 API入门系列之挖掘气象数 ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2（十）
下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUni ...
Centos下命令行编译MapReduce代码(Java)并打包在Hadoop中执行
前提条件:搭建好Hadoop系统新建文件夹:input 和 output hdfs dfs -mkdir /inputhdfs dfs -mkdir /output 查看文件系统 hdfs df ...
【甘道夫】官方网站MapReduce代码注释具体实例
引言 1.本文不描写叙述MapReduce入门知识,这类知识网上非常多.请自行查阅 2.本文的实例代码来自官网 http://hadoop.apache.org/docs/current/hadoop ...
大数据(6) - MapReduce简易介绍入门
一 MapReduce入门 MapReduce定义(简单来说就是hadoop的数据分析核心,理解其中的原理,则可以分析聚合一切需求) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于 ...
Hadoop MapReduce编程 API入门系列之薪水统计（三十一）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.SalaryCount; import java.io.IOException; import jav ...
Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
Hadoop MapReduce编程 API入门系列之mr编程快捷键活用技巧详解（四）
1.Shift + Alt + S Hadoop没有使用jdk自带的默认序列化机制. 现在呢,hadoop-2.*里有两套序列化机制.一个是自己hadoop的序列化机制,一个是谷歌的. 所以,要改为. ...

随机推荐

css 之 position定位
position属性一共有4个值,分别是static.absolute.relative.fixed. static为默认值,指块保持在原本应该在的位置上,即该值没有任何移动的效果. absolute ...
Logger用法
logger的输出有两种方式:①log.log(Level.INFO,"message")②log.info("mesage")其他级别的输出与此类似. 获得c ...
python for循环及常用函数
python for循环格式: for iterating_var in sequence: statements(s) ###################################### ...
hdu 3061 hdu 3996 最大权闭合图最后一斩
hdu 3061 Battle :一看就是明显的最大权闭合图了,水提......SB题也不说边数多少....因为开始时候数组开小了,WA....后来一气之下,开到100W,A了.. hdu3996. ...
LeetCode OJ-- Jump Game II **
https://oj.leetcode.com/problems/jump-game-ii/ 给一个数列,每次可以跳相应位置上的步数,问跳到最后位置至少用几步. 动态规划: j[pos]表示从0到po ...
怎样录制简单GIF动图
看到视频里的精彩画面,想用动图的形式保存下来,应该如何录制呢,今天就介绍一款小巧实用,操作简单的软件,GifCam 2.0 汉化绿色版.相比其它的录制软件,它是免费无水印又可以在线录制的. 本来学习一 ...
IntelliJ IDEA关闭代码自动补全
关闭代码自动补全之后,可以使用[Ctrl]+[P]进行强制调出提示. [Editor]-[Code Completion]页里有个[Case sensitive completion],可以设置只第一 ...
Assembly.CreateInstance和Activator.CreateInstance
本来是在设计模式中的工厂方法,在实现抽象工厂时,用到了一直都不熟悉的反射. namespace Factory { public abstract class Factory { public abs ...
ThinkPHP示例：模板主题
ThinkPHP示例之模板主题,模板主题可以对相同的控制器输出进行不同的布局和样式调整.首先需要下载框架核心,然后把示例解压到Web根目录下面,并修改入口文件中的框架入口文件的位置.访问 http:/ ...
Linux 线程浅析
进程和线程的区别与联系在许多经典的操作系统教科书中,总是把进程定义为程序的执行实例,它并不执行什么, 只是维护应用程序所需的各种资源,而线程则是真正的执行实体. 为了让进程完成一定的工作,进程必须至 ...

mapreduce代码实现入门

mapreduce代码实现入门的更多相关文章

随机推荐

热门专题