MR案例：CombineFileInputFormat

CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。

此案例让我明白了三点：详见解读：MR多路径输入和解读：CombineFileInputFormat类

对于单一输入路径情况：

//指定输入格式CombineFileInputFormat

job.setInputFormatClass(CombineTextInputFormat.class); 

//指定SplitSize

CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);

//指定输入路径

CombineTextInputFormat.addInputPath(job, new Path(args[0]));

对于多路径输入情况①：

//指定输入格式CombineFileInputFormat

job.setInputFormatClass(CombineTextInputFormat.class); 

//指定SplitSize

CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);

//指定输入路径(两个)

CombineTextInputFormat.addInputPath(job, new Path(args[0]));

CombineTextInputFormat.addInputPath(job, new Path(args[1]));

多路径输入情况②：

//指定SplitSize

CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);

//指定输入路径,以及指定输入格式

MultipleInputs.addInputPath(job, new Path(args[0]), CombineTextInputFormat.class);

MultipleInputs.addInputPath(job, new Path(args[1]), CombineTextInputFormat.class);

细心观察，还会发现两种多路径输入① ②的区别：(已验证)

第一种方案：先把所有的输入集中起来求出总的输入大小，再除以SplitSize算出总的map个数
第二种方案：先分别算出每个MultipleInputs路径对应的map个数，再对两个MultipleInputs的map个数求和

完整的代码：

package test0820;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;

import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount0826 {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCount0826.class);      

        job.setMapperClass(IIMapper.class);

        job.setReducerClass(IIReducer.class);

        job.setNumReduceTasks(5);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(VLongWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(VLongWritable.class);

        //CombineFileInputFormat类

        //job.setInputFormatClass(CombineTextInputFormat.class);

        CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);


 

        //CombineTextInputFormat.addInputPath(job, new Path(args[0]));

        //CombineTextInputFormat.addInputPath(job, new Path(args[1]));

        MultipleInputs.addInputPath(job, new Path(args[0]), CombineTextInputFormat.class);

        MultipleInputs.addInputPath(job, new Path(args[1]), CombineTextInputFormat.class);


 

        FileOutputFormat.setOutputPath(job, new Path(args[2]));

        System.exit(job.waitForCompletion(true)? 0:1);

    }

    //map

    public static class IIMapper extends Mapper<LongWritable, Text, Text, VLongWritable>{

        @Override

        protected void map(LongWritable key, Text value,Context context)

                throws IOException, InterruptedException {

            String[] splited = value.toString().split(" "); 

            for(String word : splited){

                context.write(new Text(word),new VLongWritable(1L));

            }

        }

    }

    //reduce

    public static class IIReducer extends Reducer<Text, VLongWritable, Text, VLongWritable>{

        @Override

        protected void reduce(Text key, Iterable<VLongWritable> v2s, Context context)

                throws IOException, InterruptedException {

            long sum=0;

            for(VLongWritable vl : v2s){

                sum += vl.get();

            }

            context.write(key, new VLongWritable(sum));

        }

    }

}

MR案例：CombineFileInputFormat的更多相关文章

MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...
MR案例：链式ChainMapper
类似于Linux管道重定向机制,前一个Map的输出直接作为下一个Map的输入,形成一个流水线.设想这样一个场景:在Map阶段,数据经过mapper01和mapper02处理:在Reduce阶段,数据经 ...
MR案例：定制InputFormat
数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值 ...
MR案例：基站相关01
字段解释: product_no:用户手机号: lac_id:用户所在基站: start_time:用户在此基站的开始时间: staytime:用户在此基站的逗留时间. product_no lac_ ...

随机推荐

eclipse中设置在编译运行项目之前自动保存修改的文件
Window -> Preferences -> General -> Workspace -> “Save automatically before build” Windo ...
Android 判断当前thread 是否是UI thread
在Android 中判断当前的Thread是否是UI Thread 的方法: 1. if (Looper.myLooper() == Looper.getMainLooper()) { // Curr ...
ntpdate同步更新时间
Linux服务器运行久时,系统时间就会存在一定的误差,一般情况下可以使用date命令进行时间设置,但在做数据库集群分片等操作时对多台机器的时间差是有要求的,此时就需要使用ntpdate进行时间同步 1 ...
LeetCode_Compare Version Numbers
题目: Compare two version numbers version1 and version2. If version1 > version2 return 1, if versio ...
神、上帝以及老天爷--hdu2048（错排，递推）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2048 1. N张字条的所有可能排列自然是N!(分母). 现在的问题就是求N张字条的错排数f(N)(分子 ...
CF#301 C：Ice Cave（简单BFS）
C:Ice Cave 有一个m*n的地图,里面包含'.'表示完整的冰块,'X'表示有裂痕的冰块,当游戏者到达完整的冰块时,这个位置的冰块会变成有裂痕的冰块,如果到达有裂痕的冰块时,游戏者会进入下一关 ...
日期Date 对象常用的方法
var mydate = new Date();//通过new方法创建对象 //alert(Date()); // 返回一个完整的日期时间 // alert(mydate.getDay());//返回 ...
myeclipse中更改web项目在tomcat中部署的路径
右键点击项目名称,选择属性properties,选择myeclipse->web.更改web context-root就可以.
Git Extension工具安装及使用
以下界面所示的三个工具,如果没安装过,则勾上让其安装.MsysGit为Git的Windows版本,必须要安装:Kdiff为对比/合并工具,可选安装,可以换为使用其它的相关工具:最后一个Windows ...
java生成多位随机数方法
Math.random()方法可以令系统随机选取大于等于0.0且小于1.0的伪随机double值利用函数Math.random()即可生成若干位随机数以下是生成十位随机数代码: public st ...

MR案例：CombineFileInputFormat

MR案例：CombineFileInputFormat的更多相关文章

随机推荐

热门专题