MR案例：倒排索引 && MultipleInputs

本案例采用 MultipleInputs类实现多路径输入的倒排索引。解读：MR多路径输入

package test0820;

import java.io.IOException;

import java.lang.reflect.Method;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WC0826 {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(WC0826.class);      

        job.setMapperClass(IIMapper.class);

        job.setCombinerClass(IICombiner.class);

        job.setReducerClass(IIReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        //使用MultipleInputs类指定多路径输入
        MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class);

        MultipleInputs.addInputPath(job, new Path(args[1]), TextInputFormat.class);

        FileOutputFormat.setOutputPath(job, new Path(args[2]));

        System.exit(job.waitForCompletion(true)? 0:1);

    }

    //map

    public static class IIMapper extends Mapper<LongWritable, Text, Text, Text>{

        String fileName;

        /**

         * 使用 MultipleInputs 获得 FileName 必须添加的类

         */

        private Path getFilePath(Context context) throws IOException {

            InputSplit split = context.getInputSplit();

            Class<? extends InputSplit> splitClass = split.getClass();

            FileSplit fileSplit = null;

            if (splitClass.equals(FileSplit.class)) {

                fileSplit = (FileSplit) split;

            } else if (splitClass.getName().

                    equals("org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit")) {

                // begin reflection hackery...

                try {

                    Method getInputSplitMethod = splitClass.getDeclaredMethod("getInputSplit");

                    getInputSplitMethod.setAccessible(true);

                    fileSplit = (FileSplit) getInputSplitMethod.invoke(split);

                } catch (Exception e) {

                    // wrap and re-throw error

                    throw new IOException(e);

                }

                // end reflection hackery

            }

            return fileSplit.getPath();

        }

        @Override

        protected void setup(Context context)

                throws IOException, InterruptedException {

            //get file name

            fileName = getFilePath(context).getName();

        }

        @Override

        protected void map(LongWritable key, Text value,Context context)

                throws IOException, InterruptedException {

            String[] splited = value.toString().split("\t"); 

            for(String word : splited){

                Text word_fileName=new Text(word+"@"+fileName);

                context.write(word_fileName,new Text("1"));

            }

        }

    }

    //combiner

    public static class IICombiner extends Reducer<Text, Text, Text, Text>{

        @Override

        protected void reduce(Text key, Iterable<Text> v2s, Context context)

                throws IOException, InterruptedException {

            Long sum = 0L;

            String value=new String();

            String[] splited = key.toString().split("@");

            for(Text vl :v2s){

                sum += Long.parseLong(vl.toString());

                value = splited[1]+"@"+sum.toString();

            }

            context.write(new Text(splited[0]), new Text(value));

        }

    }

    //reduce

    public static class IIReducer extends Reducer<Text, Text, Text, Text>{

        @Override

        protected void reduce(Text key, Iterable<Text> v2s, Context context)

                throws IOException, InterruptedException {

            String value=new String();

            for(Text text : v2s){

                value = text.toString()+":"+value;

            }

            //去掉最后的":"

            context.write(key, new Text(value.substring(0, value.length()-1)));

        }

    }

}

出现问题01：使用MultipleInputs类指定输入路径，当setup()方法中调用getInputSplit()方法获取当前split对应的FileName时会报IO异常：

Error: java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit

问题原因01：filesplit实际上就是TaggedInputSplit中的成员变量inputSplit，而TaggedInputSplit类并不是public的(默认是default声明类型)，所以不能直接获得对应的信息。

解决方案01：

第一种方法：在当前项目中新建对应的TaggedInputSplit类，并声明为public。即覆盖掉原有TaggedInputSplit类的声明类型。然后通过以下代码就可以正确调用：

(FileSplit)((TaggedInputSplit)reporter.getInputSplit()).getInputSplit();

第二种方法：通过反射机制。代码如下：

/**

 * 反射机制

 * 使用 MultipleInputs 获得 FileName 必须添加的类

 */

private Path getFilePath(Context context) throws IOException {

    InputSplit split = context.getInputSplit();

    Class<? extends InputSplit> splitClass = split.getClass();

    FileSplit fileSplit = null;

    if (splitClass.equals(FileSplit.class)) {

        fileSplit = (FileSplit) split;

    } else if (splitClass.getName().

            equals("org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit")) {

        // begin reflection hackery...

        try {

            Method getInputSplitMethod = splitClass.getDeclaredMethod("getInputSplit");

            getInputSplitMethod.setAccessible(true);

            fileSplit = (FileSplit) getInputSplitMethod.invoke(split);

        } catch (Exception e) {

            // wrap and re-throw error

            throw new IOException(e);

        }

        // end reflection hackery

    }

    return fileSplit.getPath();

}

出现问题02：

map<Object,Text,Text,IntWritble>
combiner<Text,IntWritble,Text,Text>
reduce<Text,Text,Text,Text>

这样设置，系统会异常。这是因为Combiner和Reducer其实是同一个函数，所以输入和输出类型必须保持一致。

Combiner实现对map端value的聚合，减少map 到 reudce 间数据传输，加快 shuffle 速度。牢记求平均值的MR不能使用Combiner。

MR案例：倒排索引 && MultipleInputs的更多相关文章

MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...
MR案例：链式ChainMapper
类似于Linux管道重定向机制,前一个Map的输出直接作为下一个Map的输入,形成一个流水线.设想这样一个场景:在Map阶段,数据经过mapper01和mapper02处理:在Reduce阶段,数据经 ...
MR案例：定制InputFormat
数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值 ...
MR案例：基站相关01
字段解释: product_no:用户手机号: lac_id:用户所在基站: start_time:用户在此基站的开始时间: staytime:用户在此基站的逗留时间. product_no lac_ ...

随机推荐

进击的RecyclerView入门一（简单上手）
虽然RecyclerView面世有一段时间了,但由于它的学习成本相对较高,很多码友只是粗略的认识了一下而没有细致的品味RecyclerView的真谛. 那么从现在开始我将带你装逼带你飞,一起领略Goo ...
Spark源码分析 – Checkpoint
CP的步骤 1. 首先如果RDD需要CP, 调用RDD.checkpoint()来mark 注释说了, 这个需要在Job被执行前被mark, 原因后面看, 并且最好选择persist这个RDD, 否则 ...
Exception in thread "main" java.lang.UnsupportedClassVersionError: * : Unsupported major.minor version 52.0 解决办法
Exception in thread "main" java.lang.UnsupportedClassVersionError: * : Unsupported major.m ...
zipline风险指标计算 (empyrical模块)
概述量化中,我们经常会遇到各种量化指标的计算,对于zipline来说,也会对这部分计算进行处理,由于指标计算的通用性比较强,所以,zipline单独封装了 empyrical 这个模块,可以处理类似 ...
python基础-第十篇-10.2CSS基础
CSS是Cascading Style Sheet的简称,中文为层叠样式表属性和属性值用冒号隔开,以分号结尾引入方式行内式--在标签的style属性中设定CSS样式 <body> & ...
git远程库与本地联系报错：fatal: Not a git repository (or any of the parent directories): .git
在github上新建了一个仓库,然后相与本地的仓库联系起来 $ git remote add origin https://github.com/lizhong24/mysite2.git fatal ...
linux下安装mysql(mariadb)
yum安装软件(官网很慢) yum install mariadb 发现版本如下,版本特别低,且安装包特别小, mariadb x86_64 :-.el7_5 base 8.9 M .我们可以配置ma ...
oracle入门（6）——PL/SQL常用语法
[本文介绍] 本文不是”语法大全“,只是记录下作项目里自己常用的一些语法.方便查询. [语法] [输出] (1)输出语法 DBMS_OUTPUT.PUT_LINE( ) [定义] (1)定义变 ...
Java权威编码规范
一.编程规约 (一) 命名规约 1. [强制] 代码中的命名均不能以下划线或美元符号开始,也不能以下划线或美元符号结束. 反例: _nam / __name / $Object / name_ / ...
TensorFlow学习笔记（三）MNIST数字识别问题
一.MNSIT数据处理 MNSIT是一个非常有名的手写体数字识别数据集.包含60000张训练图片,10000张测试图片.每张图片是28X28的数字. TonserFlow提供了一个类来处理 MNSIT ...

MR案例：倒排索引 && MultipleInputs

MR案例：倒排索引 && MultipleInputs的更多相关文章

随机推荐

热门专题