hadoop用mutipleInputs实现map读取不同格式的文件

mapmap读取不同格式的文件这个问题一直就有，之前的读取方式是在map里获取文件的名称，依照名称不同分不同的方式读取，比如以下的方式

//取文件名

InputSplit inputSplit = context.getInputSplit();

String fileName = ((FileSplit) inputSplit).getPath().toString();

if(fileName.contains("track")) {

} else if(fileName.contains("complain3")) {

}

这样的方式有两个问题，一是在每读入一条数据的时候都要获取文件的名称，二是要依据名称推断依照什么样的格式进行解析，显得非常丑陋，事实上hadoop提供了解决问题的方法

使用mutipleInputs来解决

public class MutipleInputsTest {

	private static String complain = "/dsap/rawdata/operate/complain3/";

	private static String csOperate = "/dsap/rawdata/creditSystemSearchLog/";

	private static String output = "/dsap/rawdata/mutipleInputsTest/result1";

	public static class Mapper1

    extends Mapper<Object, Text, Text, Text>{

		public void map(Object key, Text value, Context context

                 ) throws IOException, InterruptedException {

			Counter counter = context.getCounter("myCounter", "counter1");

			counter.increment(1l);

		}

	}

	public static class Mapper2

    extends Mapper<Object, Text, Text, Text>{

		public void map(Object key, Text value, Context context

                 ) throws IOException, InterruptedException {

			Counter counter = context.getCounter("myCounter", "counter2");

			counter.increment(1l);

		}

	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();

		Job job = new Job(conf, "mutipleInputsTest");

		job.setJarByClass(MutipleInputsTest.class);

		MultipleInputs.addInputPath(job, new Path(complain + "20141217"), TextInputFormat.class, Mapper1.class);

		MultipleInputs.addInputPath(job, new Path(csOperate + "20141217"), TextInputFormat.class, Mapper2.class);

		FileOutputFormat.setOutputPath(job, new Path(output));

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(Text.class);

		job.waitForCompletion(true);

		/**获取自己定义counter的大小。假设等于质心的大小。说明质心已经不会发生变化了，则程序停止迭代*/

		long counter1 = job.getCounters().getGroup("myCounter").findCounter("counter1").getValue();

		long counter2 = job.getCounters().getGroup("myCounter").findCounter("counter2").getValue();

		System.out.println("counter:" + counter1 + "\t" + counter2);

	}

}

看一下执行结果

能够看到两个不同格式的文件进入了两个不同的mapper进行处理。这样在两个mapper里就能够仅仅针对某一种格式的文件进行解析了

hadoop用mutipleInputs实现map读取不同格式的文件的更多相关文章

内容写到 csv 格式的文件中及读取 csv 格式的文件内容
<?php/*把内容写到 csv 格式的文件中基本思路是:1.用 $fp = fopen("filename", 'mode')打开一个csv文件,可以是打开时才建立的2. ...
字符编码和字符集和编码引出的问题_FileReader读取GBK格式的文件
字符编码计算机中鵆的信息都是用二进制数表示的,而我们在屏幕上看到的数字.英文.标点符号.汉子等字符都是二进制数转换之后的结果.按照某种规则,将字符存储到计算机中,称为编码.反之,将存储在计算机中的二 ...
perl 读取json 格式的文件
使用JSON 模块中的 decode_json 函数,将json文件中的数据解码为perl 中的对象,然后进行处理代码如下: #!/usr/bin/env perl use JSON; use En ...
MATLAB读取一个文件夹下的多个子文件夹中的多个指定格式的文件
MATLAB需要读取一个文件夹下的多个子文件夹中的指定格式文件,这里以读取*.JPG格式的文件为例 1.首先确定包含多个子文件夹的总文件夹 maindir = 'C:\Temp Folder'; 2. ...
如何让Hadoop读取以gz结尾的文本格式的文件
背景: 搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符.xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件 ...
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map.reduce函数传递参数. 2 使用Streaming编写MapReduce程序(C/C++ ...
hadoop输入分片计算(Map Task个数的确定)
作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split.默认是使用InputFormat的子类 ...
libxl 的使用，读取时间格式
最近开发使用到 libxl,用的是3.8.0 破解版. 具体过程: 1.将lib.dll放在exe同目录下,在代码中引用 libxl.lib #pragma comment(lib, ".\ ...
MapReduce: map读取文件的过程
我们的输入文件 hello0, 内容如下: xiaowang 28 shanghai@_@zhangsan 38 beijing@_@someone 100 unknown 逻辑上有3条记录, 它们以 ...

随机推荐

tomcat相关实验
tomcat相关实验 1.实现LNT 同主机实现 1.安装并启动tomcat 1)OpenJDK的安装 yum install java-1.8.0-openjdk-devel.x86_64 确定JD ...
5. 监视和ZooKeeper操作
ZooKeeper中的写入(write)操作是原子性和持久性的. 写入到大多数ZooKeeper服务器上的持久性存储中,可以保证写操作成功. 无论如何,ZooKeeper的最终一致性模型允许读取(re ...
linux终端自定义命令的别名
alias : 给某个命令定义别名. 如:alias gpush='Git push origin HEAD:refs/for/master'这样在终端中,只需要输入 gpush 就ok了.但是只是这 ...
【5】namenode启动过程
1.格式化空间(第一次启动的操作): 命令:bin/hadoop -format //用于格式化HDFS,如果不是首次格式化,需要删除下面配置的tmp目录后再进行core-site.xml的配置: / ...
【开源】canvas图像裁剪、压缩、旋转
前言前段时间遇到了一个移动端对图像进行裁剪.压缩.旋转的需求. 考虑到已有各轮子的契合度都不高,于是自己重新造了一个轮子. 关于图像裁剪.压缩在HTML5时代,canvas的功能已经非常强大了,可 ...
Linux运维正则表达式之grep
一.什么是正则表达式?简单的说,正则表达式就是一套处理大量的字符串而定义的规则和方法.例如:假设 @代表12345通过正则表达式这些特殊符号,我们可以快速过滤.替换需要的内容.linux正则表达式一般 ...
Intrumentation类：ActivityInstrumentationTestCase2学习（1）
public abstract class ActivityInstrumentationTestCase2 extends ActivityTestCase//继承自ActivityTestCase ...
JAVA提高十四：HashSet深入分析
前面我们介绍了HashMap,Hashtable,那么还有一个hash家族,那就是HashSet;在讲解HashSet前,大家先要知道的是HashSet是单值集合的接口,即是Collection下面的 ...
移动端h5拍照压缩即时上传后台并预览
项目经理让迭代一个功能,实时预览并上传到后台的功能,听到这立马想起了几个第三方插件去实现,mui 和api cloude万万没想到的是这个app前面使用ios 和安卓原生写的,然后mui和api c ...
Rigidbody组件及相关API
Rigidbody:刚体组件,物理类.(与Rigidbody组件相关的代码尽量都写在FixedUpdate()方法中,如果写在Update()中有可能会卡顿) 属性:Mass:质量. ...

hadoop用mutipleInputs实现map读取不同格式的文件

hadoop用mutipleInputs实现map读取不同格式的文件的更多相关文章

随机推荐

热门专题