MapReduce数据连接

对于不同文件里的数据，有时候有相应关系，须要进行连接(join)，获得一个新的文件以便进行分析。比方有两个输入文件a.txt,b.txt，当中的数据格式分别例如以下

1 a

2 b

3 c

4 d

1 good

2 bad

3 ok

4 hello

须要将其连接成一个新的例如以下的文件：

a good

b bad

c ok

d hello

处理步骤能够分成两步：

1.map阶段，将两个输入文件里的数据进行打散，例如以下：

1 a

1 good

2 b

2 bad

3 c

3 ok

4 d

4 hello

2.reduce阶段，进行数据的连接操作，此处数据较简单，仅仅要推断map结果的value的长度是不是1就决定是新的键还是值。

package cn.zhf.hadoop;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class SingleJoin extends Configured implements Tool{

	public static void main(String[] args) throws Exception {

		Tool tool = new SingleJoin();

		ToolRunner.run(tool, args);

		print(tool);

	}

	@Override

	public int run(String[] arg0) throws Exception {

		Configuration conf = getConf();

		Job job = new Job();

		job.setJarByClass(getClass());

		FileSystem fs = FileSystem.get(conf);

		fs.delete(new Path("out"),true);

		FileInputFormat.addInputPath(job, new Path("a.txt"));

		FileInputFormat.addInputPath(job, new Path("b.txt"));

		FileOutputFormat.setOutputPath(job,new Path("out"));

		job.setMapperClass(JoinMapper.class);

		job.setReducerClass(JoinReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.waitForCompletion(true);

		return 0;

	}

	public static class JoinMapper extends Mapper<LongWritable,Text,Text,Text>{

		public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException{

			String[] str = value.toString().split(" ");

			context.write(new Text(str[0]), new Text(str[1]));

		}

	}

	public static class JoinReducer extends Reducer<Text,Text,Text,Text>{

		public void reduce(Text key,Iterable<Text> values,Context context) throws IOException, InterruptedException{

			Iterator<Text> iterator = values.iterator();

			Text keyy = new Text();

			Text valuee = new Text();

			while(iterator.hasNext()){

				Text temp = iterator.next();

				if(temp.toString().length() == 1){

					keyy.set(temp);

					valuee.set(iterator.next());

				}else{

					valuee.set(temp);

					keyy.set(iterator.next());

				}

			}

			context.write(keyy, valuee);

		}

	}

	public static void print(Tool tool) throws IOException{

		FileSystem fs = FileSystem.get(tool.getConf());

		Path path = new Path("out/part-r-00000");

		FSDataInputStream fsin = fs.open(path);

		int length = 0;

		byte[] buff = new byte[128];

		while((length = fsin.read(buff,0,128)) != -1)

			System.out.println(new String(buff,0,length));

	}

}

reference：《MapReduce2.0源代码分析及编程实践》

MapReduce数据连接的更多相关文章

帆软报表FineReport中数据连接之Weblogic配置JNDI连接
1. 制作报表的原理在帆软报表FineReport设计器中先用JDBC连接到数据库,建立数据库连接,然后用SQL或者其他方法创建数据集,使用数据集制作报表,然后把建立的数据库连接从JDBC连接改成J ...
帆软报表FineReport中数据连接之Jboss配置JNDI连接
使用sqlsever 2000数据库数据源来做实例讲解,帆软报表FineReport数据连接中Jboss配置JNDI大概的过程和WEBSPHERE以及WEBLOGIC基本相同,用JDBC连接数据库制作 ...
帆软报表FineReport中数据连接之Websphere配置JNDI连接
以oracle9i数据源制作的模板jndi.cpt为例来说明如何在FineReport中的Websphere配置JNDI连接.由于常用服务器的JNDI驱动过大,帆软报表FineReport中没有自带, ...
帆软报表FineReport中数据连接之Tomcat配置JNDI连接
1. 问题描述在帆软报表FineReport中,通过JNDI方式定义数据连接,首先在Tomcat服务器配置好JNDI,然后在设计器中直接调用JNDI的名字,即可成功使用JNDI连接,连接步骤如下: ...
帆软报表FineReport中数据连接的JDBC连接池属性问题
连接池原理在帆软报表FineReport中,连接池主要由三部分组成:连接池的建立.连接池中连接使用的治理.连接池的关闭.下面就着重讨论这三部分及连接池的配置问题. 1. 连接池原理连接池技术的核心 ...
Netbeans 中创建数据连接池和数据源步骤（及解决无法ping通问题）
1.启动glassfish服务器, 在浏览器的地址栏中输入 http://localhost:4848 2.首先建立JDBC Connection Pools: 3.new 一个Connectio P ...
htc M8 无法自动恢复数据连接(4g)的问题解决
情况如下:htc m8 tdd-lte的双待手机,4g.2g同时在线. 本月出现,在短时间没有信号的情况后,无法恢复数据连接,哪怕是edge,更不论4g了. 尝试各种方法无解.最后咨询10086解决此 ...
Ajax之数据连接信息捕获
connDB.properties: DB_CLASS_NAME=com.mysql.jdbc.Driver DB_URL=jdbc:mysql://127.0.0.1:3306/db_datab ...
数据连接池——JNDI
数据库连接有很多中方式,JDBC数据库的连接方式,前边我们已经介绍过了,而开发中我们经常使用的是DataBaseConnectionPool(数据库连接池,DBCP).数据库连接池到底是什么?它比jd ...

随机推荐

leveldb源码笔记
关于KV数据库leveldb的介绍,网上已经太多了,这里只是自己再学习源码过程中,整理的笔记,磁盘存储和内存存储的结构用了伪代码表示出来了,首先是内存中存储结构,然后是log文件存储结构和磁盘数据ss ...
Educational Codeforces Round 14
A - Fashion in Berland 水 // #pragma comment(linker, "/STACK:102c000000,102c000000") #inclu ...
matlab中图像处理常见用法
一. 读写图像文件 1. imread imread函数用于读入各种图像文件,如:a=imread('e:/w01.tif') 注:计算机E盘上要有w01相应的.tif文件. 2. imwrite i ...
Servlet学习笔记(1)--第一个servlet&&三种状态对象(cookie,session,application)&&Servlet的生命周期
servlet的404错误困扰了两天,各种方法都试过了,翻书逛论坛终于把问题解决了,写此博客来纪念自己的第一个servlet经历. 下面我会将自己的编写第一个servlet的详细过程提供给初学者,大神 ...
codeforces 630A Again Twenty Five!
A. Again Twenty Five! time limit per test 0.5 seconds memory limit per test 64 megabytes input stand ...
Linux下c/c++项目代码覆盖率的产生方法
最近做了一系列的单元测试相关的工作,除了各种规范及测试框架以外,讨论比较多的就是关于代码覆盖率的产生,c/c++与其他的一些高级语言或者脚本语言相比较而言,例如 Java..Net和php/pytho ...
Java 8 正式发布，新特性全搜罗
经过2年半的努力.屡次的延期和9个里程碑版本,甲骨文的Java开发团队终于发布了Java 8正式版本. Java 8版本最大的改进就是Lambda表达式,其目的是使Java更易于为多核处理器编写代码: ...
需要熟记的git命令
需要熟记的github常用命令总结一下ubuntu下github常用的命令,设置部分跳过,假设repository的名字叫hello-world: .创建一个新的repository: 先在gith ...
什么是APNs证书？
转载自 http://dev.xiaomi.com/doc/p=2977/index.html 什么是APNs和APNs证书? APNs(全称为Apple Push Notification Serv ...
hdu2248
纷菲幻剑录之十年一剑 Time Limit: 10000/4000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) To ...

MapReduce数据连接

MapReduce数据连接的更多相关文章

随机推荐

热门专题