Hadoop--Map/Reduce实现多表链接

MR实现多表连接的原理和单表连接时一样的，甚至比单表连接还要简单。

在map阶段只需要根据文件的名称区分左表还是右表。使用关联的字段作为key2。

在reduce中对values中的值分别存储到一个左表list和右表list中。对左表list和右表list进行一个笛卡尔积完事。

 import java.io.*;

 import java.util.*;

 import org.apache.hadoop.io.*;

 import org.apache.hadoop.util.*;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.mapreduce.*;

 import org.apache.hadoop.mapreduce.lib.input.*;

 import org.apache.hadoop.mapreduce.lib.output.*;

 import org.apache.hadoop.conf.*;

 import org.apache.hadoop.util.Tool;

 public class MTjoin extends Configured implements Tool {

     /*

      * 多表链接，与单表链接思路类似。将关联列作为map的key值，用数字区分左表和右表。在Reduce阶段对两个表进行笛卡尔积

      * */

     public static class Map extends Mapper<LongWritable,Text,Text,Text>{

         public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException{

             String line=value.toString();

             int linelen=line.length();

             //去除文件首行

             if(line.indexOf("factoryname")==-1&&line.indexOf("addressID")==-1)

             {

                 //处理factory数据

                 if(line.charAt(linelen-2)==' ')

                 {

                     String facstr="1"+line.substring(0, linelen-2);

                     String addrestr=String.valueOf(line.charAt(linelen-1));

                     context.write(new Text(addrestr), new Text(facstr));

                 }else{

                     String addreidstr=String.valueOf(line.charAt(0));

                     String addrenastr="2"+line.substring(1);

                     context.write(new Text(addreidstr), new Text(addrenastr));

                 }

             }

         }

     }

     public static class Reduce extends Reducer<Text,Text,Text,Text>{

         public void reduce(Text key,Iterable<Text> values,Context context)throws IOException, InterruptedException{

             ArrayList<String> facarr=new ArrayList<String>();

             ArrayList<String> addarr=new ArrayList<String>();

             for(Text var:values){

                 if(var.toString().charAt(0)=='1')

                 {

                     facarr.add(var.toString().substring(1));

                 }else if(var.toString().charAt(0)=='2')

                 {

                     addarr.add(var.toString().substring(1));

                 }

             }

             if(facarr.size()!=0&&addarr.size()!=0)

             {

                 for(int i=0;i<facarr.size();i++)

                 {

                     context.write(new Text(facarr.get(i)), new Text(addarr.get(0)));

                 }

             }

         }

     }

     @Override

     public int run(String[] args) throws Exception {

         // TODO Auto-generated method stub

         Configuration conf=new Configuration();

         Job job=new Job(conf,"MTjoin");

         job.setJarByClass(MTjoin.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         job.setMapperClass(Map.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormatClass(TextInputFormat.class);

         job.setOutputFormatClass(TextOutputFormat.class);

         FileInputFormat.setInputPaths(job, new Path(args[0]));

         FileOutputFormat.setOutputPath(job, new Path(args[1]));

         boolean success=job.waitForCompletion(true);

         return success?0:1;

     }

     public static void main(String[] args)throws Exception{

         int ret=ToolRunner.run(new MTjoin(), args);

         System.exit(ret);

     }

 }

Hadoop--Map/Reduce实现多表链接的更多相关文章

Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程（2）
Map/Reduce用户界面本节为用户採用框架要面对的各个环节提供了具体的描写叙述,旨在与帮助用户对实现.配置和调优进行具体的设置.然而,开发时候还是要相应着API进行相关操作. 首先我们须要了解M ...
Hadoop Map/Reduce
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集.一个Map/Reduce ...
Hadoop Map/Reduce的工作流
问题描述我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...
Hadoop Map/Reduce 示例程序WordCount
#进入hadoop安装目录 cd /usr/local/hadoop #创建示例文件:input #在里面输入以下内容: #Hello world, Bye world! vim input #在hd ...
(转载)Hadoop map reduce 过程获取环境变量
来源:http://www.linuxidc.com/Linux/2012-07/66337.htm 作者: lmc_wy Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取 ...
Hadoop map reduce 任务数量优化
mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultan ...
hadoop2.2编程：自定义hadoop map/reduce输入文件切割InputFormat
hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInput ...
hadoop map reduce 实例wordcount的使用
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /wordcount.txt /wc/output3

随机推荐

SQL Server系统视图 [不定期更新]
1.sys.objects:在数据库中创建的每个用户定义的架构作用域内的对象(如表.视图.约束.默认值.日志.规则存储过程等,但不包括DDL触发器)在该表中均对应一行. 列名说明 name 对象名. ...
Java基础巩固----泛型
注:参考书籍:Java语言程序设计.本篇文章为读书笔记,供大家参考学习使用 1.使用泛型的主要优点是能够在编译时而不是在运行时检查出错误,提高了代码的安全性和可读性,同时也提高了代码的复用性. 1.1 ...
odoo 的拉式和推式库链
推式链的数据定义在 stock.location.path 表,视图定义在 “路线” 界面的 “push rules” 具体可参考入库设置为 Receipt in 2 steps . push ...
Poco版信号槽
#include "Poco/BasicEvent.h"#include "Poco/Delegate.h"#include <iostream> ...
Linux下find指令
Linux是一个“一切皆文件”的操作系统,find(查找文件)指令就尤为重要了.find命令在目录结构中搜索文件,并执行指定的操作. 1.命令格式: find pathname -options [- ...
定位- CLGeoencoder - 反编码
#import "ViewController.h" #import "MBProgressHUD+MJ.h" #import <CoreLocation ...
JavaScript 将字符串转化为json对象
var json = eval('(' + data + ')'); 其中data为字符串数据
【网络流24题】No.11(航空路线问题最长不相交路径最大费用流)
[题意] 给定一张航空图, 图中顶点代表城市, 边代表 2 城市间的直通航线. 现要求找出一条满足下述限制条件的且途经城市最多的旅行路线.(1) 从最西端城市出发,单向从西向东途经若干城市到达最东端城 ...
Myeclipse2013 SVN安装方法以及项目上传到svn服务器
1. 打开 Myeclipse 工具栏下的Help下的Install from Site 2.打开后弹出窗口, 并点击Add标签,如下图: 3.现在是最重要的一步,填写相关信息. 在对话框Name输入 ...
android-86-Can't create handler inside thread that has not called Looper.prepare()
以下是Android API中的一个典型的Looper thread实现: //Handler不带参数的默认构造函数:new Handler(),实际上是通过Looper.myLooper()来获取当 ...

Hadoop--Map/Reduce实现多表链接

Hadoop--Map/Reduce实现多表链接的更多相关文章

随机推荐

热门专题