1 Join多种应用

1 Join多种应用

1.1 Reduce Join

Map 端的主要工作：不同表或文件的 key/value 对，打标签以区别不同来源的记录。然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。

Reduce 端的主要工作：在 Reduce 端以连接字段作为 key 的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录（在 Map 阶段已经打标志）分开，最后进行合并。

1.2 Reduce Join实例实操

需求

由两张表，表1 order.txt

表2 商品信息表

将商品信息表中数据根据商品pid合并到订单数据表中，预期合并结果

需求分析

Map数据处理

问题1:输入的是两个文件，如何区分输入数据来自哪个文件？

切片可以获取到文件的路径和文件的名称

切片.getPath().getName()

问题2:输出的kv是什么？

k是pid，这样pid相同的数据(来自两张表)才能一起给Reduce合并。

v应该包含订单id、数量、产品名称

问题3:values是多个字段，这里需要序列化吗？

MapTask传数据给ReduceTask的时候，有可能会跨服务器传输，所以需要序列化。把values封装成bean对象。

问题4:bean对象如何设计?

需要包含所有的字段订单id、数量、产品名称、flag

两张表的数据不同，没有的地方就为空。

1001 1 "" order

"" "" 小米 pd

Reduce端合并(数据倾斜)

Reduce端来Join

key是pid 如01，pid相同的三条数据传输到Reduce端，把pd.txt的产品名称替换order的pid

map输出过来的数据格式

如何合并？

创建两个集合，一个存放order表的数据(这个数据多)，一个存放pd表的数据

代码实现

JoinBean类

序列化和反序列顺序一定要一致

package com.ranan.mapreduce.reducejoin;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

/**

 * @author ranan

 * @create 2021-08-30 16:41

 */

public class JoinBean implements Writable {

    //id pid amount pid pname

    private String id; //订单id

    private String pid;//商品id

    private String pname;//产品名字

    private  int amout;//数量

    private String flag;//标记来自哪个表格

    //序列化需要空参构造，用于反射调用空参构造函数

    public JoinBean() {

    }

    public String getId() {

        return id;

    }

    public void setId(String id) {

        this.id = id;

    }

    public String getPid() {

        return pid;

    }

    public void setPid(String pid) {

        this.pid = pid;

    }

    public String getPname() {

        return pname;

    }

    public void setPname(String pname) {

        this.pname = pname;

    }

    public int getAmout() {

        return amout;

    }

    public void setAmout(int amout) {

        this.amout = amout;

    }

    public String getFlag() {

        return flag;

    }

    public void setFlag(String flag) {

        this.flag = flag;

    }

    //序列化方法

    @Override

    public void write(DataOutput dataOutput) throws IOException {

        dataOutput.writeUTF(id); //String类型用writeUTF写

        dataOutput.writeUTF(pid);

        dataOutput.writeInt(amout); //int类型用writeInt

        dataOutput.writeUTF(pname);

        dataOutput.writeUTF(flag);

    }

    //反序列化方法

    @Override

    public void readFields(DataInput dataInput) throws IOException {

        setId(dataInput.readUTF());

        setPid(dataInput.readUTF());

        setAmout(dataInput.readInt());

        setPname(dataInput.readUTF());

        setFlag(dataInput.readUTF());

    }

    //重写toString方法，最终输出的格式 id pname amout

    @Override

    public String toString() {

        return id + "\t" + pname + "\t" +amout +"\n";

    }

}

JoinMap

key:pid Text类型

value:JoinBean JoinBean

为什么需要初始化？

传过来了两个文件order.txt pd.txt

初始化的时候希望获得对应的文件名称，在后续操作给数据打标记

为什么在初始化的时候获取文件名字?

默认切片规则，一个文件一个切片(因为文件很小，所以文件里面不用切)，一个切片开启一个MapTask。

每一个MapTask都有setup方法，map方法。map方法每一行输入执行一次，setup只执行一次。只需要获取一次文件名字就行了。

package com.ranan.mapreduce.reducejoin;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

/**

 * @author ranan

 * @create 2021-08-30 17:09

 */

public class JoinMapper extends Mapper<LongWritable, Text,Text,JoinBean> {

    private String fileName;

    private Text outK = new Text();

    private JoinBean outV = new JoinBean();

    //初始化方法

    @Override

    protected void setup(Context context) throws IOException, InterruptedException {

        //获得切片信息 返回的是InputSplit抽象类，用它的子类FileSplit，因为我们输入的是文件

        FileSplit split = (FileSplit) context.getInputSplit();

        fileName = split.getPath().getName();

    }

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();

        //判断是哪个文件

        if(fileName.contains("order")){

            //处理订单表   1001 01 1 order

            String[] order = line.split("\t");

            //封装kv

            outK.set(order[1]);

            outV.setId(order[0]);

            outV.setPid(order[1]);

            outV.setAmout(Integer.parseInt(order[2]));

            outV.getPname("");

            outV.setFlag("order");

        }else {

            //处理商品表 01 小米 pd

            String[] pd = line.split("\t");

            outK.set(pd[0]);

            outV.setId("");

            outV.setPid(pd[0]);

            outV.setAmout(0);

            outV.setPname(pd[1]);

            outV.setFlag("pd");

        }

        context.write(outK,outV);

    }

}

JoinReduce

输入的数据

希望输出的数据

为什么最终的输出是JoinBean?

因为重写了JoinBean的toString方法，最后打印会调用toString方法，只输出需要的三个变量。

Hadoop的迭代

Hadoop迭代器中使用了对象重用，迭代时value始终指向一个内存地址，改变的是那个内存地址中的数据。

for(JoinBean value:values){

if("order".equals(value.getFlag())){

     orderBeans.add(value);

	 }

}

value指向一个地址且值不变，每次循环改变的是该内存地址的值，所以这样写最后的数据全是最后一次循环的数据。

应该用一个临时变量存储，使用工具类BeanUtils

for(JoinBean value:values){

   if("order".equals(value.getFlag())){

        JoinBean tmp = new JoinBean();

        //工具类

        try {

            BeanUtils.copyProperties(tmp,value);

         } catch (IllegalAccessException e) {

            e.printStackTrace();

         } catch (InvocationTargetException e) {

             e.printStackTrace();

         }

             orderBeans.add(tmp);

     }

}

完整代码

package com.ranan.mapreduce.reducejoin;

import org.apache.commons.beanutils.BeanUtils;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Reducer;

import org.w3c.dom.Text;

import java.io.IOException;

import java.lang.reflect.InvocationTargetException;

import java.util.ArrayList;

/**

 * @author ranan

 * @create 2021-08-30 19:53

 */

public class JoinReduce extends Reducer<Text,JoinBean, JoinBean, NullWritable> {

/*

01 1001 1 order

01 1004 4 order

01 小米    pd

 */

    @Override

    protected void reduce(Text key, Iterable<JoinBean> values, Context context) throws IOException, InterruptedException {

        ArrayList <JoinBean> orderBeans =  new ArrayList<>();  //有很多个

        JoinBean pdBean = new JoinBean();//一个pid对应一个pname

        for(JoinBean value:values){

            if("order".equals(value.getFlag())){

                JoinBean tmp = new JoinBean();

                try {

		 //*****************工具类使用******************

                    BeanUtils.copyProperties(tmp,value);

                } catch (IllegalAccessException e) {

                    e.printStackTrace();

                } catch (InvocationTargetException e) {

                    e.printStackTrace();

                }

                orderBeans.add(tmp);

            }else {

                try {

                    BeanUtils.copyProperties(pdBean,value);

                } catch (IllegalAccessException e) {

                    e.printStackTrace();

                } catch (InvocationTargetException e) {

                    e.printStackTrace();

                }

            }

        }

        //循环遍历orderBeans，为它的pname赋值

        for(JoinBean orderBean:orderBeans){

            orderBean.setPname(pdBean.getPname());

            context.write(orderBean,NullWritable.get());

        }

    }

}

JoinDriver

package com.ranan.mapreduce.reducejoin;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

 * @author ranan

 * @create 2021-08-30 20:39

 */

public class JoinDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(JoinDriver.class);

        job.setMapperClass(JoinMapper.class);

        job.setReducerClass(JoinReduce.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(JoinBean.class);

        job.setOutputKeyClass(JoinBean.class);

        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job,new Path("D:\\hadoop\\hadoop_data\\inputtable"));

        FileOutputFormat.setOutputPath(job,new Path("D:\\hadoop\\hadoop_data\\outputtable"));

        boolean b = job.waitForCompletion(true);

        System.exit(b?0:1);

    }

}

执行结果

总结

缺点：这种方式中，合并的操作是在Reduce阶段完成，当一个表内容很多的时候，Reduce端的处理压力太大，Map节点的运算负载则很低，资源利用率不高，且在大量数据在Reduce阶段进行汇总，Reduce阶段极易产生数据倾斜。

解决方案：Map端实现数据合并。(能在Map阶段实现的操作在Map阶段实现)

1.3 Map Join

使用场景

MapJoin适用于一张表十分小(用于放入缓存)、一张表很大的场景。

问题1：在Reduce端处理过多的表，非常容易产生数据倾斜。怎么办？

一个ReduceTask处理一张很大的表速度很慢，MapTask数量多,可以将合并操作放到Map端处理。

在Map端缓存多张表，提前处理业务逻辑，这样增加Map端业务，减少Reduce端数

据的压力，尽可能的减少数据倾斜。

问题2:如何将两张表在Map阶段进行合并？

默认是每张表单独切片，先将pd缓存,执行MapTask通过缓存读取pd

具体办法：采用DistributedCache

1.在Mapper的setup阶段，将文件读取到缓存集合中。

2.在Driver驱动类中加载缓存。

//如果是本地文件,缓存普通文件到Task运行节点。

job.addCacheFile(new URI("file:///e:/cache/pd.txt"));

//如果是集群运行,需要设置HDFS路径

job.addCacheFile(new URI("hdfs://hadoop102:8020/cache/pd.txt"));

1.4 Map Join案例实操

需求分析

1.DistributedCacheDriver缓存文件

//1.加载缓存数据

job.addCacheFile(new

URI("file:///e:/cache/pd.txt"));

//2.Map端join的逻辑不需要Reduce阶段，设置ReduceTask数量为0

job.setNumReduceTasks(0);

2.读取缓存的文件数据

在setup()方法中

// 1.获取缓存的文件

// 2.循环读取缓存文件一行

// 3.切割

// 4.缓存数据到集合

<pid,pname>

01,小米

02,华为

03,格力

// 5.关流

3.map方法中读取order表的信息

// 1.获取一行

// 2.截取

// 3.获取pid

// 4.获取商品名称

// 5.拼接

// 6.写出

代码实现

MapJoinDrive

先在MapJoinDriver驱动类中添加缓存文件

package com.ranan.mapreduce.mapjoin;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

/**

 * @author ranan

 * @create 2021-08-31 20:42

 */

public class MapJoinDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(MapJoinDriver.class);

        job.setMapperClass(MapJoinMapper.class);

        //job.setReducerClass(MapJoinReduce.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(NullWritable.class);

        //加载缓存数据

        job.addCacheFile(new URI("file:///D:/hadoop/hadoop_data/inputtable/pd.txt"));

        //默认一个ReduceTask

        job.setNumReduceTasks(0);

        FileInputFormat.setInputPaths(job,new Path("D:/hadoop/hadoop_data/inputtable/order.txt"));

        FileOutputFormat.setOutputPath(job,new Path("D:\\hadoop\\hadoop_data\\outputtable"));

        boolean b = job.waitForCompletion(true);

        System.exit(b?0:1);

    }

}

MapJoinMapper

1.在Mapper的setup阶段，将文件读取到缓存集合中。

2.在Driver驱动类中加载缓存。

package com.ranan.mapreduce.mapjoin;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URI;

import java.util.HashMap;

/**

 * @author ranan

 * @create 2021-08-31 20:44

 */

public class MapJoinMapper extends Mapper<LongWritable,Text,Text, NullWritable> {

    private HashMap<String, String> pdMap = new HashMap<>();

    private Text outK = new Text();

    @Override

    protected void setup(Context context) throws IOException, InterruptedException {

      //获取缓存文件，并把文件内容封装到集合pd.txt

      URI[] cacheFiles = context.getCacheFiles();

        //获取流变量

        FileSystem fs = FileSystem.get(context.getConfiguration());

        FSDataInputStream fis = fs.open(new Path(cacheFiles[0]));

        //从流中读取数据

        BufferedReader reader = new BufferedReader(new InputStreamReader(fis, "utf-8"));

        String line;

        //读取一行readLine()

        while(StringUtils.isNotEmpty(line = reader.readLine())){

            String[] items = line.split("\t");

            //赋值

            pdMap.put(items[0],items[1]);

        }

        //关流

        IOUtils.closeStream(reader);

    }

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //处理 order.txt

        String line = value.toString();

        String[] items = line.split("\t");

        //获取pname

        String pname= pdMap.get(items[1]);

        //获取订单数量和订单数量

        outK.set(items[0] + "\t" + pname +"\t" +items[2]);

        context.write(outK,NullWritable.get());

    }

}

MapReduce07 Join多种应用的更多相关文章

MapReduce编程之Reduce Join多种应用场景与使用
在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致.在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据.不同于传统的单机模式 ...
MapReduce编程之Semi Join多种应用场景与使用
Map Join 实现方式一 ● 使用场景:一个大表(整张表内存放不下,但表中的key内存放得下),一个超大表 ● 实现方式:分布式缓存 ● 用法: SemiJoin就是所谓的半连接,其实仔细一看就是 ...
MapReduce编程之Map Join多种应用场景与使用
Map Join 实现方式一:分布式缓存 ● 使用场景:一张表十分小.一张表很大. ● 用法: 在提交作业的时候先将小表文件放到该作业的DistributedCache中,然后从DistributeC ...
SQL Server2008 inner join多种方式的实践
这些天的学习,才发现自己对SQL原来是如此的不了解.之前一直以为自己轻松应对各种复杂的SQL查询,但是一旦提到效率上,可能就比较傻眼了,有时候也会埋怨客户的服务器不好使. 至于Inner Join的三 ...
Hadoop（六）MapReduce的入门与运行原理
一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架: Mapreduce核心功能是将用 ...
大数据技术之Hadoop（MapReduce）
第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想 ...
java大数据最全课程学习笔记(6)--MapReduce精通(二)--MapReduce框架原理
目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录 MapReduce精通(二) MapReduce框架原理 MapReduce工作流程 InputFormat数据 ...
Hadoop - MapReduce学习笔记（详细）
第1章 MapReduce概述定义:是一个分布式运算程序的编程框架优缺点:易于编程.良好的扩展性.高容错性.适合PB级以上数据的离线处理核心思想:MapReduce 编程模型只能包含一个Map ...
MapReduce多种join实现实例分析（二）
上一篇<MapReduce多种join实现实例分析(一)>,大家可以点击回顾该篇文章.本文是MapReduce系列第二篇. 一.在Map端进行连接使用场景:一张表十分小.一张表很大.用法: ...

随机推荐

Spring Security：Servlet 过滤器（三）
3)Servlet 过滤器 Spring Security 过滤器链是一个非常复杂且灵活的引擎.Spring Security 的 Servlet 支持基于 Servlet 过滤器,因此通常首先了解过 ...
连续子序列的最大和牛客网剑指Offer
连续子序列的最大和牛客网剑指Offer 题目描述 HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学.今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量 ...
无判断max 牛客网程序员面试金典 C++ Python
无判断max 牛客网程序员面试金典 C++ Python 题目描述请编写一个方法,找出两个数字中最大的那个.条件是不得使用if-else等比较和判断运算符. 给定两个int a和b,请返回较大的 ...
hdu 2571 命运（水DP）
题意: M*N的grid,每个格上有一个整数. 小明从左上角(1,1)打算走到右下角(M,N). 每次可以向下走一格,或向右走一格,或向右走到当前所在列的倍数的列的位置上.即:若当前位置是(i,j), ...
python中将xmind转成excel
需求:最近公司项目使用tapd进行管理,现在遇到的一个难题就是,使用固定的模板编写测试用例,使用excel导入tapd进行测试用例管理,觉得太过麻烦,本人一直喜欢使用导图来写测试用例,故产生了这个工具 ...
prometheus（1）之核心概念
个人理解:prometheus核心在于 1.prom数据类型的理解 (4钟数据类型与常用的promQL语法其实很容易) 2.各种服务发现与正则拼接(服务发现的拼接其实官方定义好的理解就行) 3. ...
在 macOS 上运行无限许可的 Nessus 10
请访问原文链接:https://sysin.org/blog/nessus-unlimited-on-macos/,查看最新版.原创作品,转载请保留出处. 作者:gc(at)sysin.org,主页: ...
Python学习周总结（二）
Python-SecondWeek知识汇总本周学了好多内容,最头痛的地方还是自己的思维逻辑不过关,还是敲的代码比较少,一个员工管理系统,第一天写搞得头大 ,结果第三遍自己突然懂了,个人的努力才是自己 ...
python-文件操作（一）
目录文件操作 1.什么是文件? 2.操作文件的方法: 3.路径分类: 4.如何取消特殊字符的功能: 5.对文件的操作有:读.写.追加内容 6.with上下文管理 7.文件操作方法详细: 1.r-读操 ...
nrf52832蓝牙开发踩过的坑
接触nrf52832芯片已经有一段时间了,记录我踩过的坑.这些坑大多都补回来了,愿后来的开发者没有坑~ 先来点开胃小菜一.环境问题安装离线包遇到的错误--svdconv exited with a ...

MapReduce07 Join多种应用

1 Join多种应用

1.1 Reduce Join

1.2 Reduce Join实例实操

需求

需求分析

Map数据处理

Reduce端合并(数据倾斜)

代码实现

JoinBean类

JoinMap

JoinReduce

执行结果

总结

1.3 Map Join

1.4 Map Join案例实操

需求分析

代码实现

MapJoinDrive

MapJoinMapper

MapReduce07 Join多种应用的更多相关文章

随机推荐

热门专题