一、Mapjoin案例

  1.需求:有两个文件,分别是订单表、商品表,

  订单表有三个属性分别为订单时间、商品id、订单id(表示内容量大的表),

  商品表有两个属性分别为商品id、商品名称(表示内容量小的表,用于加载到内存),

  要求结果文件为在订单表中的每一行最后添加商品id对应的商品名称。

  2.解决思路:

  将商品表加载到内存中,然后再map方法中将订单表中的商品id对应的商品名称添加到该行的最后,不需要Reducer,并在Driver执行类中设置setCacheFile和numReduceTask。

  3.代码如下:

public class CacheMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

	HashMap<String, String> pdMap = new HashMap<>();
//1.商品表加载到内存
protected void setup(Context context) throws IOException { //加载缓存文件
BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("pd.txt"), "Utf-8")); String line; while(StringUtils.isNotEmpty(line = br.readLine()) ) { //切分
String[] fields = line.split("\t"); //缓存
pdMap.put(fields[0], fields[1]); } br.close(); } //2.map传输
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)
throws IOException, InterruptedException {
//获取数据
String line = value.toString(); //切割
String[] fields = line.split("\t"); //获取订单中商品id
String pid = fields[1]; //根据订单商品id获取商品名
String pName = pdMap.get(pid); //拼接数据
line = line + "\t" + pName; //输出
context.write(new Text(line), NullWritable.get());
}
} public class CacheDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException {
// 1.获取job信息
Configuration conf = new Configuration();
Job job = Job.getInstance(conf); // 2.获取jar包
job.setJarByClass(CacheDriver.class); // 3.获取自定义的mapper与reducer类
job.setMapperClass(CacheMapper.class); // 5.设置reduce输出的数据类型(最终的数据类型)
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class); // 6.设置输入存在的路径与处理后的结果路径
FileInputFormat.setInputPaths(job, new Path("c://table1029//in"));
FileOutputFormat.setOutputPath(job, new Path("c://table1029//out")); //加载缓存商品数据
job.addCacheFile(new URI("file:///c:/inputcache/pd.txt")); //设置一下reducetask的数量
job.setNumReduceTasks(0); // 7.提交任务
boolean rs = job.waitForCompletion(true);
System.out.println(rs ? 0 : 1);
}
}

  

二、Reducejoin案例

  1.需求:同上的两个数据文件,要求将订单表中的商品id替换成对应的商品名称。

  2.解决思路:封装TableBean类,包含属性:时间、商品id、订单id、商品名称、flag(flag用来判断是哪张表),

    使用Mapper读两张表,通过context对象获取切片对象,然后通过切片获取切片名称和路径的字符串来判断是哪张表,再将切片的数据封装到TableBean对象,最后以产品id为key、TableBean对象为value传输到Reducer端;

    Reducer接收数据后通过flag判断是哪张表,因为一个reduce中的所有数据的key是相同的,将商品表的商品id和商品名称读入到一个TableBean对象中,然后将订单表的中的数据读入到TableBean类型的ArrayList对象中,然后将ArrayList中的每个TableBean的商品id替换为商品名称,然后遍历该数组以TableBean为key输出。

  3.代码如下:

/**
* @author: PrincessHug
* @date: 2019/3/30, 2:37
* @Blog: https://www.cnblogs.com/HelloBigTable/
*/
public class TableBean implements Writable {
private String timeStamp;
private String productId;
private String orderId;
private String productName;
private String flag; public TableBean() {
} public String getTimeStamp() {
return timeStamp;
} public void setTimeStamp(String timeStamp) {
this.timeStamp = timeStamp;
} public String getProductId() {
return productId;
} public void setProductId(String productId) {
this.productId = productId;
} public String getOrderId() {
return orderId;
} public void setOrderId(String orderId) {
this.orderId = orderId;
} public String getProductName() {
return productName;
} public void setProductName(String productName) {
this.productName = productName;
} public String getFlag() {
return flag;
} public void setFlag(String flag) {
this.flag = flag;
} @Override
public void write(DataOutput out) throws IOException {
out.writeUTF(timeStamp);
out.writeUTF(productId);
out.writeUTF(orderId);
out.writeUTF(productName);
out.writeUTF(flag);
} @Override
public void readFields(DataInput in) throws IOException {
timeStamp = in.readUTF();
productId = in.readUTF();
orderId = in.readUTF();
productName = in.readUTF();
flag = in.readUTF();
} @Override
public String toString() {
return timeStamp + "\t" + productName + "\t" + orderId;
}
} public class TableMapper extends Mapper<LongWritable, Text,Text,TableBean> {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//通过切片获取文件信息
FileSplit split = (FileSplit) context.getInputSplit();
String name = split.getPath().getName(); //获取一行数据、定义TableBean对象
String line = value.toString();
TableBean tb = new TableBean();
Text t = new Text(); //判断是哪一张表
if (name.contains("order.txt")){
String[] fields = line.split("\t");
tb.setTimeStamp(fields[0]);
tb.setProductId(fields[1]);
tb.setOrderId(fields[2]);
tb.setProductName("");
tb.setFlag("0");
t.set(fields[1]);
}else {
String[] fields = line.split("\t");
tb.setTimeStamp("");
tb.setProductId(fields[0]);
tb.setOrderId("");
tb.setProductName(fields[1]);
tb.setFlag("1");
t.set(fields[0]);
}
context.write(t,tb);
}
} public class TableReducer extends Reducer<Text,TableBean,TableBean, NullWritable> {
@Override
protected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException {
//分别创建用来存储订单表和产品表的集合
ArrayList<TableBean> orderBean = new ArrayList<>();
TableBean productBean = new TableBean(); //遍历values,通过flag判断是产品表还是订单表
for (TableBean v:values){
if (v.getFlag().equals("0")){
TableBean tableBean = new TableBean();
try {
BeanUtils.copyProperties(tableBean,v);
} catch (IllegalAccessException e) {
e.printStackTrace();
} catch (InvocationTargetException e) {
e.printStackTrace();
}
orderBean.add(tableBean);
}else {
try {
BeanUtils.copyProperties(productBean,v);
} catch (IllegalAccessException e) {
e.printStackTrace();
} catch (InvocationTargetException e) {
e.printStackTrace();
}
}
}
//拼接表
for (TableBean ob:orderBean) {
ob.setProductName(productBean.getProductName());
context.write(ob,NullWritable.get());
}
}
} public class TableDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
//job信息
Configuration conf = new Configuration();
Job job = Job.getInstance(conf); //jar包
job.setJarByClass(TableDriver.class); //Mapper、Reducer
job.setMapperClass(TableMapper.class);
job.setReducerClass(TableReducer.class); //Mapper输出数据类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(TableBean.class); //Reducer输出数据类型
job.setOutputKeyClass(TableBean.class);
job.setOutputValueClass(NullWritable.class); //输入输出路径
FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\reducejoin\\in"));
FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\reducejoin\\out")); //提交任务
if (job.waitForCompletion(true)){
System.out.println("运行完成!");
}else {
System.out.println("运行失败!");
}
}
}

  

Mapjoin和Reducejoin案例的更多相关文章

  1. mapjoin与reducejoin

    一.mapjoin 1.Mapper类 package com.css.mapjoin; import java.io.BufferedReader; import java.io.FileInput ...

  2. 使用MapReduce实现join操作

     在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现join操作,可以通过HiveQL很方便地实现.不过HiveQL也是转化成 ...

  3. 【大数据】Hive学习笔记

    第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...

  4. MapReduce(四) 典型编程场景(二)

    一.MapJoin-DistributedCache 应用 1.mapreduce join 介绍 在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的.如果两份数据 都比较小,那么可以 ...

  5. 工作中常见的hive语句总结

    hive的启动: 1.启动hadoop2.开启 metastore 在开启 hiveserver2服务nohup hive --service metastore >> log.out 2 ...

  6. 大数据技术之Hive

    第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提 ...

  7. MR案例:Reduce-Join

    问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...

  8. MapReduce之MapJoin案例

    @ 目录 使用场景 优点 具体办法:采用DistributedCache 案例 需求分析 代码实现 使用场景 Map Join 适用于一张表十分小.一张表很大的场景. 优点 思考:在Reduce 端处 ...

  9. MR案例:Map-Join

    适用场景:一张表十分小[key不可重复].一张表非常大. 用法:在Job提交时,首先将小表加载到 DistributedCache 分布式缓存中,然后从DistributeCache中读取小表解析成 ...

随机推荐

  1. 利用 Python_tkinter 完成 2048 游戏

    成品展示 具备基本的数据合并以及分数统计,不同数字的色块不同 产生随机数, 数据无法合并判定以及重新开始选项 同时可以判定游戏失败条件 需求分析 完成基本数据合并算法 游戏结束条件 界面展示 重置按钮 ...

  2. 帝国cms 不能正常显示最新文章

    后台能正常刷新,但前台就是不能正常显示, 把网站从c盘换到d盘,好了,原来是权限的问题

  3. LoadRunner【第三篇】录制脚本实践:订票网站

    启动服务 安装好loadrunner,我们就可以实践了. loadrunner自带订票网站,可以方便我们练习, 先把下面两个发送到桌面快捷方式 首先,启动服务,点击下面图标(如果服务无法启动,检查端口 ...

  4. Oracle jdbc 连接

    所需jar包: ojdbc6.jar 下载地址:https://download.csdn.net/download/xc_oo0/10897959 示例代码: package cnblogs.com ...

  5. nginx启用status状态页

    nginx和php-fpm一样都内建了一个状态页,通过查看状态页信息可以连接到nginx服务负载情况,还可以利用状态页信息配zabbix监控,这里先介绍nginx的status状态页的使用. stau ...

  6. 2019The Preliminary Contest for ICPC China Nanchang National Invitational

    The Preliminary Contest for ICPC China Nanchang National Invitational 题目一览表 考察知识点 I. Max answer 单调栈+ ...

  7. 什么是javabean及其用法(转)

    因工作需要 需要学习jsp方面的知识 这篇博客文章写得比较全面 我记录下: 一.什么是JavaBean JavaBean是一个遵循特定写法的Java类,它通常具有如下特点: 这个Java类必须具有一个 ...

  8. uImage

    linux内核经过编译后会生成一个ELF格式的可执行程序,叫vmlinux或vmlinuz,是原始的未经任何处理加工的原版内核ELF文件:嵌入式系统烧录的一般不是这个vmlinuz/vmlinux,而 ...

  9. 2017-12-19python全栈9期第四天第二节之列表的增删查改之按索引改和按切片改

    #!/user/bin/python# -*- coding:utf-8 -*-li = ['zs','ls','ww','zl','xx']li[0] = 'cxvb' #按索引位置print(li ...

  10. 五十、进程间通信——System V IPC 之共享内存

    50.1 共享内存 50.1.1 共享内存的概念 共享内存区域是被多个进程共享的一部分物理内存 多个进程都可把该共享内存映射到自己的虚拟内存空间.所有用户空间的进程若要操作共享内存,都要将其映射到自己 ...