左外链接(leftOuterJoin) spark实现

package com.kangaroo.studio.algorithms.join;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFlatMapFunction;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2; import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set; public class LeftOuterJoinSpark { private JavaSparkContext jsc;
private String usersInputFile;
private String transactionsInputFile; public LeftOuterJoinSpark(String usersInputFile, String transactionsInputFile) {
this.jsc = new JavaSparkContext();
this.usersInputFile = usersInputFile;
this.transactionsInputFile = transactionsInputFile;
} public void run() {
/*
* 读入users文件, 文件有两列, userId和location, 以制表符\t分割, 形如:
* u1 UT
* u2 GA
* u3 GA
* */
JavaRDD<String> users = jsc.textFile(usersInputFile, 1); /*
* 将字符串切分为kv对
* 输入: line字符串
* 输出: (userId, ("L", location)), 其中L标识这是一个location, 后面会有"P"标识这是一个product
* ("u1", ("L", "UT"))
* ("u2", ("L", "GA"))
* ("u3", ("L", "GA"))
* */
JavaPairRDD<String, Tuple2<String, String>> usersRDD = users.mapToPair(new PairFunction<String, String, Tuple2<String, String>>() {
public Tuple2<String, Tuple2<String, String>> call(String s) throws Exception {
String[] userRecord = s.split("\t");
String userId = userRecord[0];
Tuple2<String, String> location = new Tuple2<String, String>("L", userRecord[1]);
return new Tuple2<String, Tuple2<String, String>>(userId, location);
}
}); /*
* 读入transattion文件, 文件有4列, transactionIdproductId/userId/price, 以制表符\t分割
* t1 p3 u1 300
* t2 p1 u2 400
* t3 p1 u3 200
* */
JavaRDD<String> transactions = jsc.textFile(transactionsInputFile, 1); /*
* 将字符串切分为kv对
* 输入: line字符串
* 输出: (userId, ("P", productId)), "P"标识这是一个product
* ("u1", ("P", "p3"))
* ("u2", ("P", "p1"))
* ("u3", ("P", "p1"))
* */
JavaPairRDD<String, Tuple2<String, String>> transactionsRDD = transactions.mapToPair(new PairFunction<String, String, Tuple2<String, String>>() {
public Tuple2<String, Tuple2<String, String>> call(String s) throws Exception {
String[] transactionRecord = s.split("\t");
String userId = transactionRecord[2];
Tuple2<String, String> product = new Tuple2<String, String>("P", transactionRecord[1]);
return new Tuple2<String, Tuple2<String, String>>(userId, product);
}
}); /*
* 创建users和transaction的一个并集
* 输入:
* transaction ("u1", ("P", "p3"))
* users ("u1", ("L", "UT"))
* 输出:
* (userId, ("L", location))
* (userId, ("P", product))
* */
JavaPairRDD<String, Tuple2<String, String>> allRDD = transactionsRDD.union(usersRDD); /*
* 按照userId进行分组
* 输入:
* (userId, ("L", location))
* (userId, ("P", product))
* 输出:
* (userId, List[
* ("L", location),
* ("P", p1),
* ("P", p2),
* ... ])
* */
JavaPairRDD<String, Iterable<Tuple2<String, String>>> groupedRDD = allRDD.groupByKey(); /*
* 去掉userId, 行程location和product的配对
* 输入:
* (userId, List[
* ("L", location),
* ("P", p1),
* ("P", p2),
* ... ])
* 输出:
* (product1, location1)
* (product1, location2)
* (product2, location1)
* */
JavaPairRDD<String, String> productLocationRDD = groupedRDD.flatMapToPair(new PairFlatMapFunction<Tuple2<String, Iterable<Tuple2<String, String>>>, String, String>() {
public Iterable<Tuple2<String, String>> call(Tuple2<String, Iterable<Tuple2<String, String>>> s) throws Exception {
String userId = s._1;
Iterable<Tuple2<String, String>> pairs = s._2;
String location = "UNKNOWN";
List<String> products = new ArrayList<String>();
for (Tuple2<String, String> t2 : pairs) {
if (t2._1.equals("L")) {
location = t2._2;
} else if (t2._1.equals("P")){
products.add(t2._2);
}
}
List<Tuple2<String, String>> kvList = new ArrayList<Tuple2<String, String>>();
for (String product : products) {
kvList.add(new Tuple2<String, String>(product, location));
}
return kvList;
}
}); /*
* 以productId为key进行分组
* 输入:
* (product1, location1)
* (product1, location2)
* (product2, location1)
* 输出:
* (product1, List[
* location1,
* location2,
* ... ])
* */
JavaPairRDD<String, Iterable<String>> productByLocations = productLocationRDD.groupByKey(); /*
* 对location进行去重
* 输出:
* (product1, List[
* location1,
* location2,
* location2,
* ... ])
* 输出:
* (product1, List[
* location1,
* location2,
* ... ])
* */
JavaPairRDD<String, Tuple2<Set<String>, Integer>> productByUniqueLocations = productByLocations.mapValues(new Function<Iterable<String>, Tuple2<Set<String>, Integer>>() {
public Tuple2<Set<String>, Integer> call(Iterable<String> strings) throws Exception {
Set<String> uniqueLocations = new HashSet<String>();
for (String location : strings) {
uniqueLocations.add(location);
}
return new Tuple2<Set<String>, Integer>(uniqueLocations, uniqueLocations.size());
}
}); /*
* 打印结果
* */
List<Tuple2<String, Tuple2<Set<String>, Integer>>> result = productByUniqueLocations.collect();
for (Tuple2<String, Tuple2<Set<String>, Integer>> t : result) {
// productId
System.out.println(t._1);
// locationSet和size
System.out.println(t._2);
}
} public static void main(String[] args) {
String usersInputFile = args[0];
String transactionsInputFile = args[1];
LeftOuterJoinSpark leftOuterJoinSpark = new LeftOuterJoinSpark(usersInputFile, transactionsInputFile);
leftOuterJoinSpark.run();
}
}

大数据算法设计模式(2) - 左外链接(leftOuterJoin) spark实现的更多相关文章

  1. 大数据算法设计模式(1) - topN spark实现

    topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPai ...

  2. 大数据算法->推荐系统常用算法之基于内容的推荐系统算法

    港真,自己一直非常希望做算法工程师,所以自己现在开始对现在常用的大数据算法进行不断地学习,今天了解到的算法,就是我们生活中无处不在的推荐系统算法. 其实,向别人推荐商品是一个很常见的现象,比如我用了一 ...

  3. 滴滴大数据算法大赛Di-Tech2016参赛总结

    https://www.jianshu.com/p/4140be00d4e3 题目描述 建模方法 特征工程 我的几次提升方法 从其他队伍那里学习到的提升方法 总结和感想 神经网络方法的一点思考 大数据 ...

  4. MySQL☞左外链接与右外连接

    外链接查询:即要查询有关联关系的数据,还要查询没有关联关系的数据.(个人理解为:表A和表B两个关联的列中)如下图: emmm,简单的来说两个表的关联关系:book.bid=bookshop.id,他们 ...

  5. sql 三表左外链接的2种写法【原】

    初始化语句 DROP TABLE student; ) )); ','bobo'); ','sisi'); ','gugu'); ','mimi'); DROP TABLE room; ) ),roo ...

  6. 大数据与可靠性会碰撞出什么样的Spark?

    可靠性工程领域的可靠性评估,可靠性仿真计算,健康检测与预管理(PHM)技术,可靠性试验,都需要大规模数据来进行支撑才能产生好的效果,以往这些数据都是不全并且收集困难,而随着互联网+的大数据时代的来临, ...

  7. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

  8. 一文看懂大数据的技术生态Hadoop, hive,spark都有了[转]

    大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可 ...

  9. 浅析大数据的技术生态圈(Hadoop,hive,spark)

    大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可 ...

随机推荐

  1. PHP初入--表单元素

    <!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...

  2. [转载]C header files matching your running 

    原文地址:C header files matching your running kernel were not found.作者:[Opser]小默 c header files matching ...

  3. 团队作业3——需求改进&系统设计

    Deadline: 2017-4-21 22:00PM,以博客发表日期为准 评分基准: 按时交 - 有分,检查的项目包括后文的四个方面 需求&原型改进 系统设计 Alpha任务分配计划 测试计 ...

  4. JAVA基础第三组(5道题)

    11 [程序11] 题目:有1.2.3.4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? 1.程序分析:可填在百位.十位.个位的数字都是1.2.3.4.组成所有的排列后再去 掉不满足条件 ...

  5. 201521123055 《Java程序设计》第8周学习总结

    1. 本章学习总结 2. 书面作业 Q1.List中指定元素的删除(题目4-1) public static List<String> convertStringToList(String ...

  6. 201521123099 《Java程序设计》第3周学习总结

    1. 本周学习总结 2. 书面作业 1.代码阅读 public class Test1 { private int i = 1;//这行不能修改 private static int j = 2; p ...

  7. 201521123011 《Java程序设计》第1周学习总结

    1. 本章学习总结 通过这章的学习让我初步认识了Java,认识到了java和之前c语言的异同点. 对java是面向对象的这句话有了一定了解 认识了jdk,jre,jvm的区别. 2.书面作业 1.为什 ...

  8. 201521123012 《Java程序设计》第十周学习总结

    1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 2. 书面作业 1.本次PTA作业题集异常.多线程 finally 题目4-2 1.1 截图你的提交结果(出 ...

  9. java使用POI操作XWPFDocument 生成Word实战(一)

    注:我使用的word 2016功能简介:(1)使用jsoup解析html得到我用来生成word的文本(这个你们可以忽略)(2)生成word.设置页边距.设置页脚(页码),设置页码(文本) 一.解析ht ...

  10. 关于linux下的文件权限

    在ls指令加 -l 参数能看到文件权限 就像这样: drwxrwxr-x 2 asml users 4096 Jul 24 02:45 desktop 第一个d表示这是个目录,若为"-&qu ...