Spark 计算人员三度关系

1、一度人脉：双方直接是好友

2、二度人脉：双方有一个以上共同的好友，这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是： 你->朋友->陌生人

3、三度人脉：即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你->朋友->朋友->陌生人

4、四度人脉：比三度增加一度，你们的关系是，你->朋友->朋友->朋友->陌生人

5、五度人脉：你->朋友->朋友->朋友->朋友->陌生人 ，像上面这张图片表示的就是一个五度人脉关系。

6、六度人脉：你->朋友->朋友->朋友->朋友->朋友->陌生人

数据格式如下：

A,B

A,C

A,E

B,D

E,D

C,F

F,G

业务逻辑如下：

1、转化操作flatMapToPair将行数据变为键值对，如A，B表示A和B认识，A可以通过B认识B的朋友，B通过A可以认识A的朋友，转化结果为｛A：A，B，deg1friend，A->B｝、｛B：B，A，deg1friend，B->A｝；

2、转化操作groupByKey对键值对按Key进行分组，转化结果为：｛A，【A，B ，deg1friend，A->B，A，E ，deg1friend，A->E， A，C，deg1friend，A->C 】｝...；

3、转化操作flatMapToPair生成包含可能存在（A->B,A->C两者走向B和C不相同，但都认识A，B和C即存在可能）二度关系的新的键值对，如A和B认识且A与C认识，那么B与C可以存在认识关系即二度关系，路线走向为：B->A->C或C->A->B；

4、转化操作filter在新的键值对中筛选出一度关系即两者已经是认识的，如A和B认识是一度关系；

5、转化操作subtractByKey对包含二度关系的键值对删除存在一度关系的人员及只剩二度关系；

6、转化操作flatMapToPair生成新的二度关系及走向（双向走向【B，C，deg2friend，C->A->B，B，C，deg2friend，B->A->C】）；

7，将新的二度关系与一度关系进行合并；

8、转化操作groupByKey对键值对按Key进行分组，转化结果为：（B，【B，A，deg1friend，B->A， B，D，deg1friend，B->D， B，C，deg2friend，C->A->B， B，E，deg2friend，B->A->E， B，E，deg2friend，B->D->E， B，E，deg2friend，E->A->B， B，E，deg2friend，E->D->B， B，C，deg2friend，B->A->C 】）...；

9、转化操作flatMapToPair生成包含可能存在（如：B->C，deg2friend，C->A->B ， B->D，deg1friend，B->D ，判断条件前为deg2friend，后为 deg1friend，前split【0】= 后split【0】，后的起点不在前的路径内）三度关系的新的键值对；

10、转化操作subtractByKey对包含三度关系的键值对删除存在一度关系的人员；

11、行为操作countByKey统计存在三度关系的比重；

具有实现：

package com.test;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.regex.Pattern;

import org.apache.commons.lang3.StringUtils;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.MapFunction;

import org.apache.spark.api.java.function.PairFlatMapFunction;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.storage.StorageLevel;

import scala.Tuple2;

public class Test2 {

	public static void main(String[] args) {

		SparkConf conf = new SparkConf().setMaster("local").setAppName("My Test APP");

		JavaSparkContext sc = new JavaSparkContext(conf);

		JavaRDD<String> rdd = sc.textFile("C:/rmgx.txt");

		JavaPairRDD<String, String> r1 = rdd.flatMapToPair(new PairFlatMapFunction<String,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(String t)

					throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				String[] eachterm = t.split(",");

				list.add(new Tuple2(eachterm[0], eachterm[0] + "," + eachterm[1] + "," + "deg1friend"+ "," + eachterm[0] + "->" + eachterm[1]));

				list.add(new Tuple2(eachterm[1], eachterm[1] + "," + eachterm[0] + "," + "deg1friend"+ "," + eachterm[1] + "->" + eachterm[0]));

				return list.iterator();

			}

		});

		r1.persist(StorageLevel.DISK_ONLY());

		JavaPairRDD<String, Iterable<String>> r2 = r1.groupByKey();

		JavaPairRDD<String, String> r3 = r2.flatMapToPair(new PairFlatMapFunction<Tuple2<String,Iterable<String>>,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(

					Tuple2<String, Iterable<String>> t) throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				for (Iterator iter = t._2.iterator(); iter.hasNext();) {

				     String str1 = (String)iter.next();

				     String str1_0 = str1.split(",")[0];

				     String str1_1 = str1.split(",")[1];

				     list.add(new Tuple2(str1_0+ "->" + str1_1,"deg1friend,"+str1_0+ "->" + str1_1));

				     for (Iterator iter2 = t._2.iterator(); iter2.hasNext();) {

				    	 String str2 = (String)iter2.next();

				    	 String str2_0 = str2.split(",")[0];

				    	 String str2_1 = str2.split(",")[1];

					     if(!str1_1.equals(str2_1)){

					    	 list.add(new Tuple2(str1_1+ "->" + str2_1 ,"deg2friend,"+str1_1 + "->" + str2_0 + "->" + str2_1));

					     }

				     }

				}

				return list.iterator();

			}

		});

		JavaPairRDD<String, String> r4 = r3.filter(new Function<Tuple2<String,String>,Boolean>(){

			@Override

			public Boolean call(Tuple2<String, String> v1) throws Exception {

				return v1._2.indexOf("deg1friend")>-1;

			}

		});

		r4.persist(StorageLevel.DISK_ONLY());

		JavaPairRDD<String, String> r5 = r3.subtractByKey(r4);

		JavaPairRDD<String, String> r6 = r5.flatMapToPair(new PairFlatMapFunction<Tuple2<String,String>,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(

					Tuple2<String, String> t) throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				String t0 = t._1.split("->")[0];

				String t1 = t._1.split("->")[1];

				String t2_1 = t._2.split(",")[1];

				list.add(new Tuple2(t0, t0 + "," + t1 + "," + "deg2friend"+ "," +t2_1));

				list.add(new Tuple2(t1, t1 + "," + t0 + "," + "deg2friend"+ "," +t2_1));

				return list.iterator();

			}

		});

		JavaPairRDD<String, String> r7= r1.union(r6);

		JavaPairRDD<String, Iterable<String>> r8 = r7.groupByKey();

		System.out.println("线路走向："+StringUtils.join(r8.collect(), ","));

		JavaPairRDD<String, String> r9 = r8.flatMapToPair(new PairFlatMapFunction<Tuple2<String,Iterable<String>>,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(

					Tuple2<String, Iterable<String>> t) throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				for (Iterator iter = t._2.iterator(); iter.hasNext();) {

				     String str1 = (String)iter.next();

				     String str1_0 = str1.split(",")[0];

				     String str1_1 = str1.split(",")[1];

				     String str1_2 = str1.split(",")[2];

				     String str1_3 = str1.split(",")[3];

				     for (Iterator iter2 = t._2.iterator(); iter2.hasNext();) {

				    	 String str2 = (String)iter2.next();

				    	 String str2_0 = str2.split(",")[0];

					     String str2_1 = str2.split(",")[1];

					     String str2_2 = str2.split(",")[2];

					     String str2_3 = str2.split(",")[3];

					     if(!str1_1.equals(str2_1) && str1_2.equals("deg2friend") && str2_2.equals("deg1friend") && !(str1_3.indexOf(str2_1)>-1) && (str1_3.split("->")[0].equals(str1_1))

					    		 &&str1_0.equals(str2_0)) {

					    	 list.add(new Tuple2(str1_1+ "->" + str2_1 ,"deg3friend,"+str1_3+"->"+str2_1));

					     }

				     }

				}

				return list.iterator();

			}

		});

		JavaPairRDD<String, String> r10 = r9.subtractByKey(r4);

		System.out.println("线路走向："+StringUtils.join(r10.collect(), ","));

		Map<String, Long> r11 = r10.countByKey();

		System.out.println(r11);

	}

}

运行结果如下：

{C->D=2, B->F=1, G->A=1, F->E=1, F->B=1, E->F=1, D->C=2, A->G=1}

Spark 计算人员三度关系的更多相关文章

Spark 计算人员二度关系
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
Hadoop MapReduce实现人员二度关系运算
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
基于Spark GraphX计算二度关系
关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系.目前微博通过二度关系实现了潜在用户的推荐.用户的一度关系包含了关注.好友两种类型,二度关系则得到关注的关注.关注的好友 ...
SparkGraphx计算指定节点的N度关系节点
直接上代码: package horizon.graphx.util import java.security.InvalidParameterException import horizon.gra ...
【Spark深入学习 -13】Spark计算引擎剖析
----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark ...
GraphX实现N度关系
背景本文给出了一个简单的计算图中每一个点的N度关系点集合的算法,也就是N跳关系. 之前通过官方文档学习和理解了一下GraphX的计算接口. N度关系目标: 在N轮里.找到某一个点的N度关系的点集合 ...
DSSM算法-计算文本相似度
转载请注明出处: http://blog.csdn.net/u013074302/article/details/76422551 导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下quer ...
Spark计算模型
[TOC] Spark计算模型 Spark程序模型一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...
python 全栈开发，Day62(外键的变种(三种关系),数据的增删改,单表查询,多表查询)
一.外键的变种(三种关系) 本节重点: 如何找出两张表之间的关系表的三种关系一.介绍因为有foreign key的约束,使得两张表形成了三种了关系: 多对一多对多一对一二.重点理解如果找出 ...

随机推荐

maven整合eclise
-Dmaven.multiModuleProjectDirectory=$M2_HOME
Vux的安装使用
1.Vux的安装 1.1.vue-cli的vux模板生成项目可以直接使用 vue-cli 的模板生成一个 vux 项目 vue init airyland/vux2 projectName 由此可以 ...
果蝇优化算法（FOA）
果蝇优化算法(FOA) 果蝇优化算法(Fruit Fly Optimization Algorithm, FOA)是基于果蝇觅食行为的仿生学原理而提出的一种新兴群体智能优化算法. 果蝇优化算法(FOA ...
Jmeter上传文件、cookie、登录验证
2.11选择http请求 3.0 cookie 域:十九服务器ip或者域名路径就是接口路径登录验证:
【原创】基于phpGrace+uniApp开发之：5.登录界面增加图片验证码
1.目的: 采用phpGrace中的图片验证码,在用户名+密码登录时使用图片验证码进行验证. 2.文档地址: 图片验证码的文档地址:http://www.phpgrace.com/tools/info ...
Jmeter之完整的HTTP接口测试
目前很多接口都是基于HTTP的,所以针对HTTP接口测试的了解很重要,下面就简单说明一下,一个基于Jmeter上HTTP接口测试需要的内容. 一.一个HTTP接口测试需要最基础的内容如下: 简单说明 ...
爬楼梯问题，yield学习总结
问题起源: 一个人爬楼梯,一步可以迈一级,二级,如果楼梯有N级,要求编写程序,求总共有多少种走法. 简单的一个递归思想,只要爬到了N-1层,或者爬到N-2层,则认定下一步只有一种走法.所以再去找寻N- ...
DP---DAG、背包、LIS、LCS
DP是真的难啊,感觉始终不入门路,还是太弱了┭┮﹏┭┮ DAG上的DP 一般而言,题目中如果存在明显的严格偏序关系,并且求依靠此关系的最大/最小值,那么考虑是求DAG上的最短路或者是最长路.(据说 ...
IDEA+java通过SSH来进行分析日志，实现UI自动化动态验证码登录
在我写自动化脚本的时候是要真实发送验证码才能往下进行UI自动化思路:验证码会显示在哪些地方,手机短信?数据库存储?日志? 完整代码如下: package guanyu.tools; import c ...
用jmeter监控服务器资源
jmeter可以监控服务器CPU.内存等性能参数,只需要安装一些插件,比其他方法更简单 1.下载需要的jmeter插件如图上面两个是jmeter插件,可以再下面的链接中下载: https://jm ...

Spark 计算人员三度关系

Spark 计算人员三度关系的更多相关文章

随机推荐

热门专题