7. 图的聚合操作

图的聚合操作主要的方法有：

(1) Graph.mapReduceTriplets()：该方法有一个mapFunc和一个reduceFunc，mapFunc对图中的每一个EdgeTriplet进行处理，生成一个或者多个消息，并且将这些消息发送个Edge的一个或者两个顶点，reduceFunc对发送到每一个顶点上的消息进行合并，生成最终的消息，最后返回一个VertexRDD（不包括没有收到消息的顶点）；

(2) Graph.pregel()：该方法采用BSP模型，包括三个函数vprog、sendMsg和mergeMsg，vprog是运行在每个节点上的顶点更新函数，接收消息，然后对顶点属性更新，sendMsg生成发送给下一次迭代的消息，mergeMsg对同一个顶点接收到的多个消息进行合并，迭代一直进行到收敛，或者达到了设置的最大迭代次数为止。

代码：

    // 聚合操作

    println("*************************************************************")

    println("聚合操作")

    println("*************************************************************")

    println("找出年纪最大的追求者:")

    val oldestFollower:VertexRDD[(String,Int)] = userGraph.mapReduceTriplets[(String,Int)](

      // 将源顶点的属性发送给目标顶点,map过程

      edge => Iterator((edge.dstId,(edge.srcAttr.name,edge.srcAttr.age))),

      // 得到最大追求者,reduce过程

      (a,b) => if(a._2>b._2) a else b

    )

    userGraph.vertices.leftJoin(oldestFollower){(id,user,optOldestFollower) =>

      optOldestFollower match{

        case None => s"${user.name} does not have any followers."

        case Some(oldestAge) => s"The oldest age of ${user.name} \'s followers is ${oldestAge._2}(${oldestAge._1})."

      }

    }.collect.foreach{case(id,str) => println(str)}

    println

    // 找出追求者的平均年龄

    println("找出追求者的平均年龄:")

    val averageAge:VertexRDD[Double] = userGraph.mapReduceTriplets[(Int,Double)](

      // 将源顶点的属性(1,Age)发送给目标顶点,map过程

      edge => Iterator((edge.dstId,(1,edge.srcAttr.age.toDouble))),

      // 得到追求者的数量和总年龄

      (a,b) => ((a._1+b._1),(a._2+b._2))

    ).mapValues((id,p) => p._2/p._1)

    userGraph.vertices.leftJoin(averageAge){(id,user,optAverageAge) =>

      optAverageAge match{

        case None => s"${user.name} does not have any followers."

        case Some(avgAge) => s"The average age of ${user.name} \'s followers is $avgAge."

      }

    }.collect.foreach{case(id,str) => println(str)}

    println

    // 聚合操作2

    println("*************************************************************")

    println("聚合操作2")

    println("*************************************************************")

    println("找出3到各顶点的最短距离:")

    // 定义源点

    val sourceId:VertexId = 3L

    val initialGraph = graph.mapVertices((id,_) => if(id==sourceId) 0.0 else Double.PositiveInfinity)

    val sssp = initialGraph.pregel(Double.PositiveInfinity)(

      (id,dist,newDist) => math.min(dist,newDist),

      // 权重计算

      triplet=>{

        if(triplet.srcAttr + triplet.attr < triplet.dstAttr){

          Iterator((triplet.dstId, triplet.srcAttr+triplet.attr))

        } else{

          Iterator.empty

        }

      },

      // 最短距离

      (a,b) => math.min(a,b)

    )

    println(sssp.vertices.collect.mkString("\n"))

运行结果：

*************************************************************

聚合操作

*************************************************************

找出年纪最大的追求者:

The oldest age of Peter 's followers is 27(Henry).

The oldest age of Kate 's followers is 55(Charlie).

The oldest age of Henry 's followers is 55(Charlie).

The oldest age of Alice 's followers is 32(Peter).

The oldest age of Charlie 's followers is 35(Mike).

Mike does not have any followers.

找出追求者的平均年龄:

The average age of Peter 's followers is 27.0.

The average age of Kate 's followers is 45.0.

The average age of Henry 's followers is 45.0.

The average age of Alice 's followers is 29.5.

The average age of Charlie 's followers is 35.0.

Mike does not have any followers.

*************************************************************

聚合操作2

*************************************************************

找出3到各顶点的最短距离:

(4,9.0)

(6,3.0)

(2,7.0)

(1,10.0)

(3,0.0)

(5,Infinity)

Spark GraphX实例(3)的更多相关文章

Spark GraphX实例(1)
Spark GraphX是一个分布式的图处理框架.社交网络中,用户与用户之间会存在错综复杂的联系,如微信.QQ.微博的用户之间的好友.关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理 ...
Spark GraphX实例(2)
5. 图的转换操作图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图: (2) Graph.mapEdges():对图的边进行转换,返回 ...
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
Spark GraphX图处理编程实例
所构建的图如下: Scala程序代码如下: import org.apache.spark._ import org.apache.spark.graphx._ // To make some of ...
1. Spark GraphX概述
1.1 什么是Spark GraphX Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求.那么什么是图 ...
转载：Spark GraphX详解
1.GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求. ...
Spark GraphX从入门到实战
第1章 Spark GraphX 概述 1.1 什么是 Spark GraphX Spark GraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰 ...
Spark + GraphX + Pregel
Spark+GraphX图 Q:什么是图?图的应用场景 A:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构,表示为二元组:Gragh=(V,E),V\E分别是顶点 ...
Spark—GraphX编程指南
Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)--数据倾斜调优 Spark面试题(六)--Spark资源调 ...

随机推荐

双倍浮向（双倍边距）（只有IE6出现）
声明: web前端学习笔记,欢迎大神指点.联系QQ:1522025433. 描述:在IE6中,一个居左(或居右)浮动的元素放置进一个容器盒(box),并在浮动元素上使用了左边距(或右边距) 在ie6内 ...
python 全栈开发，Day76(Django组件-cookie,session)
昨日内容回顾 1 json 轻量级的数据交换格式在python 序列化方法:json.dumps() 反序列化方法:json.loads() 在JS中: 序列化方法:JSON.stringfy() ...
ERP合同列表页面自动导航（三十二）
合同审核完成页面: <%@ Page Language="C#" AutoEventWireup="true" CodeBehind="CRMC ...
解析Linux下\r\n的问题(回车和换行)
http://www.jb51.net/article/37389.htm 深入解析Linux下\r\n的问题 http://www.ruanyifeng.com/blog/2006/04/post_ ...
asp.net core 微信公众号支付（扫码支付，H5支付，公众号支付，app支付）之3
在微信公众号中访问手机网站,当需要调用支付时候无法使用H5支付,只有使用微信公众号支付,使用公众号支付用户必须关注该公众号同时该公众号必须开通公众号支付功能. 1.获取用户的OpenId ,参考之前写 ...
最短路径问题 HDU3790 （dijkstra）
基础的dijkstra问题加上了花费 #include<bits/stdc++.h> using namespace std; ][][]; ];]; #define INF 9999 ...
mac下配置Apache虚拟域名方案，以及遇到的坑(转)
1. 配置Apache虚拟域名 1.执行 sudo vi /etc/apache2/httpd.conf 开始配置httpd.conf 的文件; //配置listen 80端口(默认配置), ...
poj 3525 半平面交求多边形内切圆最大半径【半平面交】+【二分】
<题目链接> 题目大意:给出一个四面环海的凸多边形岛屿,求出这个岛屿中的点到海的最远距离. 解题分析: 仔细思考就会发现,其实题目其实就是让我们求该凸多边形内内切圆的最大半径是多少.但是, ...
windows server 2003 安全加固（一）
windows server 2003 安全加固加固主要在如下方面 A 升级系统补丁 B NTFS权限合理设置 C 关闭不需要的服务 D 关闭不需要的端口 E 帐号和密码管理 F 开启安全策略 G ...
Cube Stack
Cube Stack 有一点lazy思想,设三个数组cnt代表它以下的有多少个元素(直到栈底),top[x]代表x所在栈的栈顶元素,dad[x]代表x所在栈的栈底元素,先寻找父亲,然后递归更新累加cn ...

Spark GraphX实例(3)

7. 图的聚合操作

Spark GraphX实例(3)的更多相关文章

随机推荐

热门专题