Spark GraphX图计算简单案例【代码实现，源码分析】

一.简介

　　参考：https://www.cnblogs.com/yszd/p/10186556.html

二.代码实现　　

 package big.data.analyse.graphx

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.graphx._

 import org.apache.spark.rdd.RDD

 import org.apache.spark.sql.SparkSession

 class VertexProperty()

 case class UserProperty(val name: String) extends VertexProperty

 case class ProductProperty(val name: String, val price: Double) extends VertexProperty

 /*class Graph[VD, ED]{

   val vertices: VertexRDD[VD]

   val edges: EdgeRDD[ED]

 }*/

 /**

   * Created by zhen on 2019/10/4.

   */

 object GraphXTest {

   /**

     * 设置日志级别

     */

   Logger.getLogger("org").setLevel(Level.WARN)

   def main(args: Array[String]) {

     val spark = SparkSession.builder().appName("GraphXTest").master("local[2]").getOrCreate()

     val sc = spark.sparkContext

     /**

       * 创建vertices的RDD

       */

     val users : RDD[(VertexId, (String, String))] = sc.parallelize(

       Array((3L, ("Spark", "GraphX")), (7L, ("Hadoop", "Java")),

             (5L, ("HBase", "Mysql")), (2L, ("Hive", "Mysql"))))

     /**

       * 创建edges的RDD

       */

     val relationships: RDD[Edge[String]] = sc.parallelize(

       Array(Edge(3L, 7L, "Fast"), Edge(5L, 3L, "Relation"),

       Edge(2L, 5L, "colleague"), Edge(5L, 7L, "colleague")))

     /**

       * 定义默认用户

       */

     val defualtUser = ("Machical", "Missing")

     /**

       * 构建初始化图

       */

     val graph = Graph(users, relationships, defualtUser)

     /**

       * 使用三元组视图呈现顶点之间关系

       */

     val facts : RDD[String] = graph.triplets.map(triplet =>

       triplet.srcAttr._1 + " is the " + triplet.attr + " with " + triplet.dstAttr._1)

     facts.collect().foreach(println)

     graph.vertices.foreach(println) //顶点

     graph.edges.foreach(println) //边

     graph.ops.degrees.foreach(println) // 各顶点的度

     graph.triplets.foreach(println) // 顶点，边，关系

     println(graph.ops.numEdges) // 边的数量

     println(graph.ops.numVertices) // 顶点的数量

   }

 }

三.结果

　　1.三元组视图

　　2.顶点

　　3.边

　　4.各顶点的度

　　5.三元组视图

　　6.边/顶点数量

四.源码分析

 class Graph[VD, ED] {

    // Information about the Graph

 　　val numEdges: Long

 　　val numVertices:Long

 　　val inDegrees: VertexRDD[Int]

 　　val outDegrees: VertexRDD[Int]

 　　val degrees: VertexRDD[Int]

 　　

    // Views of the graph as collections

 　　val vertices: VertexRDD[VD]

 　　val edges: EdgeRDD[ED]

 　　val triplets: RDD[EdgeTriplet[VD,ED]]

 　

  　//Functions for caching graphs

 　　def persist(newLevel1:StorageLevel = StorageLevel.MEMORY_ONLY): Graph[VD, ED]//默认存储级别为MEMORY_ONLY

 　　def cache(): Graph[VD, ED]

 　　def unpersistVertices(blocking: Boolean = true): Graph[VD, ED]

 　　// Change the partitioning heuristic

 　　def partitionBy(partitionStrategy: PartitionStrategy)

 　　// Transform vertex and edge attributes

 　　def mapVertices[VD2](map: (VertexId, VD) => VD2): Graph[VD2, ED]

 　　def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2]

 　　def mapEdges[ED2](map: (PartitionID, Iterator[Edge[ED]]) => Iterator[ED2]): Graph[VD, ED2]

 　　def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2]

 　　def mapTriplets[ED2](map: (PartitionID, Iterator[EdgeTriplet[VD, ED]]) => Iterator[ED2]): Graph[VD, ED2]

 　　// Modify the graph structure

 　　def reverse: Graph[VD, ED]

 　　def subgraph(epred: EdgeTriplet[VD,ED] => Boolean,vpred: (VertexId, VD) => Boolean): Graph[VD, ED]

 　　def mask[VD2, ED2](other: Graph[VD2, ED2]): Graph[VD, ED] // 返回当前图和其它图的公共子图

 　　def groupEdges(merge: (ED, ED) => ED): Graph[VD,ED]

 　　// Join RDDs with the graph　　

 　　def joinVertices[U](table: RDD[(VertexId, U)])(mapFunc: (VertexId, VD, U) => VD): Graph[VD, ED]

 　　def outerJoinVertices[U, VD2](other: RDD[(VertexId, U)])(mapFunc: (VertexId, VD, Option[U]))

 　　

 　　// Aggregate information about adjacent triplets

 　　def collectNeighborIds(edgeDirection: EdgeDirection): VertexRDD[Array[VertexId]]

 　　def collectNeighbors(edgeDirection: EdgeDirection): VertexRDD[Array[(VertexId, VD)]]

 　　def aggregateMessages[Msg: ClassTag](sendMsg: EdgeContext[VD, ED, Msg] => Unit, merageMsg: (Msg, Msg) => Msg, tripletFields: TripletFields: TripletFields = TripletFields.All): VertexRDD[A]

 　　

 　　//Iterative graph-parallel computation

 　　def pregel[A](initialMsg: A, maxIterations: Int, activeDirection: EdgeDiection)(vprog: (VertexId, VD, A) => VD, sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)], mergeMsg: (A, A) => A): Graph[VD, ED]

 　　

 　　// Basic graph algorithms

 　　def pageRank(tol: Double, resetProb: Double = 0.15): Graph[Double, Double]

 　　def connectedComponents(): Graph[VertexId, ED]

 　　def triangleCount(): Graph[Int, ED]

 　　def stronglyConnectedComponents(numIter: Int): Graph[VertexId, ED]

 }

Spark GraphX图计算简单案例【代码实现，源码分析】的更多相关文章

Spark GraphX图计算核心源码分析【图构建器、顶点、边】
一.图构建器 GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法.默认情况下,没有图构建器会重新划分图的边:相反,边保留在默认分区中.Graph.groupEdges要求对图进行重新 ...
Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...
5.Spark Streaming流计算框架的运行流程源码分析2
1 spark streaming 程序代码实例代码如下: object OnlineTheTop3ItemForEachCategory2DB { def main(args: Array[Str ...
仿爱奇艺视频，腾讯视频，搜狐视频首页推荐位轮播图（二）之SuperIndicator源码分析
转载请把头部出处链接和尾部二维码一起转载,本文出自逆流的鱼:http://blog.csdn.net/hejjunlin/article/details/52510431 背景:仿爱奇艺视频,腾讯视频 ...
Spark大师之路：广播变量（Broadcast）源码分析
概述最近工作上忙死了……广播变量这一块其实早就看过了,一直没有贴出来. 本文基于Spark 1.0源码分析,主要探讨广播变量的初始化.创建.读取以及清除. 类关系 BroadcastManager类 ...
史上最简单的的HashTable源码分析
HashTable源码分析 1.前言 Hashtable 一个元老级的集合类,早在 JDK 1.0 就诞生了 1.1.摘要在集合系列的第一章,咱们了解到,Map 的实现类有 HashMap.Link ...
65、Spark Streaming：数据接收原理剖析与源码分析
一.数据接收原理二.源码分析入口包org.apache.spark.streaming.receiver下ReceiverSupervisorImpl类的onStart()方法 ### overr ...
struts2 paramsPrepareParamsStack拦截器简化代码（源码分析）
目录一.在讲 paramsPrepareParamsStack 之前,先看一个增删改查的例子. 1. Dao.java准备数据和提供增删改查 2. Employee.java 为model 3. E ...
Spark GraphX图计算核心算子实战【AggreagteMessage】
一.简介参考博客:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 package graphx import org.apache.log4j ...

随机推荐

shell的变量以及常见符号
shell的变量以及常见符号常见变量不同于其它语言需要先声明变量,shell的变量直接使用 eg: a=15 调用变量的话 $a 或者 ${a} $? #判断上一条命令执行的是否成功 0 ...
java 类的继承
package testpacknm; import java.util.Scanner; import testpacknm.testcnm; class Another { String name ...
ASP.NET开发实战——（四）ASP.NET MVC是如何运行的？它的生命周期是什么？
前面的文章我们使用ASP.NET MVC创建了个博客应用,那么它是如何工作的呢?我们都知道ASP.NET的程序需要部署到IIS上才能够通过浏览器来访问,那么IIS与ASP.NET MVC程序之间又是如 ...
【2019.7.15 NOIP模拟赛 T1】夹缝（mirror）（思维题）
思维题此题应该是比较偏思维的. 假设一次反射后前进的距离是$2^x(2y+1)$,则显然,它可以看做是前进距离为$2^x$的光线经过了$(2y+1)$次反射,两者是等价的,甚至后者可能还 ...
MySQL实战45讲学习笔记：第十六讲
一.今日内容概要在你开发应用的时候,一定会经常碰到需要根据指定的字段排序来显示结果的需求.还是以我们前面举例用过的市民表为例,假设你要查询城市是“杭州”的所有人名字,并且按照姓名排序返回前 1000 ...
Vue插槽详解 | 什么是插槽？
作者 | Jeskson 来源 | 达达前端小酒馆什么是插槽?插槽的指令为v-slot,它目前取代了slot和slot-scope,插槽内容,vue实例一套内容分发的api,将slot元素作为承载分 ...
第04组 Alpha冲刺（1/6）
队名:new game 组长博客:戳作业博客:戳组员情况鲍子涵(队长) 过去一段时间对项目的精度和分工进行了更加细致的划分,并初步进行了GamePlay逻辑部分的框架设计 GitHub签入记录: ...
idea插件篇之java内存分析工具(JProfiler)
前言在运行java的时候有时候想测试云运行时占用内存情况,这时候就需要使用测试工具查看了.在eclipse里面有 Eclipse Memory Analyzer tool(MAT)插件可以测试,而在i ...
oracle--sqlplus格式化输出
01,日期格式化输出 SQL> alter session set NLS_DATE_FORMAT='YYYY-MM-DD HH24:mi:ss'; SQL> select sysdate ...
Java并发之原子操作类汇总
当程序更新一个变量时,如果是多线程同时更新这个变量,可能得到的结果与期望值不同.比如:有一个变量i,A线程执行i+1,B线程也执行i+1,经过两个线程的操作后,变量i的值可能不是期望的3,而是2.这是 ...

Spark GraphX图计算简单案例【代码实现，源码分析】

一.简介

二.代码实现

三.结果

四.源码分析

Spark GraphX图计算简单案例【代码实现，源码分析】的更多相关文章

随机推荐

热门专题

二.代码实现