Spark-GraphxAPI学习笔记

图的集合视图

graph包含三个基本的类集合视图：

 val vertices: VertexRDD[VD]

 val edges: EdgeRDD[ED]

 val triplets: RDD[EdgeTriplet[VD, ED]]，即可理解为：RDD(srcId,srcAttr,dstId,dstAttr,attr)

在对graph的某个视图作map/filter操作时，可以使用case表达式来匹配对应的元素，如：graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count

图信息接口

  val numEdges: Long

  val numVertices: Long

  val inDegrees: VertexRDD[Int]

  val outDegrees: VertexRDD[Int]

  val degrees: VertexRDD[Int]

缓存方法

 def persist(newLevel: StorageLevel = StorageLevel.MEMORY_ONLY): Graph[VD, ED]

 def cache(): Graph[VD, ED]

 def unpersistVertices(blocking: Boolean = true): Graph[VD, ED]，当在一个图上频繁修改顶点值而不重用边信息时，可以用此方法对顶点去缓存以提高GC性能

节点与边的变换操作

  def mapVertices[VD2](map: (VertexID, VD) => VD2): Graph[VD2, ED]

  def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2]

  def mapEdges[ED2](map: (PartitionID, Iterator[Edge[ED]]) => Iterator[ED2]): Graph[VD, ED2]

  def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2]

  def mapTriplets[ED2](map: (PartitionID, Iterator[EdgeTriplet[VD, ED]]) => Iterator[ED2])  : Graph[VD, ED2]

修改图结构操作

  def reverse: Graph[VD, ED]

  def subgraph(

      epred: EdgeTriplet[VD,ED] => Boolean = (x => true),

      vpred: (VertexID, VD) => Boolean = ((v, d) => true)) : Graph[VD, ED]，按条件生成子图

  def mask[VD2, ED2](other: Graph[VD2, ED2]): Graph[VD, ED]，生成的结果图的顶点和边同时存在于原来的两个图中

  def groupEdges(merge: (ED, ED) => ED): Graph[VD, ED]，把重复边进行reduce操作，注意此操作之前，应当在图上调用partitionBy方法

图join操作

  def joinVertices[U](table: RDD[(VertexID, U)])(mapFunc: (VertexID, VD, U) => VD): Graph[VD, ED]

  def outerJoinVertices[U, VD2](other: RDD[(VertexID, U)])

      (mapFunc: (VertexID, VD, Option[U]) => VD2) : Graph[VD2, ED]

注： joinVertices操作实际上是根据给定的另一个图(原图的每个顶点id至多对应此图的的一个顶点id)把原图中的顶点的属性值根据指定的mapFunc函数进行修改，返回一个新图，新图的顶点类型不变，如果图中的某个顶点id在另一个图中不存在，则保留原值

而outerJoinVertices操作和joinVertices类似，只不过，当图中某个顶点id在另一个图中不存在时，则使用None值

在邻边上聚合信息

 def collectNeighborIds(edgeDirection: EdgeDirection): VertexRDD[Array[VertexID]]

 def collectNeighbors(edgeDirection: EdgeDirection): VertexRDD[Array[(VertexID, VD)]]

 def aggregateMessages[Msg: ClassTag](

      sendMsg: EdgeContext[VD, ED, Msg] => Unit,

      mergeMsg: (Msg, Msg) => Msg,

      tripletFields: TripletFields = TripletFields.All)

    : VertexRDD[A]

 注：聚合信息的核心方法是：aggregateMessages，其操作的本质是sendMsg和mergeMsg，具体而言，是依次在图的每条边(edgeTriplets)上根据sendMsg函数的要求，把该边上A端的节点信息发送给B端，如:把src节点信息发到dst节点信息，或者把dst节点信息发送到src节点上，然后在B端调用merge函数将可能收到的多个msg合并成一个msg.

tripletFields字段指定要操作哪些字段，如果仅操作部分字段的话，通过此参数进行限定可提高性能。aggregateMessages方法最终返回一个新的顶点集：VertexRDD，这个新的顶点集中每个vertex节点上包含上聚合后的信息。

collectNeighborIds与collectNeighbors函数就是对aggregateMessages的简单封装以实现聚合相邻节点id和相邻节点的功能

VertexRDD与RDD有一个明显的区别是，VertexRDD的key不重复，而RDD的key可以重复
aggregateUsingIndex函数的作用类似于reduceByKey，如vertexRdd1.aggregateUsingIndex(rdd2,_+_)，作用是利用vertexRdd1的索引结果对rdd2进行聚合，在rdd2中对vertexRdd1中出现的id对应的属性值做聚合操作，很像reduceByKey，得到的结果是一个VertexRDD，这个结果与vertexRdd1进行join等操作时就会很快，因为他们具有相同的索引结构

PageRank算法：

　　graph.pageRank(tolorence,reset)，用于计算类似于网页排名的各种经典问题，tolorence参数用于指定可容忍的收敛度，毕竟无穷迭代下去是耗时也意义不大的，reset参数用于设定终止点和陷阱问题的概率，防止迭代结果倾斜或终止到一个节点的事情发生，所以这个参数不能传0，详情参考：算法解析

　　连通体算法：

　　　　graph.connectedComponents() 返回一个新图，新图的顶点属性被替换成了该顶点所在的连通体的id，这个id是此连通体中所有节点中id最小的那个节点的id

　　　　例如，我要计算一个图中连通图的个数： graph.connectedComponents.vertices.map(e => (e._2, 1L)).reduceByKey(_ + _).sortBy(e => e._2, ascending = false).count

Spark-GraphxAPI学习笔记的更多相关文章

Spark 基本函数学习笔记一
Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions. Transformations为一些数据转换类函数,actions为一些行动类函数: ...
Spark RDD学习笔记
一.学习Spark RDD RDD是Spark中的核心数据模型,一个RDD代表着一个被分区(partition)的只读数据集. RDD的生成只有两种途径: 一种是来自于内存集合或外部存储系统: 另一种 ...
Hadoop/Spark入门学习笔记(完结)
Hadoop基础及演练 ---第1章初识大数据大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术. ---第2章 Hadoop核心HDFS Hadoop ...
spark scala学习笔记
搞清楚几个概念: 闭包柯里化搭建了intellij idea 的scala 开发环境
spark shell学习笔记
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark RDD设计学习笔记
本文档是学习RDD经典论文<Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...

随机推荐

实用的两款jquery树形tree插件
这里有两款非常实用的jquery tree控件: (1) ------------------------------------------1.(根据一讲师总结) ---zTree: jquery. ...
自定义HttpFilter模块完善
自定义HttpFilter模块完善背景在12月由于要针对项目做用户操作日志,但不想在每个方法里去增加代码,写入用户日志.因为这样具体的方法违背职责单一的原则,若后期日志内容格式发生变更,或其他 ...
linux下开机启动脚本的方法
1.准备好要随机启动的程序,例如 /root/test.sh .确保其可执行. 2.在目录 /etc/init.d/ 下编写控制脚本 test . #!/bin/sh ### BEGIN INIT I ...
百度云语音识别，Audio2Txt（c#）
百度云识别没有提供c#版本的sdk,下面给个c#的 1.打开网址http://developer.baidu.com/ 2.登陆 3.管理控制台>开发者服务管理 4.创建工程 5.输入名称,点击 ...
query 原理
query原理的简单分析,让你扒开jquery的小外套. 引言最近LZ还在消化系统原理的第三章,因此这部分内容LZ打算再沉淀一下再写.本次LZ和各位来讨论一点前端的内容,其实有关jquery,在 ...
ASP.NET MVC页面UI之联动下拉选择控件（省、市、县联动选择）
地区选择操作在WEB应用中比较常见的操作,本文在.net mvc3下实现了省市县三级联动选择功能. 本文博客出处:http://www.kwstu.com/ArticleView/admin_2013 ...
bootstrap插件学习-bootstrap.modal.js
bootstrap插件学习-bootstrap.modal.js 先从bootstrap.modal.js的结构看起. function($){ var Modal = function(){} // ...
用PowerShell代替批处理吧！
这篇文章主要介绍了用PowerShell代替批处理吧!本文讲解了批处理文件的历史.Windows NT 和 Cmd.exe.Windows Script 主机.进入 Windows PowerShel ...
MapXtreme+Asp.net 动态轨迹
MapXtreme+Asp.net 动态轨迹(请求大神指点) 功能简介:在MapXtreme+Asp.net的环境下实现轨迹回放功能,经过两天的努力基本实现此功能.但还有部分问题需要解决,求大神们 ...
调用一个Activity并返回结果
一:在main.xml文件中设置布局 <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android&q ...

Spark-GraphxAPI学习笔记

Spark-GraphxAPI学习笔记的更多相关文章

随机推荐

热门专题