第一个GraphX程序

程序功能：收集顶点指向的邻居中所在地

/*

 * 找出每一个顶点所指向的邻居中所在的地区

 */

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

import scala.collection.mutable.Map

import org.apache.spark._

import org.apache.spark.graphx._

import org.apache.spark.rdd.RDD

object testApp{

    def main(args:Array[String]){

        val conf = new SparkConf().setAppName("testApp")

        val sc = new SparkContext(conf)

        val graph = GraphLoader.edgeListFile(sc, "/home/spark/spark/graphx/data/followers.txt")//载入边时顶点是边上出现的点

        val users = sc.textFile("/home/spark/spark/graphx/data/users.txt").map { line =>

            val fields = line.split(",")

            (fields(0).toLong,(fields(1),fields(2)))//解析顶点数据:ID(一定转成Long型),姓名，地区

        }

        val myGraph=Graph.apply(users,graph.edges)//重构图，顶点数据以users为准

        val vertices=myGraph.mapReduceTriplets[Map[String,Int]](//收集每一个定点指向的邻居所在的地区

            triplet=>Iterator((triplet.srcId,Map[String,Int](triplet.dstAttr._2->1))),//Map function单向发送消息给有向边的源顶点

            (a,b)=>{//Reduce function汇集消息

                var myMap=Map[String,Int]()

                for((k,v)<-a){

                    if(b.contains(k))

                    {

                        var t=a(k)+b(k)

                        myMap+=(k->t)

                    }

                    else

                        myMap+=(k->a(k))

                }

                myMap //返回汇集的结果

            }

        )

        vertices.collect.foreach(a=>print(a+"\n"))//打印收集的邻居所在地

    }

}

users.txt顶点数据：ID，姓名。地区

1,BarackObama,American

2,ladygaga,American

3,John,American

4,xiaoming,Beijing

6,Hanmeimei,Beijing

7,Polly,American

8,Tom,American

followers.txt边数据：仅仅有源顶点和目标顶点，中间以空格隔开,多余的列无用，如：2 1 other 有3列数据，可是graphx仅仅会读取前两列

结果：

(4,Map(American -> 1))

(6,Map(American -> 2))

(2,Map(American -> 1))

(1,Map(American -> 1))

(3,Map(American -> 1))

(7,Map(American -> 1))

project文件夹结构：

./test.sbt

./src

./src/main

./src/main/scala

./src/main/scala/testApp.scala

test.sbt内容：

name := "test Project"

version := "1.0"

scalaVersion := "2.10.4"

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.0.1"

libraryDependencies += "org.apache.spark" %% "spark-graphx" %"1.0.1"

resolvers += "Akka Repository" at "http://repo.akka.io/releases/"

命令行运行例如以下进行编译：

sbt package

命令行运行例如以下向集群提交（开启了集群为前提），这里我的project建在spark安装文件夹下apps/testApp下，因此以下开头是../../

 ../../bin/spark-submit --class "testApp" --master local[4] target/scala-2.10/test-project_2.10-1.0.jar

这个程序有个潜在的bug,就是Graph.apply函数另一个语义是:若多个顶点ID反复则随意选择一个顶点,若边中edges上的两个顶点有不在users中时将以默认的属性初始化该顶点,

val myGraph=Graph.apply(users,graph.edges)//重构图。顶点数据以users为准

若在兴许对图中进行操作时会发现顶点数据格式有可能不一致的情形,部分顶点在edges中存在而在users中不存在时是以默认值作为顶点数据的。而这里顶点数据是个元组(name,location)，spark以null作为默认值。可能在操作图时候出现 java.lang.NullPointerException

解决的方法有两个:

1 加入顶点的默认数据

val defaultAttr=("null","null")

val myGraph=Graph.apply(users,graph.edges,defaultAttr)

2 去除那些顶点数据为null的节点和边

val myGraph=Graph.apply(users,graph.edges)//重构图。顶点数据以users为准

val newGraph=myGraph.subgraph(triplet=>triplet.srcAttr!=null && triplet.dstAttr!=null,(id,attr)=>attr!=null)//取顶点数据非null的子图

第一个GraphX程序的更多相关文章

Spark认识&环境搭建&运行第一个Spark程序
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度.这里总结下对Spark的认识.虚拟机Spark安装.Spark开发环境搭建及编写第一个scala程序.运 ...
DirectX游戏编程（一）：创建一个Direct3D程序
一.环境 Visual Studio 2012,DirectX SDK (June 2010) 二.准备 1.环境变量(如没有配置请添加) 变量名:DXSDK_DIR 变量值:D:\Software\ ...
第一个python程序
一个python程序的两种执行方式: 1.第一种方式是通过python解释器: cmd->python->进入python解释器->编写python代码->回车. 2.第二种方 ...
编写第一个MapReduce程序—— 统计气温
摘要:hadoop安装完成后,像学习其他语言一样,要开始写一个“hello world!” ,看了一些学习资料,模仿写了个程序.对于一个C#程序员来说,写个java程序,并调用hadoop的包,并跑在 ...
1.3 第一个C#程序
几乎没一门编程语言的第一个程序都叫“你好,世界”,所以先在visual studio 中创建一个Helloworld程序. 各部分的详细内容: Main方法是程序运行的起点,最重要的代码就写在Main ...
一个.net程序员的安卓之旅-Eclipse设置代码智能提示功能
一个.net程序员的安卓之旅-代码智能提示功能过完年回来就决心开始学安卓开发,就网上买了个内存条加在笔记本上(因为笔记本原来2G内存太卡了,装了vs2010.SQL Server 2008.orac ...
MFC-01-Chapter01:Hello,MFC---1.3 第一个MFC程序（02）
1.3.1 应用程序对象 MFC应用程序的核心就是基于CWinApp类的应用程序对象,CWinApp提供了消息循环来检索消息并将消息调度给应用程序的窗口.当包含头文件<afxwin.h>, ...
Go! new Hello World, 我的第一个Go程序
以下语句摘自百度百科: Go语言是谷歌2009发布的第二款开源编程语言. Go语言专门针对多处理器系统应用程序的编程进行了优化,使用Go编译的程序可以媲美C或C++代码的速度,而且更加安全.支持并行进 ...
搭建java开发环境、使用eclipse编写第一个java程序
搭建java开发环境.使用eclipse编写第一个java程序一.Java 开发环境的搭建 1.首先安装java SDK(简称JDK). 点击可执行文件 jdk-6u24-windows-i586. ...

随机推荐

seq2seq（1）- EncoderDecoder架构
零 seq2seq是从序列到序列的学习过程,最重要的是输入序列和输出序列是可变长的,这种方式就非常灵活了,典型的机器翻译就是这样一个过程. 一最基本的seq2seq网络架构如下所示: 可以看到,en ...
LBE_登录Demo
目录服务器最小资产库创建 entity配置实体的Python实现创建第一个空间Space 让entity进入空间Space 客户端(unity) 生成客户端SDK 实现Client部分验证验 ...
Sql语句的一些事（二）
与sql语句的书写顺序并不是一样的,而是按照下面的顺序来执行 from--where--group by--having--select--order by, from:需要从哪个数据表检索数据 wh ...
canvas学习--准备
一)canvas标签属性: 1.width 和 height 控制canvas宽高: 2.style添加基本样式 3.class,id属性 4.标签内添加一行文本,主要用于浏览器不支持canvas标 ...
Spider-Python爬虫之使用Selenium模拟浏览器行为
分析他的代码比较简单,主要有以下的步骤:使用BeautifulSoup库,打开百度贴吧的首页地址,再解析得到id为new_list标签底下的img标签,最后将img标签的图片保存下来. header ...
10-看图理解数据结构与算法系列(B+树)
B+树 B+树是B树的一种变体,也属于平衡多路查找树,大体结构与B树相同,包含根节点.内部节点和叶子节点.多用于数据库和操作系统的文件系统中,由于B+树内部节点不保存数据,所以能在内存中存放更多索引, ...
Unity Water Shader
上图是一个物体浸入水中的效果原理我们使用相机渲染的整个场景的深度图减去需要忽略的模型的深度,这里忽略的是图中蓝色部分,就保留了其他的深度值. 用到Main Camera渲染的深度贴图: sampl ...
【03】HTML head 头部分的标签说明和手机头部标签说明
HTML head 头部分的标签.元素有很多,涉及到浏览器对网页的渲染,SEO 等等,而各个浏览器内核以及各个国内浏览器厂商都有些自己的标签元素,这就造成了很多差异性.移动互联网时代,head 头部结 ...
Qt笔记——2.编写多窗口程序
所学教程网址:http://www.qter.org/portal.php?mod=view&aid=27&page=2 设置按钮文字 MainWindow::MainWindow(Q ...
MySQL workbench8.0 CE基本用法(创建数据库、创建表、创建用户、设置用户权限、创建SQL语句脚本）
原文地址:https://blog.csdn.net/zgcr654321/article/details/82156277 安装完成MySQL后,打开MySQL workbench8.0. 可以看到 ...

第一个GraphX程序

第一个GraphX程序的更多相关文章

随机推荐

热门专题