Spark Application能够在集群中并行执行,其关键是抽象出RDD的概念(详见RDD
细解
),也使得Spark Application的开发变得简单明了。下图浓缩了Spark的编程模型。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYm9va19tbWlja3k=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

1:Spark应用程序的结构
      Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序
A:driver部分
      driver部分主要是对SparkContext进行配置、初始化以及关闭。初始化SparkContext是为了构建Spark应用程序的执行环境,在初始化SparkContext,要先导入一些Spark的类和隐式转换;在executor部分执行完成后,须要将SparkContext关闭。driver部分的基本代码框架例如以下:
  1. package week2
  2.  
  3. import org.apache.spark.{SparkContext, SparkConf}
  4. import org.apache.spark.SparkContext._
  5.  
  6. object WordCount1 {
  7. def main(args: Array[String]) {
  8. if (args.length == 0) {
  9. System.err.println("Usage: bin/spark-submit [options] --class week2.WordCount1 WordCount.jar <file1> ")
  10. System.exit(1)
  11. }
  12.  
  13. val conf = new SparkConf().setAppName("WordCount1")
  14. val sc = new SparkContext(conf)
  15.  
  16. 。。。
  17.  
  18. //executor部分
  19.  
  20. sc.stop()
  21. }
  22. }

要注意的是,Spark1.0.0因为採用了spark-submit统一的应用程序提交工具,代码上有所改变:

  • 不须要在代码里将应用程序本身通过addJars上传给资源管理器
  • 添加了history server,须要在代码末尾关闭SparkContext,才干将完整的执行信息公布到history server。

B:executor部分
      Spark应用程序的executor部分是对数据的处理,数据分三种:
  • 原生数据,包括输入的数据和输出的数据

    • 对于输入原生数据,Spark眼下提供了两种:

      • scala集合数据集,如Array(1,2,3,4,5),Spark使用parallelize方法转换成RDD。

      • hadoop数据集,Spark支持存储在hadoop上的文件和hadoop支持的其它文件系统,如本地文件、HBase、SequenceFile和Hadoop的输入格式。比如Spark使用txtFile方法能够将本地文件或HDFS文件转换成RDD。

    • 对于输出数据,Spark除了支持以上两种数据。还支持scala标量
      • 生成Scala标量数据,如count(返回RDD中元素的个数)、reduce、fold/aggregate;返回几个标量,如take(返回前几个元素)。
      • 生成Scala集合数据集,如collect(把RDD中的全部元素倒入 Scala集合类型)、lookup(查找相应key的全部值)。

      • 生成hadoop数据集,如saveAsTextFile、saveAsSequenceFile
  • RDD。Spark进行并行运算的基本单位。其细节參见RDD 细解

    RDD提供了四种算子:

    • 输入算子。将原生数据转换成RDD,如parallelize、txtFile等
    • 转换算子,最基本的算子,是Spark生成DAG图的对象。转换算子并不马上运行,在触发行动算子后再提交给driver处理。生成DAG图 -->  Stage --> Task  --> Worker运行。按转化算子在DAG图中作用。能够分成两种:
      • 窄依赖算子

        • 输入输出一对一的算子,且结果RDD的分区结构不变。主要是map、flatMap。
        • 输入输出一对一,但结果RDD的分区结构发生了变化。如union、coalesce;
        • 从输入中选择部分元素的算子,如filter、distinct、subtract、sample。
      • 宽依赖算子,宽依赖会涉及shuffle类,在DAG图解析时以此为边界产生Stage。如图所看到的。
        • 对单个RDD基于key进行重组和reduce,如groupByKey、reduceByKey。
        • 对两个RDD基于key进行join和重组。如join、cogroup。

    • 缓存算子。对于要多次使用的RDD,能够缓冲加快执行速度,对关键数据能够採用多备份缓存。
    • 行动算子,将运算结果RDD转换成原生数据,如count、reduce、collect、saveAsTextFile等。

  • 共享变量。在Spark执行时,一个函数传递给RDD内的patition操作时。该函数所用到的变量在每一个运算节点上都复制并维护了一份,而且各个节点之间不会相互影响。

    可是在Spark Application中。可能须要共享一些变量,提供Task或驱动程序使用。Spark提供了两种共享变量:

    • 广播变量,能够缓存到各个节点的共享变量,通常为仅仅读,用法:
  1. scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
  2. scala> broadcastVar.value
  • 累计器。仅仅支持加法操作的变量,能够实现计数器和变量求和。用户能够调用SparkContext.accumulator(v)创建一个初始值为v的累加器。而执行在集群上的Task能够使用“+=”操作。但这些任务却不能读取;仅仅有驱动程序才干获取累加器的值。

    用法:

  1. cala> val accum = sc.accumulator(0)
  2. scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

2:例程示范

      以下拿一个简单的样例WorCount来演示样例:

3:Spark应用程序的多语言编程
      Spark提供了Scala、Python、Java开发API。

用户能够依据自己的喜好选择对应的编程语言和工具。

建议使用Scala和IntelliJ IDEA开发。

关于多语言开发能够參考:Spark1.0.0 多语言编程
关于Spark应用程序的部署能够參考:Spark1.0.0 应用程序部署工具spark-submit
关于Spark应用程序的执行架构能够參考:Spark1.0.0 执行架构基本概念

Spark1.0.0 编程模型的更多相关文章

  1. at91sam9x5 linux 4.1.0下dts驱动编程模型

    测试环境:  CPU: AT91SAM9X35      Linux: Atmel提供的linux-at91-linux4sam_5.3 (Linux-4.1.0) 转载请注明: 凌云物网智科嵌入式实 ...

  2. Spark1.0.0新特性

            Spark1.0.0 release于2014-05-30日正式公布,标志Spark正式进入1.X的时代.Spark1.0.0带来了各种新的特性,并提供了更好的API支持:Spark1 ...

  3. Spark1.0.0 学习路径

          2014-05-30 Spark1.0.0 Relaease 经过11次RC后最终公布.尽管还有不少bug,还是非常令人振奋. 作为一个骨灰级的老IT,经过非常成一段时间的消沉,再次被点燃 ...

  4. Apache Spark1.1.0部署与开发环境搭建

    Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...

  5. Spark1.0.0 生态圈一览

          Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms).机器(Machines).人(People)之间通过大规模集 ...

  6. Spark1.0.0 学习路线指导

    转自:http://www.aboutyun.com/thread-8421-1-1.html 问题导读1.什么是spark?2.spark编程模型是什么?3.spark运维需要具有什么知识?4.sp ...

  7. C#与C++的发展历程第三 - C#5.0异步编程巅峰

    系列文章目录 1. C#与C++的发展历程第一 - 由C#3.0起 2. C#与C++的发展历程第二 - C#4.0再接再厉 3. C#与C++的发展历程第三 - C#5.0异步编程的巅峰 C#5.0 ...

  8. C# 6 与 .NET Core 1.0 高级编程 - 38 章 实体框架核心(上)

    译文,个人原创,转载请注明出处(C# 6 与 .NET Core 1.0 高级编程 - 38 章 实体框架核心(上)),不对的地方欢迎指出与交流. 章节出自<Professional C# 6 ...

  9. C# 6 与 .NET Core 1.0 高级编程 - 40 ASP.NET Core(上)

    译文,个人原创,转载请注明出处(C# 6 与 .NET Core 1.0 高级编程 - 40 章  ASP.NET Core(上)),不对的地方欢迎指出与交流. 章节出自<Professiona ...

随机推荐

  1. 【luogu2574】xor的艺术

    一道无聊的线段树题,写着玩玩而已…… #include<bits/stdc++.h> #define N 1000010 #define lson (o<<1) #define ...

  2. mybatis插入值的时候返回对象的主键值

    mapping文件: <insert id="insert" parameterType="com.vimtech.bms.business.riskproject ...

  3. 【C++】隐式类型转换和 explicit关键字

    来自:黄邦勇帅 1. 当类中带有一个参数的构造函数时,将执形对象的隐式转换,比如有类 A,有一个带有一个参数的构造函数A(int i){}则当出现语句A m=1;就会调用带有一个参数的构造函数来创建对 ...

  4. Appium+python自动化29-toast消息【转载】

    本篇转自博客:上海-悠悠 前言 appium1.5以后的版本才支持toast定位,并且 'automationName'得设置为'Uiautomator2',才能捕获到. 一. Supported P ...

  5. [BZOJ1475]方格取数 网络流 最小割

    1475: 方格取数 Time Limit: 5 Sec  Memory Limit: 64 MBSubmit: 1025  Solved: 512[Submit][Status][Discuss] ...

  6. 【转.解析清晰】你真明白 Python 装饰器么?

      原文出处: 武沛齐    装饰器是程序开发中经常会用到的一个功能,用好了装饰器,开发效率如虎添翼,所以这也是Python面试中必问的问题,但对于好多小白来讲,这个功能 有点绕,自学时直接绕过去了, ...

  7. bisect二分查找模块使用

    import bisectL = [1, 3, 3, 6, 8, 12, 15]x = 5x_insert_point = bisect.bisect_left(L, x)# 在L中查找x,x存在时返 ...

  8. CF 1005C Summarize to the Power of Two 【hash/STL-map】

    A sequence a1,a2,-,an is called good if, for each element ai, there exists an element aj (i≠j) such ...

  9. Codeforces Round #424 A(模拟)

    #include<cstdio> ]; int main(){ scanf("%d",&n); ;i<=n;++i)scanf("%d" ...

  10. 洛谷 P1308 统计单词数【string类及其函数应用/STL】

    题目描述 一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数. 现在,请你编程实现这一功能,具体要求是:给定一个单词,请你输出它在给 ...