broadcast

官方文档描述：

Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broadcast]] object for reading it in distributed functions. The variable will be sent to each cluster only once.

函数原型：

def broadcast[T](value: T): Broadcast[T]

广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据，或者以反序列化形式缓存数据是十分重要的时候，显式地创建广播变量才有用。

源码分析：

def broadcast[T: ClassTag](value: T): Broadcast[T] = {

  assertNotStopped()

  if (classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass)) {

    // This is a warning instead of an exception in order to avoid breaking user programs that

    // might have created RDD broadcast variables but not used them:

    logWarning("Can not directly broadcast RDDs; instead, call collect() and "

      + "broadcast the result (see SPARK-5063)")

  }

  val bc = env.broadcastManager.newBroadcast[T](value, isLocal)

  val callSite = getCallSite

  logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)

  cleaner.foreach(_.registerBroadcastForCleanup(bc))

  bc

}

实例：

 List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);

 JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);

 final Broadcast<List<Integer>> broadcast = javaSparkContext.broadcast(data);

 JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {

   List<Integer> iList = broadcast.value();

   @Override

   public Integer call(Integer v1) throws Exception {

     Integer isum = 0;

     for(Integer i : iList)

       isum += i;

     return v1 + isum;

   }

 });

 System.out.println(result.collect());

accumulator

官方文档描述：

 Create an [[org.apache.spark.Accumulator]] variable of a given type, which tasks can "add"

 values to using the `add` method. Only the master can access the accumulator's `value`.

函数原型：

def accumulator[T](initialValue: T, accumulatorParam: AccumulatorParam[T]): Accumulator[T]

def accumulator[T](initialValue: T, name: String, accumulatorParam: AccumulatorParam[T])

   : Accumulator[T]

累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和sum。Spark原生地只支持数字类型的累加器，开发者可以添加新类型的支持。如果创建累加器时指定了名字，可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程（对于Python还不支持）。
累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是，它们不能读取它的值。只有驱动程序能够读取它的值，通过累加器的value方法。

源码分析：

def accumulator[T](initialValue: T, name: String)(implicit param: AccumulatorParam[T])

  : Accumulator[T] = {

  val acc = new Accumulator(initialValue, param, Some(name))

  cleaner.foreach(_.registerAccumulatorForCleanup(acc))

  acc

}

实例：

 class VectorAccumulatorParam implements AccumulatorParam<Vector> {

   @Override

   //合并两个累加器的值。

   //参数r1是一个累加数据集合

   //参数r2是另一个累加数据集合

   public Vector addInPlace(Vector r1, Vector r2) {

     r1.addAll(r2);

     return r1;

   }

   @Override

   //初始值

   public Vector zero(Vector initialValue) {

      return initialValue;

   }

   @Override

   //添加额外的数据到累加值中

   //参数t1是当前累加器的值

   //参数t2是被添加到累加器的值

   public Vector addAccumulator(Vector t1, Vector t2) {

       t1.addAll(t2);

       return t1;

   }

 }

 List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);

 JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);

 final Accumulator<Integer> accumulator = javaSparkContext.accumulator(0);

 Vector initialValue = new Vector();

 for(int i=6;i<9;i++)

   initialValue.add(i);

 //自定义累加器

 final Accumulator accumulator1 = javaSparkContext.accumulator(initialValue,new VectorAccumulatorParam());

 JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {

   @Override

   public Integer call(Integer v1) throws Exception {

     accumulator.add(1);

     Vector term = new Vector();

     term.add(v1);

     accumulator1.add(term);

     return v1;

   }

 });

 System.out.println(result.collect());

 System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator.value());

 System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator1.value());

原文引自：https://www.jianshu.com/p/082ef79c63c1?utm_campaign=maleskine&utm_content=note&utm_medium=pc_all_hots&utm_source=recommendation

spark 变量使用 broadcast、accumulator的更多相关文章

Spark大师之路：广播变量（Broadcast）源代码分析
概述近期工作上忙死了--广播变量这一块事实上早就看过了,一直没有贴出来. 本文基于Spark 1.0源代码分析,主要探讨广播变量的初始化.创建.读取以及清除. 类关系 BroadcastManage ...
Spark大师之路：广播变量（Broadcast）源码分析
概述最近工作上忙死了……广播变量这一块其实早就看过了,一直没有贴出来. 本文基于Spark 1.0源码分析,主要探讨广播变量的初始化.创建.读取以及清除. 类关系 BroadcastManager类 ...
5 pyspark学习---Broadcast&Accumulator&sparkConf
1 对于并行处理,Apache Spark使用共享变量.当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了. 2 两种支持得类型 (1)Broa ...
Spark中自定义累加器Accumulator
1. 自定义累加器自定义累加器需要继承AccumulatorParam,实现addInPlace和zero方法. 例1:实现Long类型的累加器 object LongAccumulatorPara ...
spark中的广播变量broadcast
Spark中的Broadcast处理首先先来看一看broadcast的使用代码: val values = List[Int](1,2,3) val broadcastValues = sparkC ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
08、共享变量（Broadcast Variable和Accumulator）
共享变量工作原理 Spark一个非常重要的特性就是共享变量. 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中.此时每个task只能操作自己的那份 ...
Spark共享变量(广播变量、累加器)
转载自:https://blog.csdn.net/Android_xue/article/details/79780463 Spark两种共享变量:广播变量(broadcast variable)与 ...
SPARK共享变量：广播变量和累加器
Shared Variables Spark does provide two limited types of shared variables for two common usage patte ...

随机推荐

PostgreSQL——服务器基本设置与操作
一.编译安装: 环境准备: GNU make 版本 >=3.8 (make --version) ISO/ANSI C 编译器,至少須兼容 C89 标准,GCC 或 intel 編译器等均可 g ...
MySQL数据库（二）——库相关操作、表相关操作（一）、存储引擎、数据类型
库相关操作.表相关操作(一).存储引擎.数据类型一.库相关操作 1.创建数据库 (1)语法 create database 数据库 charset utf8; (2)数据库命名规范可以由字母.数字 ...
JasperReport环境设置
JasperReport是一个纯Java库,而不是一个独立的应用程序.它不能单独运行,因此它需要被嵌入到另一个客户端或服务器端的Java应用程序.因为它是基于Java,它可以在任何支持Java的平台( ...
20140730 word标题样式数组
1.word 标题四, 右键更新自己也可以新建标题样式 2.数组连续内存,空间复杂度高(即使数组存在一个元素,占据的空间的大小不变),时间复杂度低(0(1)访问),内存分配一次性完成
jquery 临时存值
function toSort(orderBy) { if (orderBy == $('#orderBy').data("order")) {// 再次点击同一个排序时 $('# ...
docker学习日记一（镜像构建-container commit和image build）
构建镜像的方式两种: 一.根据已有的container构建-docker container commit 二.根据已有的image构建-docker image build(推荐) containe ...
USACO2007 The Bale Tower /// DFS oj21160
题目大意: 给出N个捆包,每个捆包有相应的长度和宽度,要求堆叠捆包,使下方的捆包长宽永远大于上方的捆包的长宽. Input Multiple test case. For each case: * L ...
Excel的线程与 SynchronizationContext的实现
COM组件的线程模型与Excel多线程的背景知识 COM组件的线程模型被称之为Apartment模型,COM对象初始化时其执行上下文(Execution Context),他要么和单个线程关联STA( ...
SSD 坏了
系统盘是SSD,系统盘坏了. 桌面所有数据都拿不回来了. 真的无奈啊,来吧,统计一下,有多少东西要重装. VS2008.VS2010.VS2013.VS2015. GITHUB.SVN.VMWare. ...
PC端写的API接口和手机端APP联合调试
一.遇到问题的情况:项目框架:asp.net MVC5 ,写的给手机端调用的API接口. 二.自己在本地 IIS上部署项目,在手机端的请求服务器上把地址和端口换上本地部署的,如图所示三.用管理员的身 ...

spark 变量使用 broadcast、accumulator

broadcast

官方文档描述：

函数原型：

源码分析：

实例：

accumulator

官方文档描述：

函数原型：

源码分析：

实例：

spark 变量使用 broadcast、accumulator的更多相关文章

随机推荐

热门专题