Spark中自定义累加器

通过继承AccumulatorV2可以实现自定义累加器。

官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators

下面是我自己写的一个统计卡种数量的案例。

package com.shuai7boy.myscalacode

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.util.AccumulatorV2

case class Card(var card1Count: Int, var card2Count: Int)

class CalcCardCount extends AccumulatorV2[Card, Card] {

  var result = new Card(, )

  /** *

   * 判断，这个要和reset设定值一致

   *

   * @return

   */

  override def isZero: Boolean = {

    result.card1Count ==  && result.card2Count ==

  }

  /** *

   * 复制一个新的对象

   *

   * @return

   */

  override def copy(): AccumulatorV2[Card, Card] = {

    val newCalcCardCount = new CalcCardCount()

    newCalcCardCount.result = this.result

    newCalcCardCount

  }

  /** *

   * 重置每个分区的数值

   */

  override def reset(): Unit = {

    result.card1Count =

    result.card2Count =

  }

  /**

   * 每个分区累加自己的数值

   *

   * @param v

   */

  override def add(v: Card): Unit = {

    result.card1Count += v.card1Count

    result.card2Count += v.card2Count

  }

  /** *

   * 合并分区值，求得总值

   *

   * @param other

   */

  override def merge(other: AccumulatorV2[Card, Card]): Unit = other match {

    case o: CalcCardCount => {

      result.card1Count += o.result.card1Count

      result.card2Count += o.result.card2Count

    }

  }

  //返回结果

  override def value: Card = result

}

object CardCount {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("calcCardCountDemo").setMaster("local")

    val sc = new SparkContext(conf)

    val cc = new CalcCardCount

    sc.register(cc)

    val cardList = sc.parallelize(List[String]("card1 1", "card1 3", "card1 7", "card2 5", "card2 2"), )

    val cardMapRDD = cardList.map(card => {

      var cardInfo = new Card(, )

      card.split(" ")() match {

        case "card1" => cardInfo = Card(card.split(" ")().toInt, )

        case "card2" => cardInfo = Card(, card.split(" ")().toInt)

        case _ => Card(, )

      }

      cc.add(cardInfo)

    })

    cardMapRDD.count() //执行action，触发上面的累加操作

    println("card1总数量为:" + cc.result.card1Count + ",card2总数量为:" + cc.result.card2Count)

  }

}

打印结果是：

card1总数量为:,card2总数量为:

通过上面代码，就可以同时统计两个变量的值了，当然如果需要更多，可以扩展。默认的累加器只实现了一个。

Spark中自定义累加器的更多相关文章

Spark中自定义累加器Accumulator
1. 自定义累加器自定义累加器需要继承AccumulatorParam,实现addInPlace和zero方法. 例1:实现Long类型的累加器 object LongAccumulatorPara ...
在Spark中自定义Kryo序列化输入输出API（转）
原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark2.0自定义累加器
Spark2.0 自定义累加器在2.0中使用自定义累加器需要继承AccumulatorV2这个抽象类,同时必须对以下6个方法进行实现: 1.reset 方法: 将累加器进行重置; abstract ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark笔记之累加器（Accumulator）
一.累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark St ...

随机推荐

小谢第2问：后端返回为数组list时候，怎么实现转为tree
要求后端返回给我的list时候,在数组中定义有id , parentid, 可以用双重循环的方法,得到tree需要的数据结构,这样得到的数据就可以直接复制给树组件的data啦const oldData ...
Rocket - tilelink - toBools
https://mp.weixin.qq.com/s/UGMH8EoaVcFkkQW-l4HLWg 分析toBools在Intellij中显示为红色的问题. 1. 问题在TLA ...
实战| 配置DataDog监控Apache Hudi应用指标
1. 可用性在Hudi最新master分支,由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标,该功能将在0.6.0 版本发布,也感谢Raymond的投稿. 2. 简介 ...
ionic3跳转页面的方法
ionic3很好很强大,有人喷有人赞.不想参与其中,个人认为如果能很好的满足需求,好坏都是无所谓的,最合适的才是最好的.总结下最近使用ionic3的一些知识点,方便以后查询.多句嘴:会ionic3和只 ...
Java实现 LeetCode 813 最大平均值和的分组（DFS+DP记忆化搜索）
813. 最大平均值和的分组我们将给定的数组 A 分成 K 个相邻的非空子数组 ,我们的分数由每个子数组内的平均值的总和构成.计算我们所能得到的最大分数是多少. 注意我们必须使用 A 数组中的每一个 ...
Java实现 LeetCode 767 重构字符串（ASCII的转换）
767. 重构字符串给定一个字符串S,检查是否能重新排布其中的字母,使得两相邻的字符不同. 若可行,输出任意可行的结果.若不可行,返回空字符串. 示例 1: 输入: S = "aab&qu ...
Java实现 LeetCode 400 第N个数字
400. 第N个数字在无限的整数序列 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, -中找到第 n 个数字. 注意: n 是正数且在32为整形范围内 ( n < 231 ...
Java实现 LeetCode 292 Nim游戏
292. Nim 游戏你和你的朋友,两个人一起玩 Nim 游戏:桌子上有一堆石头,每次你们轮流拿掉 1 - 3 块石头. 拿掉最后一块石头的人就是获胜者.你作为先手. 你们是聪明人,每一步都是最优解 ...
Java实现蓝桥杯打印图形
标题:打印图形如下的程序会在控制台绘制分形图(就是整体与局部自相似的图形). 当n=1,2,3的时候,输出如下: 请仔细分析程序,并填写划线部分缺少的代码. n=1时: o ooo o n=2时: ...
SQLServer2019安装教程
可以去官网下载,我百度网盘也有都一样 https://pan.baidu.com/s/1i3umqHXSUMbxJ9rRi6mU4A 提取码:5g9q 打开应用程序点击安装,点第一个全新得SQL s ...

Spark中自定义累加器

Spark中自定义累加器的更多相关文章

随机推荐

热门专题