Spark-Streaming 常用流式计算算子

UpdateStateByKey

使用说明：维护key的状态。

使用注意：使用该算子需要设置checkpoint

使用示例：

object UpdateStateByKeyTest {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local[2]").setAppName("UpdateStateByKeyTest")

    val  ssc=new StreamingContext(conf,Seconds(2));

    /**

     * 数据源

     */

    val fileDS=ssc.socketTextStream("hadoop1", 9999)

    /**

     * 需要设置一个checkpoint的目录

     * 因为我们的计算结果有中间状态，这些中间状态需要存储

     */

    ssc.checkpoint(".")

    val wordDS=fileDS.flatMap { line => line.split("\t") }

    .map { word => (word,1) }

   /**

    * updateFunc: (Seq[Int], Option[S]) => Option[S]

    * updateFunc 这是一个匿名函数

    *  (Seq[Int], Option[S]) 两个参数
    *

    *  参数一：Seq[Int] Seq代表的是一个集合，int代表的是V的数据类型

    *  			---分组的操作，key相同的为一组 (hadoop,{1,1,1,1})

    *  参数二：Option[S] S代表的是中间状态State的数据类型，S对于我们的这个wordcount例子来讲，应该是

    *  int类型。中间状态存储的是单词出现的次数。 hadoop -> 4

    *

    *  Option[S] 返回值

    *

    */

    val wordcountDS=wordDS.updateStateByKey((values:Seq[Int],state:Option[Int]) =>{

     val currentCount= values.sum;  //获取此次本单词出现的次数

     val count=state.getOrElse(0);//获取上一次的结果 也就是中间状态

     Some(currentCount+count);

    })

   wordcountDS.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

源码描述：

def updateStateByKey[S: ClassTag](

      updateFunc: (Seq[V], Option[S]) => Option[S]

    ): DStream[(K, S)] = ssc.withScope {

    updateStateByKey(updateFunc, defaultPartitioner())

  }

mapWithStage

使用说明：维护key的状态。updateStateByKey的升级

使用注意：使用该算子需要设置checkpoint

使用示例：

object MapWithStateTest {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local[2]").setAppName("MapWithStateDemo")

    val  ssc=new StreamingContext(conf,Seconds());

    ssc.checkpoint(".")

    val fileDS=ssc.socketTextStream("hadoop1", )

    val wordDstream =fileDS.flatMap { line => line.split("\t") }

    .map { word => (word,) }

    /**

     * word: String, one: Option[Int], state: State[Int]

     * 这个函数里面有三个参数

     * 第一个参数：word: String  代表的就是key

     * 第二个参数：one: Option[Int] 代表的就是value

     * 第三个参数：state: State[Int] 代表的就是状态（历史状态，也就是上次的结果）

     *

     * hello,4

     *

     * hello,1

     *

     * hello,5

     */

      val mappingFunc = (word: String, one: Option[Int], state: State[Int]) => {

      val sum = one.getOrElse() + state.getOption.getOrElse()

      val output = (word, sum)

      state.update(sum)

      output

    　}

    val initialRDD = ssc.sparkContext.parallelize(List(("hello", ), ("world", )))

    val stateDstream = wordDstream.mapWithState(

      StateSpec.function(mappingFunc).initialState(initialRDD))

      stateDstream.print();

    ssc.start()

    ssc.awaitTermination()

  }

}

Spark-Streaming 常用流式计算算子的更多相关文章

Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）
KafkaStreaming.scala文件 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf impor ...
spark streaming流式计算---监听器
随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能.每一个新功能被挖掘,就可以使开发过程变得更加便利一点.甚至使很多不可能完成或者完成起来比较复杂的操作,变成 ...
spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）
在流式计算过程中,难免会连接第三方存储平台(redis,mysql...).在操作过程中,大部分情况是在foreachPartition/mapPartition算子中做连接操作.每一个分区只需要连接 ...
Storm：分布式流式计算框架
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 由于Storm的处理组件都是分布式的,而且处理 ...
流式计算新贵Kafka Stream设计详解--转
原文地址:https://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653162822&idx=1&sn=8c4611436 ...
Others-阿里专家强琦：流式计算的系统设计和实现
阿里专家强琦:流式计算的系统设计和实现更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 阿里云数据事业部强琦为大家带来题为“流式计算的系统设计与实现”的演讲,本 ...
【流处理】Kafka Stream-Spark Streaming-Storm流式计算框架比较选型
Kafka Stream-Spark Streaming-Storm流式计算框架比较选型 elasticsearch-head Elasticsearch-sql client NLPchina/el ...
Storm简介——实时流式计算介绍
概念实时流式计算: 大数据环境下,流式数据将作为一种新型的数据类型,这种数据具有连续性.无限性和瞬时性.是实时数据处理所面向的数据类型,对这种流式数据的实时计算就是实时流式计算. 特征实时流式计算 ...
Spark Streaming与流处理
Spark Streaming与流处理一.流处理 1.1 静态数据处理 1.2 流处理二.Spark Streaming 2.1 简介 2 ...

随机推荐

session的MaxInactiveInterval=0在tomcat6和tomcat8不同表现
在tomcat6中调用 request.getSession().setMaxInactiveInterval(0); 这个session会立即过期. 而在tomcat8中,同样的调用,会导致这个se ...
POJ-2395 Out of Hay---MST最大边
题目链接: https://vjudge.net/problem/POJ-2395 题目大意: 求MST中的最大边,和POJ-2495类似思路: 模板直接过 #include<iostream ...
BestCoder Round #91 1001 Lotus and Characters
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6011 题意: Lotus有nn种字母,给出每种字母的价值以及每种字母的个数限制,她想构造一个任意长度的 ...
DP，得到最多苹果，(POJ2385)
题目链接:http://poj.org/problem?id=2385 题意: 牛在两棵苹果树下收集苹果,牛只能在这两棵树之间走动w次,在t时刻,某棵树会掉下苹果. 解题报告: ///dp[t][w] ...
VMware 12安装Mac OS X 10.11
去年写了一篇安装Mac OS X 10.10的文章,看到大家都想体验OS X,大多数都能成功,但也在其中发现了一些问题,所以更新一下,希望对大家有所帮助. 1048VMware 11安装Mac O ...
nvl()函数和nvl2()函数
如果你某个字段为空,但是你想让这个字段显示0,可以使用nvl(字段名,0),当然这个0也可以换成其他东西,如:1,2,3…… 一 NVL(表达式1,表达式2) 如果表达式1为空值,NVL返回值为表达式 ...
Anaconda下安装 TensorFlow 和 keras 以及连接pycharm
首先在官网下载Anaconda https://www.anaconda.com/download/ 安装时注意勾选第一个,增加环境变量安装好后再windows界面打开Anaconda Promp ...
转：2018最全Redis面试题整理
Java面试----2018最全Redis面试题整理 1.什么是Redis? 答:Redis全称为:Remote Dictionary Server(远程数据服务),是一个基于内存的高性能key-va ...
H5之audio标签放音兼容所有浏览器方法
前端交流群,群文件提供大量文档.书籍和资料.期待你的加入!群号:127768464 由于项目需要,最近刚做了一个网页放音的功能,使用到了H5新标签<audio></audio> ...
Tomcat+jdk 环境处理 java jsp代码编写web环境的容器
Tomcat是由 Apache 软件基金会下属的 Jakarta 项目开发的一个Servlet 容器,按照 SunMicrosystems 提供的技术规范,实现了对 Servlet 和 JavaSer ...

Spark-Streaming 常用流式计算算子

UpdateStateByKey

mapWithStage

Spark-Streaming 常用流式计算算子的更多相关文章

随机推荐

热门专题