周期性清除Spark Streaming流状态的方法

在Spark Streaming程序中，若需要使用有状态的流来统计一些累积性的指标，比如各个商品的PV。简单的代码描述如下，使用mapWithState()算子：

val productPvStream = stream.mapPartitions(records => {

    var result = new ListBuffer[(String, Int)]

      for (record <- records) {

        result += Tuple2(record.key(), 1)

      }

    result.iterator

  }).reduceByKey(_ + _).mapWithState(

    StateSpec.function((productId: String, pv: Option[Int], state: State[Int]) => {

      val sum = pv.getOrElse(0) + state.getOption().getOrElse(0)

      state.update(sum)

      (productId, sum)

  })).stateSnapshots()

PV并不是一直累加的，而是每天归零，重新统计数据。要达到在凌晨0点清除状态的目的，有以下两种方法。

编写脚本重启Streaming程序：

用crontab、Azkaban等在凌晨0点调度执行下面的Shell脚本：

stream_app_name='com.xyz.streaming.MallForwardStreaming'

cnt=`ps aux | grep SparkSubmit | grep ${stream_app_name} | wc -l`

if [ ${cnt} -eq 1 ]; then

  pid=`ps aux | grep SparkSubmit | grep ${stream_app_name} | awk '{print $2}'`

  kill -9 ${pid}

  sleep 20

  cnt=`ps aux | grep SparkSubmit | grep ${stream_app_name} | wc -l`

  if [ ${cnt} -eq 0 ]; then

    nohup sh /path/to/streaming/bin/mall_forward.sh > /path/to/streaming/logs/mall_forward.log 2>&1

  fi

fi

这种方式最简单，也不需要对程序本身做任何改动。但随着同时运行的Streaming任务越来越多，就会显得越来越累赘了。

给StreamingContext设置超时

在程序启动之前，先计算出当前时间点距离第二天凌晨0点的毫秒数：

def msTillTomorrow = {

  val now = new Date()

  val tomorrow = new Date(now.getYear, now.getMonth, now.getDate + 1)

  tomorrow.getTime - now.getTime

}

然后将Streaming程序的主要逻辑写在while(true)循环中，并且不像平常一样调用StreamingContext.awaitTermination()方法，而改用awaitTerminationOrTimeout()方法，即：

while (true) {

    val ssc = new StreamingContext(sc, Seconds(BATCH_INTERVAL))

    ssc.checkpoint(CHECKPOINT_DIR)

    // ...处理逻辑...

    ssc.start()

    ssc.awaitTerminationOrTimeout(msTillTomorrow)

    ssc.stop(false, true)

    Thread.sleep(BATCH_INTERVAL * 1000)

  }

在经过msTillTomorrow毫秒之后，StreamingContext就会超时，再调用其stop()方法（注意两个参数，stopSparkContext表示是否停止关联的SparkContext，stopGracefully表示是否优雅停止），就可以停止并重启StreamingContext。

以上两种方法都是仍然采用Spark Streaming的机制进行状态计算的。如果其他条件允许的话，还可以抛弃mapWithState()，直接借助外部存储自己维护状态。比如将Redis的Key设计为product_pv:[product_id]:[date]，然后在Spark Streaming的每个批次中使用incrby指令，就能方便地统计PV了，不必考虑定时的问题。

转载自微信公众号：大数据技术与架构

周期性清除Spark Streaming流状态的方法的更多相关文章

Dream_Spark-----Spark 定制版：005~贯通Spark Streaming流计算框架的运行源码
Spark 定制版:005~贯通Spark Streaming流计算框架的运行源码本讲内容: a. 在线动态计算分类最热门商品案例回顾与演示 b. 基于案例贯通Spark Streaming的运 ...
Spark Streaming流式处理
Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant s ...
Spark之 Spark Streaming流式处理
SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理.Spark Streaming有高吞吐量和容错能力强等特点.Spark Streamin ...
5.Spark Streaming流计算框架的运行流程源码分析2
1 spark streaming 程序代码实例代码如下: object OnlineTheTop3ItemForEachCategory2DB { def main(args: Array[Str ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
Spark Streaming带状态更新
带状态的更新是使用的updateStateByKey方法,里面传入一个函数,函数要自己写,注意需要设置checkpoint import org.apache.spark.streaming.kafk ...
贯通Spark Streaming流计算框架的运行源码
本章节内容: 一.在线动态计算分类最热门商品案例回顾二.基于案例贯通Spark Streaming的运行源码先看代码(源码场景:用户.用户的商品.商品的点击量排名,按商品.其点击量排名前三): p ...
基于案例贯通 Spark Streaming 流计算框架的运行源码
本期内容 : Spark Streaming+Spark SQL案例展示基于案例贯穿Spark Streaming的运行源码一. 案例代码阐述 : 在线动态计算电商中不同类别中最热门的商品排名,例 ...
spark streaming流式计算---监听器
随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能.每一个新功能被挖掘,就可以使开发过程变得更加便利一点.甚至使很多不可能完成或者完成起来比较复杂的操作,变成 ...

随机推荐

多线程并行_countDown
/** * 首次启动加载数据至缓存 */ public class ApplicationStartTask { private static Logger logger = LoggerFactor ...
为什么不建议把数据库部署在Docker容器内?
近2年Docker非常的火热,各位开发者恨不得把所有的应用.软件都部署在Docker容器中,但是您确定也要把数据库也部署的容器中吗?这个问题不是子虚乌有,因为在网上能够找到很多各种操作手册和视频教程, ...
Eureka Server启动过程分析
1.首先,SpringCloud充分利用了SpringBoot的自动装配特点 eureka-server的jar包,发现在META-INF下面的配置文件spring.factories,里面记录了Sp ...
(转) MySQL常用Json函数
原文:http://www.cnblogs.com/waterystone/p/5626098.html 官方文档:JSON Functions Name Description JSON_APPEN ...
WEB安全讨论-表单登录是先验证验证码还是密码
表单登录是先验证验证码还是密码? 肯定是验证码呀!!!这是毋庸置疑的.但是发现有人会验证密码,感觉先验证密码和先验证验证码是一个概念是一样的.但是其实是完全不一样的.下面我们来一起详细的剖析一下: 消 ...
Kafka 探险 - 架构简介
Kafka 探险 - 架构简介这个 Kafka 的专题,我会从系统整体架构,设计到代码落地.和大家一起杠源码,学技巧,涨知识.希望大家持续关注一起见证成长! 我相信:技术的道路,十年如一日!十年磨一 ...
Centos7安装RabbitMQ详细教程
MQ引言什么是MQ MQ:message Queue翻译为消息队列,通过典型的生产者和消费者模型不断向消息队列中生产消息,消费者不断从队列中获取消息.因为消息的生产和消费都是一部的,而且只关心消息的 ...
【Mysql】[Err] 1153 - Got a packet bigger than 'max_allowed_packet' bytes
今天用Navicat导入的时候报错 [Err] 1153 - Got a packet bigger than 'max_allowed_packet' bytes 原因是数据库默认是16M的数据,这 ...
Os-hackNos-特权文件提权
一信息收集 netdiscover -i eth0 -r 10.10.10.0/24 扫描ip nmap -sP 192.168.43.0/24 扫描开放的端口使用"-sP"选 ...
Apache目录详解
Apache的主要目录和配置文件理解参考链接:http://httpd.apache.org/docs/2.4/misc/security_tips.html 一.Apache主要配置文件注释(演示 ...

周期性清除Spark Streaming流状态的方法

周期性清除Spark Streaming流状态的方法的更多相关文章

随机推荐

热门专题