spark streaming之 windowDuration、slideDuration、batchDuration

spark streaming 不同于sotm，是一种准实时处理系统。storm 中，把批处理看错是时间教程的实时处理。而在spark streaming中，则反过来，把实时处理看作为时间极小的批处理。

1、三个时间参数

spark streaming 中有三个关于时间的参数，分别如下：

窗口时间windowDuration：当前窗口要统计多长时间的数据，是批量时间的整数倍

滑动时间slideDuration：要多长时间更新一次结果，是批量时间的整数倍

批量时间batchDuration：多长时间创建一个批次，与实际业务无关，只与数据量有关，数据量大则可以设置短一些，数据量小则设置长一些，但必须小于其他两个时间，

2、该怎么设置？

为方便理解，就拿咱们最常见的日启、日活、周启、周活作为示例

注：1、实际中日启、日活、周启、周活更多是用批处理，此处只是拿来方便大家理解

2、此处不是严格意义上的日启、周启。此处的日：最近24小时，周：最近7天

案例1：每隔一小时，统计产品的日启、日活，

窗口时间：1日，滑动时间：1小时，批量时间：1小时、半小时、15分钟、10分钟、5分钟、2分钟均可，视数据量大小而定

案例2：每天统计最近七天累计启动、活跃

窗口时间：7日，滑动时间：1日批量时间：一小时、半小时、10分钟、5分钟

3、实战

为了理解上边参数是怎么设置的，我们对假定现在有个需求，需要对输入的字母进行计数。

使用nc -lk 9999 模拟生产者，发送数据，streaming 通过socket接收数据

实战1：每10秒统计当前输入的字符

适用：彻底非累加业务

  import org.apache.spark.streaming.{Minutes, Seconds, StreamingContext}

  import org.apache.spark.SparkConf

  val sparkConf = new SparkConf().setAppName("socket-streaming-wordcount").setMaster("local[2]")

  //10秒创建一个批次

  val ssc = new StreamingContext(sparkConf, Seconds(10))

  val lines = ssc.socketTextStream("localhost", 9999)

    val wordCounts = lines.flatMap(_.split(" ")).map(x => (x, 1l))

    val current_stream = wordCounts.reduceByKey(_ + _)

    current_stream.print()

    current_stream.repartition(1).saveAsTextFiles("/data/socket_wordcount_current.")

    ssc.start()

    ssc.awaitTermination()

启动生产者 nc -lk 9999

在spark-shell中输入上边代码

在nc 的终端下，

输入字符操作1、第一个10秒，输入a，第二个10秒输入b，等待10秒，在spark-shell中确认第二次计算完成后，查看新产生文件，期望结果【 (a,1) (b,1) 】原因：我们当前仅输入了a、b

输入字符操作2、第四个10秒，输入c，第五个10秒输入d，等待10秒，在spark-shell中确认第二次计算完成后，查看新产生文件期望【 (c,1) (d,1)】原因：我们当前输入了c、d

输入字符操作3、这时，不需要操作，等待30秒，在spark-shell中确认第三次计算完成后，查看新产生文件期望【】原因：当前我们没有输入，所以没有任何字符可以统计

实战2、每10秒统计历史所有输入的字符。

适用范围：计算历史(包含窗口之外)累计数据，经常用于统计“总装机量”之类

import org.apache.spark.streaming.{Minutes, Seconds, StreamingContext}
import org.apache.spark.SparkConf

val sparkConf = new SparkConf().setAppName("socket-streaming-wordcount").setMaster("local[2]")

  //10秒创建一个批次

  val ssc = new StreamingContext(sparkConf, Seconds(10))

//累加所有经过的数据

    val updateFunc = (values: Seq[Long], state: Option[Long]) => {

      val currentCount = values.foldLeft(0l)(_ + _)

      val previousCount = state.getOrElse(0l)

      Some(currentCount + previousCount)

    }

    ssc.checkpoint("socket_wordcount_history")

    val lines = ssc.socketTextStream("localhost", 9999)

    val wordCounts = lines.flatMap(_.split(" ")).map(x => (x, 1l))

    val history_stream = wordCounts.updateStateByKey[Long](updateFunc)//合并当前数据和历史数据

    history_stream.print()

    history_stream.repartition(1).saveAsTextFiles("/data/socket_wordcount_history.")

    ssc.start()

    ssc.awaitTermination()

启动生产者 nc -lk 9999

在spark-shell中输入上边代码

在nc 的终端下，

输入字符操作1、第一个10秒，输入a，第二个10秒输入b，等待10秒，在spark-shell中确认第二次计算完成后，查看新产生文件，期望结果【 (a,1) (b,1) 】原因：我们当前输入了a、b

输入字符操作2、第四个10秒，输入c，第五个10秒输入d，等待10秒，在spark-shell中确认第二次计算完成后，查看新产生文件期望【 (a,1) (b,1) (c,1) (d,1)】原因：我们当前输入了c、d，历史输入过 a、b

输入字符操作3、这时，不需要操作，等待30秒，在spark-shell中确认第三次计算完成后，查看新产生文件期望【 (a,1) (b,1) (c,1) (d,1)】原因：当前我们没有输入，但是，历史曾经输入过a、b、c、d

输入字符操作4、这时，仍不需要操作，等待30秒，在spark-shell中确认第四次计算完成后，查看新产生文件期望【 (a,1) (b,1) (c,1) (d,1)】原因：当前我们没有输入，但是，历史曾经输入过a、b、c、d

之后，即使没有输入abcd，统计结果仍包含abcd这四个字符各1次

实战3、每隔30秒，统计最近1分钟输入的字母。窗口内历史累加

（适用范围：非累加业务，这里的累加指的是超出window范围）

sc.stop

import org.apache.spark.streaming.{Minutes, Seconds, StreamingContext}import org.apache.spark.SparkConf

val updateFunc = (values: Seq[Long], state: Option[Long]) => {

val currentCount = values.foldLeft(0l)(_ + _)

val previousCount = state.getOrElse(0l)

Some(currentCount + previousCount)

}

val sparkConf = new SparkConf().setAppName("socket-streaming-wordcount").setMaster("local[2]")

val ssc = new StreamingContext(sparkConf, Seconds())   //10秒创建一个批次

ssc.checkpoint("socket-kafka-wordcount_recent")

val lines = ssc.socketTextStream("localhost", 9999)

val words = lines.flatMap(_.split(" "))

val wordCounts = words.map(x => (x, 1l))

val stateDstream = wordCounts.reduceByKeyAndWindow(_ + _, _ - _, Minutes(1), Seconds(30))  //每30秒算一次，数据范围为最近一分钟内收到的数据  另外，使用window时，需要设置checkpoint

stateDstream.print()

stateDstream.repartition(1).saveAsTextFiles("/data/socket-streaming-wordcount.log")

ssc.start()

ssc.awaitTermination()

启动生产者 nc -lk 9999

在spark-shell中输入上边代码

在nc 的终端下，

输入字符操作1、第一个10秒，输入a，第二个10秒输入b，等待10秒，在spark-shell中确认第二次计算完成后，查看新产生文件，期望结果【 (a,1) (b,1) 】原因：最近1分钟，我们只输入了a、b

输入字符操作2、第四个10秒，输入c，第五个10秒输入d，等待10秒，在spark-shell中确认第二次计算完成后，查看新产生文件期望【 (a,1) (b,1) (c,1) (d,1)】原因：最近1分钟，我们只输入了a、b、c、d

输入字符操作3、这时，不需要操作，等待30秒，在spark-shell中确认第三次计算完成后，查看新产生文件期望【 (a,0) (b,0) (c,1) (d,1)】原因：最近1分钟，我们只输入了c、d ,1分钟之前输入的a、b将不再在统计范围之内

输入字符操作4、这时，仍不需要操作，等待30秒，在spark-shell中确认第四次计算完成后，查看新产生文件期望【 (a,0) (b,0) (c,0) (d,0)】原因：最近1分钟，我们没有任何输入,1 分钟之前输入的a、b、c、d将不再在统计范围之内

spark streaming之 windowDuration、slideDuration、batchDuration的更多相关文章

Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
Spark Streaming fileStream实现原理
fileStream是Spark Streaming Basic Source的一种,用于“近实时”地分析HDFS(或者与HDFS API兼容的文件系统)指定目录(假设:dataDirectory)中 ...
Spark学习之Spark Streaming
一.简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...
Spark Streaming之窗口函数和状态转换函数
流处理主要有3种应用场景:无状态操作.window操作.状态操作. reduceByKeyAndWindow import kafka.serializer.StringDecoder import ...
Spark Streaming流式处理
Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant s ...
Spark Streaming源码分析 – JobScheduler
先给出一个job从被generate到被执行的整个过程在JobGenerator中,需要定时的发起GenerateJobs事件,而每个job其实就是针对DStream中的一个RDD,发起一个Spark ...
Spark Streaming源码分析 – InputDStream
对于NetworkInputDStream而言,其实不是真正的流方式,将数据读出来后不是直接去处理,而是先写到blocks中,后面的RDD再从blocks中读取数据继续处理这就是一个将stream离散 ...
Spark Streaming源码分析 – DStream
A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous sequence o ...
Spark Streaming数据清理内幕彻底解密
本讲从二个方面阐述: 数据清理原因和现象数据清理代码解析 Spark Core从技术研究的角度讲对Spark Streaming研究的彻底,没有你搞不定的Spark应用程序. Spark Stre ...

随机推荐

Swift 语言附注类型
本页包括内容: 类型注解(Type Annotation) 类型标识符(Type Identifier) 元组类型(Tuple Type) 函数类型(Function Type) 数组类型(Array ...
python3.6.1 安装PyQt5，以及配置QTDesigner，PyUIC
本人主机win10 64,python版本是3.6.1 64 注意python版本一定得是3.6.1 64位的,我原来电脑是安装的32位的,浪费了好长时间 (MMP) 第一步:安装python,自己官 ...
go-007-条件语句
一.概述条件语句需要开发者通过指定一个或多个条件,并通过测试条件是否为 true 来决定是否执行指定语句,并在条件为 false 的情况在执行另外的语句. 1.if结构 if 布尔表达式 { /* ...
My Neural Network isn't working! What should I do?
参考文献:http://theorangeduck.com/page/neural-network-not-working 我的网络不起作用!该怎么办? 因此,你在深度学习方面正在开发下一个重大突破, ...
Linux系统——sed命令
sed命令精讲 cat工作原理 cat命令只想文件,把文件打开后,将文件中所有内容一次性读到内存中,从内存里一次性输出到屏幕上,此时可能存在内存装不下的情况,因此cat命令只能查看小文件内容,不能读取 ...
Linux系统——进程和计划任务管理
进程和计划任务管理一.进程和程序的关系进程:在CPU及内存中运行的程序代码:动态执行的代码:每个进程可以创建一个或多个进程程序:保存在硬盘.光盘等介质中的可执行代码和数据:静态保存的代码二.基 ...
基于HTML5 FileSystem API的使用介绍(转)
FileSystem提供了文件夹和文件的创建.移动.删除等操作,大大方便了数据的本地处理, 而且所有的数据都是在沙盒(sandboxed)中,不同的web程序不能互相访问,这就保证了数据的完整和安全 ...
ISAP模板
#include<bits/stdc++.h> using namespace std; using namespace std; typedef long long ll; const ...
HDU 4746 Mophues（莫比乌斯反演）
题意:求\(1\leq i \leq N,1\leq j \leq M,gcd(i,j)\)的质因子个于等于p的对数. 分析:加上了对质因子个数的限制. 设\(f(d):[gcd(i,j)=d]\) ...
[转]运动检测（前景检测）之（二）混合高斯模型GMM
转自:http://blog.csdn.net/zouxy09/article/details/9622401 因为监控发展的需求,目前前景检测的研究还是很多的,也出现了很多新的方法和思路.个人了解的 ...

spark streaming之 windowDuration、slideDuration、batchDuration​

spark streaming之 windowDuration、slideDuration、batchDuration​的更多相关文章

随机推荐

热门专题

spark streaming之 windowDuration、slideDuration、batchDuration

spark streaming之 windowDuration、slideDuration、batchDuration的更多相关文章