来源Spark官方文档
http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programming-model

编程模型

结构化流中的核心概念就是将活动数据流当作一个会不断增长的表。这是一个新的流处理模型，但是与批处理模型很相似。你在做流式计算就像是标准针对静态表的批查询，Spark会在一个无限输入的表上进行增量查询。我们来从更多详细内容来理解这个模型。

基本概念

将输入的数据流理解为“写入表”，每个流中到达的数据就像是写入表中新增的一行。

针对输入的查询会生成“结果表”。每个触发间隔之间（比如1秒钟），就会有新的行添加到“写入表”，最终更新结果表。当结果表变更后，我们能够将变更的结果行写入外部存储。

“输出（Output）”定义为写入外部存储的内容。输出存在几种模式：

完全模式（Complete Mode） ：整个更新后的结果表会全部写入外部存储。具体的全表写入方式取决于与存储的底层连接。
增量模式（Append Mode） ：从上次触发后的新增结果表数据才会写入外部存储。这个模式只适用于那些预期结果表中的存量数据不会变化的查询。
更新模式（Update Mode） ：从上次触发后的更新结果表数据才会写入外部存储（从Spark 2.1.1开始生效）。注意本模式和完全模式的差异，本模式下只会输出上次触发后的变更行。如果查询不包含聚合，基本会和增量模式相同。

要注意每个模式都有确定的适配的查询，这个会在稍后讨论。
为了解释这个模型的使用方式，我们用上面的快速示例来辅助理解模型。第一个DataFrame类型的变量 line 就是写入表，而最后DataFrame类型的变量 wordCounts 就是结果表。注意针对流的查询方法，从 line 生成 wordCounts 和一个静态的DataFrame完全相同。当查询开始之后，Spark会持续检查从socket链接传入的新数据。如果存在新数据，Spark会运行“增量”查询，并且针对新数据计算更新的计数，整合之前运行的计数，如下图所示。

注意结构化流并没有存储整张表。从数据源读取最近有效的数据，增量的处理并且更新结果数据，然后丢弃源数据。Spark只保留最小中间状态数据，用于更新结果（例如上面例子中的中间统计结果计数）。
这个模型明显和其他的流处理引擎不同。许多流处理系统要求用户自行维护运行聚合，因为有诸如容错性（fault-tolerance）、数据一致性（data consistency：at-least-once, at-most-once, exactly-once）。在这个模型中，当有新数据时，由Spark负责更新结果表，因此解放了用户无需关注。我们以模型处理事件时间和延迟数据作为例子来看下。

处理事件时间和延迟数据

事件时间是包含在数据本身的。很多应用都希望基于事件时间操作。例如你的想要获取物联网设备每分钟产生事件数量，然后你可能希望使用数据生成的时间（这就是事件时间），而不是Spark接收到他们的时间。事件时间在这个模型中是很自然的，因为每个设备产生事件都是都是表中的一行数据，而事件时间就是一行数据中的一列。这样基于窗口的聚合（例如每分钟的事件数量）可以作为基于事件时间列做的特别的分组和聚合。每个时间窗口都是一个分组，每行数据也可以属于多个窗口或分组。因此类似这种基于事件时间的聚合查询能够在静态数据集（例如收集的设备事件日志）和动态数据流，能够是用户的使用比较简单。
此外模型天然的能够基于事件时间处理延迟到达的数据。当Spark更新结果表时，他仍然能够针对延迟数据来更新历史聚合的结果，也同时可以清除历史聚合数据，从而限制中间状态数据的大小。从Spark2.1开始，我们支持水位线概念（watermarking），允许用户指定延迟数据的阈值，系统也能够清理旧状态数据。稍后会在窗口操作章节介绍。

容错性

保证唯一投送端到端是结构化流的设计中的关键目标之一。为了达成这样的目标，我们设计了结构化流的源（Source）、汇（Sink）以及执行引擎能够可靠的跟踪处理进度，从而能够重启/重新处理来应对各种故障。每个数据流的源应该都有偏移量概念（类似Kafka的偏移量，或者Amazon Kinesis 的序列编号）来跟踪流中的读取位置。引擎使用保存点和先写日志来记录每次处理的数据偏移边界。流的汇设计天然就支持重新处理的幂等性。整合起来，使用可重放的源与幂等的汇，结构化流在面对任何故障时都能保证端对端严格一致性（end-to-end exactly-once semantics）。

Spark流式编程介绍 - 编程模型的更多相关文章

Storm简介——实时流式计算介绍
概念实时流式计算: 大数据环境下,流式数据将作为一种新型的数据类型,这种数据具有连续性.无限性和瞬时性.是实时数据处理所面向的数据类型,对这种流式数据的实时计算就是实时流式计算. 特征实时流式计算 ...
实时查询系统架构：spark流式处理+HBase+solr/ES查询
最近要做一个实时查询系统,初步协商后系统的框架 1.流式计算:数据都给spark 计算后放回HBase 2.查询:查询采用HBase+Solr/ES
Spark流式状态管理（updateStateByKey、mapWithState等）
通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基 ...
流式 storm介绍
Storm是什么如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统.按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义.我们都知道,根据goo ...
Stream流式编程
Stream流式编程 Stream流说到Stream便容易想到I/O Stream,而实际上,谁规定“流”就一定是“IO流”呢?在Java 8中,得益于Lambda所带来的函数式编程,引入了一个 ...
Paip.Php Java 异步编程。推模型与拉模型。响应式（Reactive）”编程FutureData总结... 1
Paip.Php Java 异步编程.推模型与拉模型.响应式(Reactive)"编程FutureData总结... 1.1.1 异步调用的实现以及角色(:调用者提货单) F ...
20190827 On Java8 第十四章流式编程
第十四章流式编程流的一个核心好处是,它使得程序更加短小并且更易理解.当 Lambda 表达式和方法引用(method references)和流一起使用的时候会让人感觉自成一体.流使得 Java ...
GPU编程和流式多处理器（四）
GPU编程和流式多处理器(四) 3.2. 单精度(32位) 单精度浮点支持是GPU计算的主力军.GPU已经过优化,可以在此数据类型上原生提供高性能,不仅适用于核心标准IEEE操作(例如加法和乘法),还 ...
GPU编程和流式多处理器（三）
GPU编程和流式多处理器(三) 3. Floating-Point Support 快速的本机浮点硬件是GPU的存在理由,并且在许多方面,它们在浮点实现方面都等于或优于CPU.全速支持异常可以根据每条 ...

随机推荐

[记录]Python高并发编程
========== ==多进程== ========== 要让Python程序实现多进程(multiprocessing),我们先了解操作系统的相关知识. Unix/Linux操作系统提供了一个fo ...
Spring Cloud 之 Zuul基础.
一.概述 API 网关是一个更为智能的应用服务器,它的定义类似于面向对象设计模式中的 Facade 模式,它的存在就像是整个微服务架构系统的门面一样,所有的外部客户端访问都需要经过它来进行调度和过滤 ...
Android使用webService(发送xml数据的方式，不使用jar包)
Android使用webService可以用ksoap2.jar包来使用.但是我觉得代码不好理解,而且记不住. 所以我查询了好多资料,以及自己的理解.可以用代码发送http请求(发送xml数据)来访问 ...
在vue中创建自定义指令
原文:https://dev.to/ratracegrad/creating-custom-directives-in-vue-58hh 翻译:心上有杨指令是带有 v- 前缀的特殊属性.指令的作用是 ...
golang在多个go routine中进行map或者slice操作应该注意的对象。
因为golang的map和列表切片都是引用类型,且非线程安全的,所以在多个go routine中进行读写操作的时候,会产生“map read and map write“的panic错误. 某一些类型 ...
python使用kazoo操作zookeeper时候出现的"kazoo.exceptions.ConnectionLoss"错误
在往zk中写入数据的时候,突然遇到 “kazoo.exceptions.ConnectionLoss“错误,然而对zk链接进行检查,在set之前状态是”CONNECT“. 经过测试后发现是因为写入的字 ...
CSDN 免积分下载
你可能不相信这个标题,那么打开下面的链接试试吧 ↓↓↓ Github项目最新功能 ↓↓↓ 0积分资源搜索 0积分资源搜索(备用地址) CSDN资源导出 CSDN资源下载体验群 (每日可免费下载一次) ...
色彩缤纷的python（改变字体颜色及样式不完全版）
色彩缤纷的python(改变字体颜色及样式) *补上昨天随笔中提到的改变字体颜色样式的方法,昨日随笔https://www.cnblogs.com/Du704/p/11265958.html 在项目过 ...
Samba：打造企业级授权文件共享服务器
写在前面的话先来说说故事背景:公司内部文件服务器的解决方案其实很多,对于中小型互联网公司,大多的在这一块的选型还是 FTP,或者 VSFTP,但是个人实在是对那个东西喜欢不起来,于是就选择了配置相对 ...
IDEA下基于MAVEN的SSM框架整合
源码可以以上传github https://github.com/ingxx/ssm_first 最近把用IDEA把SSM框架整合一遍遇到了不少坑,在这里写出来这里maven我使用的是自己下载的3. ...

Spark流式编程介绍 - 编程模型

编程模型

基本概念

处理事件时间和延迟数据

容错性

Spark流式编程介绍 - 编程模型的更多相关文章

随机推荐

热门专题