上篇了解了一些基本的Structured Streaming的概念，知道了Structured Streaming其实是一个无下界的无限递增的DataFrame。基于这个DataFrame，我们可以做一些基本的select、map、filter操作，也可以做一些复杂的join和统计。本篇就着重介绍下，Structured Streaming支持的输入输出，看看都提供了哪些方便的操作。

数据源

Structured Streaming 提供了几种数据源的类型，可以方便的构造Steaming的DataFrame。默认提供下面几种类型：

File：文件数据源

file数据源提供了很多种内置的格式，如csv、parquet、orc、json等等，就以csv为例:

package xingoo.sstreaming

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.types.StructType

object FileInputStructuredStreamingTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder

      .master("local")

      .appName("StructuredNetworkWordCount")

      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

    import spark.implicits._

    val userSchema = new StructType().add("name", "string").add("age", "integer")

    val lines = spark.readStream

      .option("sep", ";")

      .schema(userSchema)

      .csv("file:///Users/xingoo/IdeaProjects/spark-in-action/data/*")

    val query = lines.writeStream

      .outputMode("append")

      .format("console")

      .start()

    query.awaitTermination()

  }

}

这样，在对应的目录下新建文件时，就可以在控制台看到对应的数据了。

aaa;1

bbb;2

aaa;5

ddd;6

还有一些其他可以控制的参数：

maxFilesPerTrigger 每个batch最多的文件数，默认是没有限制。比如我设置了这个值为1，那么同时增加了5个文件，这5个文件会每个文件作为一波数据，更新streaming dataframe。
latestFirst 是否优先处理最新的文件，默认是false。如果设置为true，那么最近被更新的会优先处理。这种场景一般是在监听日志文件的时候使用。
fileNameOnly 是否只监听固定名称的文件。

socket网络数据源

在我们自己练习的时候，一般都是基于这个socket来做测试。首先开启一个socket服务器，nc -lk 9999，然后streaming这边连接进行处理。

  spark.readStream

  .format("socket")

  .option("host", "localhost")

  .option("port", 9999)

  .load()

kafka数据源

这个是生产环境或者项目应用最多的数据源，通常架构都是：

应用数据输入-->kafka-->spark streaming -->其他的数据库

由于kafka涉及的内容还比较多，因此下一篇专门介绍kafka的集成。

输出

在配置完输入，并针对DataFrame或者DataSet做了一些操作后，想要把结果保存起来。就可以使用DataSet.writeStream()方法，配置输出需要配置下面的内容：

format ：配置输出的格式
output mode：输出的格式
query name：查询的名称，类似tempview的名字
trigger interval：触发的间隔时间，如果前一个batch处理超时了，那么不会立即执行下一个batch，而是等下一个trigger时间在执行。
checkpoint location：为保证数据的可靠性，可以设置检查点保存输出的结果。

output Mode

详细的来看看这个输出模式的配置，它与普通的Spark的输出不同，只有三种类型：

complete，把所有的DataFrame的内容输出，这种模式只能在做agg聚合操作的时候使用，比如ds.group.count，之后可以使用它
append，普通的dataframe在做完map或者filter之后可以使用。这种模式会把新的batch的数据输出出来，
update，把此次新增的数据输出，并更新整个dataframe。有点类似之前的streaming的state处理。

输出的类型

Structed Streaming提供了几种输出的类型：

file，保存成csv或者parquet

noAggDF

  .writeStream

  .format("parquet")

  .option("checkpointLocation", "path/to/checkpoint/dir")

  .option("path", "path/to/destination/dir")

  .start()

console，直接输出到控制台。一般做测试的时候用这个比较方便。

noAggDF

  .writeStream

  .format("console")

  .start()

memory，可以保存在内容，供后面的代码使用

aggDF

  .writeStream

  .queryName("aggregates")

  .outputMode("complete")

  .format("memory")

  .start()

spark.sql("select * from aggregates").show()

foreach，参数是一个foreach的方法，用户可以实现这个方法实现一些自定义的功能。

writeStream

    .foreach(...)

    .start()

这个foreach的功能很强大，稍后也会详细的说明。

Structured Streaming教程(2) —— 常用输入与输出的更多相关文章

Structured Streaming教程(1) —— 基本概念与使用
近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中.在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件--Structu ...
Structured Streaming教程(3) —— 与Kafka的集成
Structured Streaming最主要的生产环境应用场景就是配合kafka做实时处理,不过在Strucured Streaming中kafka的版本要求相对搞一些,只支持0.10及以上的版本. ...
CC2530入门教程-02】CC2530的通用I/O端口输入和输出控制
第2课 CC2530的通用I/O端口输入和输出控制广东职业技术学院欧浩源一.CC2530的引脚概述 CC2530微控制器采用QFN40封装,有40 个引脚.其中,有21个数字I/O端口,其中 ...
Spark Structured Streaming框架（2）之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
【CC2530入门教程-02】CC2530的通用I/O端口输入和输出控制
第2课 CC2530的通用I/O端口输入和输出控制小蜜蜂科教 / 广东职业技术学院欧浩源 [通用I/O端口视频教程:https://v.qq.com/x/page/x0793aol7us.ht ...
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单 ...
Spark Structured Streaming框架(2)之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Shell编程基础教程3--Shell输入与输出
3.Shell输入与输出 3.1.echo echo命令可以显示文本行或变量,或者把字符串输出到文件 echo [option] string ...
Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN
Structured Streaming 编程指南概述快速示例 Programming Model (编程模型) 基本概念处理 Event-time 和延迟数据容错语义 API 使用 Data ...

随机推荐

saltstack自动化运维系列⑥SaltStack实践安装配置HAproxy
saltstack自动化运维系列⑥SaltStack实践安装配置HAproxy 下载haproxy1.6.2.tar.gz下载地址:http://www.haproxy.org/download/1. ...
关于Java Web应用中的配置部署描述符web.xml
一．web.xml概述位于每个Web应用的WEB-INF路径下的web.xml文件被称为配置描述符,这个 web.xml文件对于Java Web应用十分重要,每个Java Web应用都必须包含一个w ...
sklearn,交叉验证中的分层抽样
StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同. 例子: import numpy as np from sklearn.m ...
node版本控制之nvm
windows下安装nvm 用nvm-noinstall.zip安装 1.nvm是个啥?nvm是一个可以让你在同一台机器上安装和切换不同版本node的工具linux系统的github地址:点我如果你是 ...
java 类字面常量,泛化的Class引用
类名.class 就是字面常量,代表的就是该类的Class对象引用.常量需要赋值给变量简单,安全. 编译期接受检查,不需要像forName一样置于try/catch块中. 加载后不会进行初始化,初始 ...
性能测试三十二：监控之Java线程监控
线程的五种状态 * 新建:new * 运行:runnable * 等待:waitting(无限期等待),timed waitting(限期等待) * 阻塞:blocked * 结束:terminate ...
pytest三：fixture_conftest.py 自定义测试用例的预置条件（setup）
用例加 setup 和 teardown 可以实现在测试用例之前或之后加入一些操作,但返种是整个脚本全局生效的,如果我想实现以下场景:用例 1 需要先登录,用例 2 不需要登录,用例 3 需要先登录. ...
【C++ Primer 第13章】5. 动态内存管理类
StrVec类的设计 [题目描述]:我们将实现标准库vector类的一个简化版本,我们所做的一个简化是不使用模板,我们类只用于string,因此,它被命名为StrVec. #include<io ...
K8s创建pod yaml文件详解
kubernetes创建pod的yaml文件,参数说明 apiVersion: v1 #指定api版本,此值必须在kubectl apiversion中 kind: Pod #指定创建资源的角色/类型 ...
Free DIY Tour HDU1224
一道很好的dfs加储存路径的题目 :路径保存:每次dfs都存i 当大于max时将临时数组保存到答案数组并不是当当前值大于最大值时更新路径还要加上一个条件:能回去 #include<bi ...

Structured Streaming教程(2) —— 常用输入与输出

数据源