学习Spark2.0中的Structured Streaming（一）

转载自：http://lxw1234.com/archives/2016/10/772.htm

Spark2.0新增了Structured Streaming，它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（DataFrame&SQL）。Structured Streaming顾名思义，它将数据源和计算结果都映射成一张”结构化”的表，在计算的时候以结构化的方式去操作数据流，大大方便和提高了数据开发的效率。

Spark2.0之前，流式计算通过Spark Streaming进行：

使用Spark Streaming每次只能消费当前批次内的数据，当然可以通过window操作，消费过去一段时间（多个批次）内的数据。举个简例子，需要每隔10秒，统计当前小时的PV和UV，在数据量特别大的情况下，使用window操作并不是很好的选择，通常是借助其它如Redis、HBase等完成数据统计。

Structured Streaming将数据源和计算结果都看做是无限大的表，数据源中每个批次的数据，经过计算，都添加到结果表中作为行。

先试试官方给的例子，在本地启动NetCat： nc -lk 9999

在另一个会话中：

cd $SPARK_HOME/bin

./spark-shell（以local模式进入spark-shell命令行），运行下面的程序：

    import org.apache.spark.sql.functions._

    import org.apache.spark.sql.SparkSession

    val spark = SparkSession.builder.appName("StructuredNetworkWordCount").getOrCreate()

    import spark.implicits._

    val lines = spark.readStream.format("socket").option("host", "localhost").option("port", ).load()

    val words = lines.as[String].flatMap(_.split(" "))

    val wordCounts = words.groupBy("value").count()

    val query = wordCounts.writeStream.outputMode("complete").format("console").start()

    query.awaitTermination()

在NetCat会话中输入”apache spark”，spark-shell中显示：

在NetCat会话中分两次再输入”apache hadoop”，”lxw1234.com hadoop spark”， spark-shell中显示：

可以看到，每个Batch显示的结果，都是完整的WordCount统计结果，这便是结算结果输出中的完整模式（Complete Mode）。

关于结算结果的输出，有三种模式：

Complete Mode：输出最新的完整的结果表数据。
Append Mode：只输出结果表中本批次新增的数据，其实也就是本批次中的数据；
Update Mode（暂不支持）：只输出结果表中被本批次修改的数据；

这些Output，可以直接通过连接器（如MySQL JDBC、HBase API等）写入外部存储系统。

再看看Append模式，
注意：Append模式不支持基于数据流上的聚合操作（Append output mode not supported when there
are streaming aggregations on streaming DataFrames/DataSets）；

    import org.apache.spark.sql.functions._

    import org.apache.spark.sql.SparkSession

    val spark = SparkSession.builder.appName("StructuredNetworkWordCount").getOrCreate()

    import spark.implicits._

    val lines = spark.readStream.format("socket").option("host", "localhost").option("port", ).load()

    val words = lines.as[String].flatMap(_.split(" "))

    val query = words.writeStream.outputMode("append").format("console").start()

    query.awaitTermination()

在NetCat中分三次输入：
apache spark
apache hadoop
lxw1234.com hadoop spark

spark-shell中显示：

只有当前批次的数据。

学习Spark2.0中的Structured Streaming（一）的更多相关文章

Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming
Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming 在Spark2.x中,Spark Streaming获得了比较全面的升级,称为St ...
浅谈Spark2.x中的Structured Streaming
在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好. 连续应用程序c ...
Spark3.0分布，Structured Streaming UI登场
近日,在Spark开源十周年之际,Spark3.0发布了,这个版本大家也是期盼已久.登录Spark官网,最新的版本已经是3.0.而且不出意外,对于Structured Streaming进行了再一次的 ...
DataFlow编程模型与Spark Structured streaming
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理:对应的批量计算,更准确的说法是 ...
Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN
Structured Streaming 编程指南概述快速示例 Programming Model (编程模型) 基本概念处理 Event-time 和延迟数据容错语义 API 使用 Data ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...
geotrellis使用（二十五）将Geotrellis移植到spark2.0
目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植 ...
Spark2.0机器学习系列之12：线性回归及L1、L2正则化区别与稀疏解
概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x). Spark中实现了: (1)普通最小二乘法 (2)岭回归(L2正规化) (3)La ...
Spark2.0机器学习系列之6：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析
概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树. GBDT这个算法还有一些其他的名字,比如说MART(Multiple Addi ...

随机推荐

IOS设计模式第二篇之单例设计模式
现在我们的组件已经有组织了.你需要从其他的地方得到数据,你也可以创建一个API类管理数据这个下个设计模式单例里面介绍. 这个单例设计模式确保这个类仅仅拥有一个实例,并且为这个实例提供一个全局的访问点. ...
【Python】协程
协程,又称微线程,纤程.英文名Coroutine. 协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用. 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在 ...
remote: fatal: could not read Username for 'http://spapa.wicp.net:3000': No such device ors
解决办法: git remote add origin https://{username}:{password}@github.com/{username}/project.git in my ca ...
[APP] Android 开发笔记 002-命令行创建默认项目结构说明
接上节:[APP] Android 开发笔记 001 4. 默认项目结构说明: 这里我使用Sublime Text 进行加载.
hiredis安装及测试
(1) redis环境搭建 (2) hiredis下载地址及C API github (3) hiredis安装我是把libhiredis.so放到/usr/local/lib/中, ...
Django---应用如何创建
创建好的项目之后,需要创建各个应用模块: 创建方法: 就可以看到:index 应用
spring面试大全
一.spring如何实现资源管理? 使用 applicationContext.getResource(“classpath:文件名”):在src根目录下,在类路径下 applicationConte ...
hdu3065 病毒侵袭持续中【AC自动机】
病毒侵袭持续中 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Sub ...
安装ubuntu16.04系统后没有无线网络选项的解决方法
ubuntu系统是自带有无线网络驱动的,因此最好的解决办法是安装是把联网更新选项勾选上,这样在安装是就能自动把无线网络驱动配置好这是一个比较有效的解决没有无线网络驱动的方法,比后续按网络上的教程自己 ...
在python中读写matlab文件
scipy.io提供有两个函数loadmat和savemat,用来读取和存储mat的数据文件 import scipy.io as sio 还有一些其他常用的模块 import numpy as np ...

学习Spark2.0中的Structured Streaming（一）

学习Spark2.0中的Structured Streaming（一）的更多相关文章

随机推荐

热门专题