Spark（五） -- Spark Streaming介绍与基本执行过程

Spark Streaming作为Spark上的四大子框架之一，肩负着实时流计算的重大责任

而相对于另外一个当下十分流行的实时流计算处理框架Storm，Spark Streaming有何优点？又有何不足呢？

首先，对于Storm实时流处理惊人的低延迟性，Spark Streaming的不足很明显

Storm官方说的最低延迟可以使多少毫秒级别的

而Spark Streaming只能做到压秒，也就是零点几秒

相对于Storm的实时性来说，Spark Streaming甚至只能说是准实时的

But，Spark Streaming虽然在延迟性方面比不过Storm，但是Spark Streaming有太多太多的优点，以至于能够让人的注意力从Storm转移到Spark Streaming身上

第一，Spark Streaming是Spark的核心子框架之一。

说到Spark核心，那就不得不说RDD了。

Spark Streaming作为核心的子框架，对RDD的操作支持肯定是杠杠的，这又说明了什么？

Spark Streaming可以通过RDD和Spark上的任何框架进行数据共享和交流，这就是Spark的野心，一个堆栈搞定所有场景

第二，虽然Spark Streaming的延迟性比不过Storm，但是Spark Streaming也有自己的优势，那就是巨大的吞吐量，这点是Storm所比不上的

第三，由于Spark上子框架的编程模型基本都是一个套路，所以Spark Streaming的API也是十分易于掌握的

第四，Spark Streaming支持多语言编程，并且各个语言之间的编程模型也是类似的

第五，Spark Streaming的容错机制。Spark Streaming在读取流数据进入内存的时候会保存两个副本，计算只用一个，当出现问题的时候可以快速的切换到另外一个副本；在规定的时间内进行数据的固化；由于支持RDD操作，所以RDD本身的容错处理机制也被继承

Spark Streaming的处理过程：

以时间片为单位划分形成数据流形成RDD（DStream）
对每个划分数来的RDD以批处理的方式处理数据
每个划分出来的RDD地处理都会提交成Job

比较适用的场景：

历史数据和实时数据结合进行分析
对实时性要求不是很苛刻的场景

重要的组件：

Job Scheduler：周期性查询DStream生成的DAG图，将其转换为Job提交到Job Manager
Job Manager：维护Job队列，将Job提交到Spark运行

一些调优方式：

1、运行时间调优

并行度优化，确保任务使用集群所有资源，防止数据倾斜
减少数据序列化、反序列化的次数
合理调整批处理窗口

2、空间占用调优

定时清理不用的数据
控制批处理量，确保当前节点Spark的可用内存能够容纳这个batch窗口的所有数据

下面给出一个Spark Streaming的简单实例代码：

//根据sparkConf（spark配置信息）和Seconds（多少秒处理一次流数据）创建一个StreamingContext对象

val ssc = StreamingContext(sparkConf,Seconds(1))

//调用ssc的socketTextStream根据参数接收指定地址的数据，根据ssc的Seconds参数配置决定多长时间处理一次。这里的socketTextStream是专门处理socket数据的方法，对于其他数据来源，例如Flume，Kafka，Twitter等都有专门的方法来处理

val lines = ssc.socketTextStream(servIp,servPort)

//对每一行数据进行分割

val words = lines.flatMap(_.Split(" "))

//统计word的数量

val pairs = words.map(word => (word,1))

val wordCounts = pairs.reduceByKey(_ + _)

//输出结果

wordCounts.print()

//开始

ssc.start()

//计算完毕退出

ssc.waitTermination()

从以上代码中就很明显的可以看出Spark Streaming的编程模型和Spark上的其他子框架是差不多的，只不过针对实时流处理多了一些自身的操作而已

在执行这行代码的时候

val lines = ssc.socketTextStream(servIp,servPort)

lines其实是一个DStream的RDD对象

每一秒流进来的数据都会被处理成DStream对象，也就是一个个lines

在处理流进来的数据时，Spark Streaming是串行处理的，也就是说，当前面这个DStream在一秒之内还没有被处理完毕时，新的数据来了，那么此时的新数据会被阻塞住，直至当前的DStream处理完毕之后才处理下一个数据

如同上图所示，interval[0,1)和interval[1,2)是串行执行的，当interval1执行完毕（经过reduce操作到达第三个阶段时），才会处理interval2

但是我们可以看到每一行的产生的结果，也就是第三个阶段之间也会进行一些操作运算，这时是交给Spark内核引擎来并行处理的

对于串行引起的阻塞问题就涉及到Spark Streaming的一些优化了，如，Batch Size，每个数据分块的大小应该分为多少才会在规定的时间内处理完毕而不会引起阻塞？

答案是没有最好的Size，只有最合适的Size。

一切都是根据当前系统的状况来进行决定的，以系统反馈的数据说话

Spark（五） -- Spark Streaming介绍与基本执行过程的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
Spark源码剖析 - 任务提交与执行
1. 任务概述任务提交与执行过程: 1) build operator DAG:此阶段主要完成RDD的转换及DAG的构建: 2) split graph into stages of tasks:此 ...
Spark 以及 spark streaming 核心原理及实践
收录待用,修改转载已取得腾讯云授权作者 | 蒋专蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...
spark教程(16)-Streaming 之 DStream 详解
DStream 其实是 RDD 的序列,它的语法与 RDD 类似,分为 transformation(转换) 和 output(输出) 两种操作: DStream 的转换操作分为无状态转换和有状 ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
Spark SQL在100TB上的自适应执行实践（转载）
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇 ...
[Spark Streaming_1] Spark Streaming 概述
0. 说明 Spark Streaming 介绍 && 在 IDEA 中编写 Spark Streaming 程序 1. Spark Streaming 介绍 Spark Stream ...
Spark记录-spark介绍
Apache Spark是一个集群计算设计的快速计算.它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理.这是一个 ...
spark教程(13)-shuffle介绍
shuffle 简介 shuffle 描述了数据从 map task 输出到 reduce task 输入的过程,shuffle 是连接 map 和 reduce 的桥梁: shuffle 性能的高低 ...

随机推荐

HDU3910（数学期望题，题目难懂）
Liang Guo Sha Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...
npm编译报错，缺少组件
解决方式: 1.删除安装文件 node_modules: 2.在需要安装 node_modules 文件的文件夹中,打开命令窗口,输入: cnpm install: 3.再输入: npm start, ...
【bzoj4636】蒟蒻的数列
由于数据范围过大,直接线段树会炸,离散化或者动态开点都行. 打个标记在树上,最后把树dfs一边算一下即可. #include<bits/stdc++.h> #define N 100000 ...
onchange监听input值变化及input隐藏后change事件不触发的原因与解决方法(设置readonly后onchange不起作用的解决方案)
转自:https://www.cnblogs.com/white0710/p/7338456.html 1. onchange事件监听input值变化的使用方法: <input id=" ...
微信网页版的onclick事件不起作用
我的错误是在跳转的url中拼接了url,如下: var myBaseUrl="https://xxx/"; function do() { $.ajax({ url :myBase ...
Redis-4.0.8 readme.md
This README is just a fast *quick start* document. You can find more detailed documentation at [redi ...
hdu 1423(LCS+LIS)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1423 好坑啊..还有公共串为0时的特殊判断,还有格式错误..看Discuss看知道除了最后一组测试数据 ...
[jquery] ajax parsererror
http://stackoverflow.com/questions/5061310/jquery-returning-parsererror-for-ajax-request 方法一: 直接去掉 d ...
如何学习web开发环境搭建和脚手架
Web前端的学习路线第一阶段: HTML+CSS: HTML进阶.CSS进阶.div+css布局.HTML+css整站开发. JavaScript基础: Js基础教程.js内置对象常用方法.常见DO ...
Dart基础
dartpad在线调试 :https://dartpad.dartlang.org 运行需要用墙 vscode执行dart 安装安装dart插件下载安装dart 配置环境变量 vscode新建 ...

Spark（五） -- Spark Streaming介绍与基本执行过程

Spark（五） -- Spark Streaming介绍与基本执行过程的更多相关文章

随机推荐

热门专题