Spark Streaming揭秘 Day20 动态Batch size实现初探(上)

哎哟慰 2024-09-02 21:34:10 原文

Spark Streaming揭秘 Day20

动态Batch size实现初探(上)

今天开始，主要是通过对动态Batch size调整的论文的解析，来进一步了解SparkStreaming的处理机制，因为比较偏理论，么有代码演示。

缘起

从目前的业务发展来看，线上处理目前来看已经越来越重要，而一个突出的矛盾就是，传统框架Oracle+j2ee的框架下，存在一个致命的问题，就是无法突破单台机器的局限，可能容纳此刻流入的数据，于是分布式流处理程序越来越火热。

流处理的核心是追求更快的处理速度。但是以目前的技术现状来看，还无法达到最快，所以容错问题也非常的重要。目前主流的框架，都会使用MapReduce思想对流入的数据不断进行处理，MapReduce最大的优势是在于自身带有完备的容错机制。

挑战

流处理系统最大的挑战是在于，可能会面对突然来临的波峰，流处理系统必须能应对这种情况。

过去的系统的解决方式：

丢弃数据：只能在一些特殊场景使用，对业务会有影响。
动态调整资源：很多时候，资源和数据的增长不是线性关系，很难根据数据的趋势来调整资源。

在SparkStreaming中，使用了第三种方案，就是动态调整Batch size。

一般来说，Batch size越小就越快，越快就越安全，低延时是首要的目标。

但在指定时间窗口限制下，对于Batch size调整幅度来说，是一个很综合的课题，数据量是一个方面，计算内部的算子也是非常重要的方面，某些算子下在数据量规模大的情况下，Batch Duration和延时之间的关系会很复杂。

从Join的时间曲线可以看到，当数据流速增加到2.4MB/s时，处理速度恶化明显加快，而在Reduce中，表现完全不同。

算法要求

如何调整，需要一个算法的支持。

因为不同的算子下，处理延时并不是呈现线性规律，随着吞吐量的变化，很难用静态模型预测实际情况的。

对于这个算求在要求拥有更低的延时的同时，必须能能适配不同算子带来的变化。

同时，在设计时还需要有一些其他的难点考虑：

能对workload的非线性表现进行适配。
能消除干扰因素影响。
能平衡计算精确性和灵活性之间的矛盾。

具体算法，我们将在明天展开。

欲知后事如何，且听下回分解

DT大数据每天晚上20：00YY频道现场授课频道68917580

Spark Streaming揭秘 Day20 动态Batch size实现初探(上)的更多相关文章

Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕今天会逐行解析一下SparkStreaming运行的日志,运行的是WordCountO ...
Spark Streaming揭秘 Day17 资源动态分配
Spark Streaming揭秘 Day17 资源动态分配今天,让我们研究一下一个在Spark中非常重要的特性:资源动态分配. 为什么要动态分配?于Spark不断运行,对资源也有不小的消耗,在默认 ...
Spark Streaming揭秘 Day10 从BlockGenerator看接收数据的生命周期
Spark Streaming揭秘 Day10 从BlockGenerator看接收数据的生命周期昨天主要介绍了SparkStreaming中对于Receiver的生命周期管理,下面让我们进入到Re ...
Spark Streaming揭秘 Day2-五大核心特征
Spark Streaming揭秘 Day2 五大核心特征引子书接上回,Streaming更像Spark上的一个应用程序,会有多个Job的配合,是最复杂的Spark应用程序.让我们先从特征角度进行 ...
Spark Streaming揭秘 Day34 解析UI监听模式
Spark Streaming揭秘 Day34 解析UI监听模式今天分享下SparkStreaming中的UI部分,和所有的UI系统一样,SparkStreaming中的UI系统使用的是监听器模式. ...
Spark Streaming揭秘 Day33 checkpoint的使用
Spark Streaming揭秘 Day33 checkpoint的使用今天谈下sparkstreaming中,另外一个至关重要的内容Checkpoint. 首先,我们会看下checkpoint的 ...
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析今天通过集群运行模式观察.研究和透彻的刨析SparkStreaming的日志和web监控台. Day28 ...

随机推荐

关于设置android:imeOptions属性无效的解决办法
在对Android的EditText控件进行设置时,经常会限定一下输入法的属性,设置右下角为完成或者搜索等,一般都会想到android:imeOptions属性,但是仅仅这么设置通常是无效的,还要搭配 ...
hdfs: 一个分布式文件系统(一)
一. hdfs设计的动机为大规模分布式计算准备的分布式文件系统,并非实时性要求很高的文件系统. 二. 设计的取舍 1. 因为要求有高吞吐量,所以牺牲读取文件的实时性,实时性要求高的分布式文件系统可以 ...
显示创建一个表的SQL语句
显示创建数据库中包的语句,从而可以方便的对表的结构进行修改和复制(当然还有其他的方式) 显示表结构: 显示创建表语句: show create table tablename;
[改善Java代码]注意方法中传递的参数要求(replaceAll和replace的区别)
有这样一个简单的需求:写一个方法,实现从原始字符串中删除与之匹配的所有子字符串,比如"蓝蓝的天,白云飘"中,删除"白云飘",输出"蓝蓝的天," ...
Jersey(1.19.1) - Use of @Context
Previous sections have introduced the use of @Context. The JAX-RS specification presents all the sta ...
unity3d首次倒入工程文件出错Opening file Library/FailedAssetImports.txt failed解决方法
打开unity3d,首次倒入工程到unity编辑器,但是频繁弹出“Opening file Library/FailedAssetImports.txt failed”的错误对话框,很麻烦. 解决方法 ...
sqlserver 关于快照
数据库快照:是数据库某一时间点的视图,快照涉及最初目的是为了报表服务,快照还可以和镜像结合来达到读写分离的目的数据库快照:是sqlserver数据库的只读静态视图快照的作用:1 提供了一个静态的视图 ...
Touch ID指纹解锁使用
Touch ID是iPhone5S后加入的一项新的功能,也就是大家熟知的指纹识别技术.大家用得最多的可能是手机的解屏操作,不用在和以前一样输入手机的四位数密码进行验证.一方面不用担心密码被别人看到,另 ...
C#对象XML序列化
1.Xml序列化操作类 .Net Framework提供了对应的System.Xml.Seriazliation.XmlSerializer负责把对象序列化到XML,和从XML中反序列化为对象. 以下 ...
C#——字符操作
题目要求:用户随机输入字母及数字组成的字符串,当用户连续输入字符串‘hello’时,程序结束用户输入,并分别显示用户输入的字母及数字的数目. 代码: using System; using Syste ...