Spark Job-Stage-Task实例理解

HoLoong 2024-08-23 21:32:25 原文

Spark Job-Stage-Task实例理解

基于一个word count的简单例子理解Job、Stage、Task的关系，以及各自产生的方式和对并行、分区等的联系；

相关概念

Job：Job是由Action触发的，因此一个Job包含一个Action和N个Transform操作；
Stage：Stage是由于shuffle操作而进行划分的Task集合，Stage的划分是根据其宽窄依赖关系；
Task：最小执行单元，因为每个Task只是负责一个分区的数据

处理，因此一般有多少个分区就有多少个Task，这一类的Task其实是在不同的分区上执行一样的动作；

例子代码

'''

DAG: Job vs Stage vs Task

'''

# 初始化spark环境

from pyspark import SparkContext,SparkConf

conf = SparkConf()

conf.setMaster('local').setAppName('Job vs Stage vs Task')

sc = SparkContext(conf=conf)

alpha_rdd1 = sc.parallelize(['a c','a b','b c','b d','c d'],10)

word_count1 = alpha_rdd1.flatMap(lambda a:a.split(' ')).map(lambda a:(a,1)).reduceByKey(lambda x,y:x+y)

alpha_rdd2 = sc.parallelize(['a c','a b','b c','b d','c d'],10)

word_count2 = alpha_rdd2.flatMap(lambda a:a.split(' ')).map(lambda a:(a,1)).reduceByKey(lambda x,y:x+y)

word_count1.join(word_count2).collect()

print('END')

input() # input是方便脚本运行不会终止导致web ui不能正常浏览

可以看到，主要的数据处理逻辑分为三部分，分别是两个word count，以及最后对两个结果的join，事实上这也对应了3个stage，下面是代码与stage的对应图，注意图中的并行关系：

从图中可以看出，原代码只有一个action（collect），因此只有一个Job，这个Job被换分为3个Stage，划分原因是有shuffle出现（reductByKey），而明显看出的是Stage 0和Stage 1互相没有依赖关系，因此可以并行，而Stage 2则是依赖于0和1的，因此会最后一个执行；

Spark Web UI

下面通过Web UI来进一步查看Job、Stage、Task的关系；

从上图看到，只有一个已完成的Job，该Job包含3个Stage，30个Task（注意之前的代码里parallelize设置的分区数为10,3*10=30）；

上图表示该Job的运行时间线图，可以明显的看到Stage0和Stage1在时间上有大部分重叠，也就是并行进行，而Stage2是在Stage1结束后才开始，因为Stage0结束的更早，这里对于依赖关系的展示还是很明显的；

另外，对于stage0和stage1，虽然处理的数据量很小，但是依然可以看出二者的运行时间比较接近，也就是没有明显的数据偏斜的情况出现，当然，这里因为只是测试数据，而真实场景下很容易出现个别stage执行时间远远超过其他的stage，导致整体的时间被拖长；

上图是该Job对应的DAG可视化图，它是直接的对Stage以及Stage间的依赖关系进行展示，也验证了我们之前的分析，这里每个Stage还可以继续点进去；

上图中可以更清晰的看到，每个Stage中都包含10个Task，其实就是对应10个partition，对于Stage0和Stage1，他们都是在shuffle前的Stage，因此他们都有Shuffle Write的动作，大小都是514，而Stage2则是join这两部分数据，因此有Shuffle Read动作，大小而前二者之和，也就是1028；

Spark Job-Stage-Task实例理解的更多相关文章

Spark分区数、task数目、core数目、worker节点数目、executor数目梳理
Spark分区数.task数目.core数目.worker节点数目.executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图.驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将 ...
【原】Spark中Stage的提交源码解读
版权声明:本文为原创文章,未经允许不得转载. 复习内容: Spark中Job如何划分为Stage http://www.cnblogs.com/yourarebest/p/5342424.html 1 ...
大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程
本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次 ...
【Spark】Stage生成和Stage源代码浅析
引入上一篇文章<DAGScheduler源代码浅析>中,介绍了handleJobSubmitted函数,它作为生成finalStage的重要函数存在.这一篇文章中,我将就DAGSched ...
spark 笔记 9: Task/TaskContext
DAGScheduler最终创建了task set,并提交给了taskScheduler.那先得看看task是怎么定义和执行的. Task是execution执行的一个单元. Task: execut ...
【C# Task】理解Task中的ConfigureAwait配置同步上下文
原文:https://devblogs.microsoft.com/dotnet/configureawait-faq/ 作者:Stephen 翻译:xiaoxiaotank 静下心来,你一定会有收获 ...
Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming
Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming 在Spark2.x中,Spark Streaming获得了比较全面的升级,称为St ...
通过实例理解 RabbitMQ 的基本概念
先说下自己开发的实例. 最近在使用 Spring Cloud Config 做分布式配置中心(基于 SVN/Git),当所有服务启动后,SVN/Git 中的配置文件更改后,客户端服务读取的还是旧的配置 ...
[学习笔记]一个实例理解Lingo的灵敏性分析
一个实例理解Lingo的灵敏性分析线性规划问题的三个重要概念: 最优解就是反应取得最优值的决策变量所对应的向量. 最优基就是最优单纯形表的基本变量所对应的系数矩阵如果其行列式是非 ...

随机推荐

跟我一起学.NetCore之配置变更监听
前言通常程序中配置少不了,配置的修改也避免不了,配置的热更新为此给应用程序带来很大的便捷,不用重启,提高用户体验:但往往有时候需要对修改进行审计,也就是需要记录,有时候也会针对配置修改的时候触发相关 ...
Java中实现十进制数转换为二进制的三种方法
第一种:除基倒取余法这是最符合我们平时的数学逻辑思维的,即输入一个十进制数n,每次用n除以2,把余数记下来,再用商去除以2...依次循环,直到商为0结束,把余数倒着依次排列,就构成了转换后的二进制数 ...
JavaScript设计模式之命令模式【命令解耦】
在讲解命令模式之前我们先来了解一个生活中的命令模式场景: 场景1: 医院看病抓药: 当你因为肾虚到医院看医生,医生一番操作之后得出结论:要吃个疗程[夏桑菊].[小柴胡](药名纯属虚构,真的肾虚就找医生 ...
JavaScript学习系列博客_6_JavaScript中的算数运算符
运算符(操作符) 在JS中 +.-.*./.%这些都是算数运算符,typeof也是一个运算符,它的操作结果就是得到一个描述变量数据类型的字符串. + 运算符 1.两个值在都没有string类型的值的情 ...
玩转Spring——Spring整合JDBC
传统JDBC代码的弊端在传统的jdbc代码中,即使是执行一条简单的SQL语句,其实现的整个流程也是极为繁琐的,先打开数据库连接执行sql,然后组装结果,最后关闭数据库资源,这中间还有大量的try... ...
机器学习 | 深入SVM原理及模型推导（一）
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第32篇文章,我们来聊聊SVM. SVM模型大家可能非常熟悉,可能都知道它是面试的常客,经常被问到.它最早诞生于上世纪六 ...
Navicat Premium 12免费版安装
前言这几年的工作过程中使用了很多的数据库工具,比如Sqlyog,DBeaver,sqlplus等工具,但是个人觉得很好用的还是Navicat. 不如人意的就是目前Navicat都在收费,今天就来分享 ...
一文带你深扒ClassLoader内核，揭开它的神秘面纱！
「MoreThanJava」宣扬的是「学习,不止 CODE」. 如果觉得「不错」的朋友,欢迎「关注 + 留言 + 分享」,文末有完整的获取链接,您的支持是我前进的最大的动力! 前言 Clas ...
Qt 子窗口监听主窗口信号
Qt 子窗口监听主窗口信号(转载) 原文链接:https://www.cnblogs.com/ybqjymy/p/12169762.html 1 MainWindow *ptr = NULL; 2 ...
【Android】Android开发点击查看手机电量的小功能。学习广播的一个小技能小Demo
作者:程序员小冰,GitHub主页:https://github.com/QQ986945193 微博:http://weibo.com/mcxiaobing 首先给大家看一下效果图: 先写一个广播类 ...