Spark系列(九)DAGScheduler工作原理
以wordcount为示例进行深入分析
1 | |
33 | ) { |
46 | logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")") |
47 | stage.pendingTasks ++= tasks |
48 | logDebug("New pending tasks: " + stage.pendingTasks) |
49 | // 对stage的task创建TaskSet对象,调用TaskScheduler的submitTasks()方法提交TaskSet |
50 | taskScheduler.submitTasks( |
51 | new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties)) |
52 | stage.latestInfo.submissionTime = Some(clock.getTimeMillis()) |
53 | } |
54 | |
55 | ...................... |
56 | } |
getPreferredLocsInternal
功能:
计算每个task对应的partition最佳位置,从stage的最后一个rdd开始查找,看rdd的partition是否有被cache、chencjpoint,如果有那么task的最佳位置就被cache或者checkpoint的partition的位置
调用过程:
submitMissingTasks->getPreferredLocs->getPreferredLocsInternal
1 | // 计算每个task对应的partition最佳位置 |
2 | // 从stage的最后一个rdd开始查找,看rdd的partition是否有被cache、chencjpoint, |
3 | // 如果有那么task的最佳位置就被cache或者checkpoint的partition的位置 |
4 | private def getPreferredLocsInternal( |
5 | rdd: RDD[_], |
6 | partition: Int, |
7 | visited: HashSet[(RDD[_],Int)]) |
8 | : Seq[TaskLocation] = |
9 | { |
10 | // If the partition has already been visited, no need to re-visit. |
11 | // This avoids exponential path exploration. SPARK-695 |
12 | if (!visited.add((rdd,partition))) { |
13 | // Nil has already been returned for previously visited partitions. |
14 | return Nil |
15 | } |
16 | // If the partition is cached, return the cache locations |
17 | // 寻找rdd是否被缓存 |
18 | val cached = getCacheLocs(rdd)(partition) |
19 | if (!cached.isEmpty) { |
20 | return cached |
21 | } |
22 | // If the RDD has some placement preferences (as is the case for input RDDs), get those |
23 | // 寻找当前RDD是否被cachepoint |
24 | val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList |
25 | if (!rddPrefs.isEmpty) { |
26 | return rddPrefs.map(TaskLocation(_)) |
27 | } |
28 | // If the RDD has narrow dependencies, pick the first partition of the first narrow dep |
29 | // that has any placement preferences. Ideally we would choose based on transfer sizes, |
30 | // but this will do for now. |
31 | // 递归调用自己寻找rdd的父rdd,检查对应的partition是否被缓存或者checkpoint |
32 | rdd.dependencies.foreach { |
33 | case n: NarrowDependency[_] => |
34 | for (inPart <- n.getParents(partition)) { |
35 | val locs = getPreferredLocsInternal(n.rdd, inPart, visited) |
36 | if (locs != Nil) { |
37 | return locs |
38 | } |
39 | } |
40 | case _ => |
41 | } |
42 | // 如果stage从最后一个rdd到最开始的rdd,partiton都没有被缓存或者cachepoint, |
43 | // 那么task的最佳位置(preferredLocs)为Nil |
44 | Nil |
45 | } |
Spark系列(九)DAGScheduler工作原理的更多相关文章
- Spark系列(十)TaskSchedule工作原理
工作原理图 源码分析: 1.) 25 launchedTask = true 26 } 27 } catch { 28 ...
- Spark系列(八)Worker工作原理
工作原理图 源代码分析 包名:org.apache.spark.deploy.worker 启动driver入口点:registerWithMaster方法中的case LaunchDriver ...
- line-height系列——定义和工作原理总结
一.line-height的定义和工作原理总结 line-height的属性值: normal 默认 设置合理的行间距. number 设置数字,此数字会与当前的字体尺寸相乘来设置行间距li ...
- MySQL系列(九)--InnoDB索引原理
InnoDB在MySQL5.6版本后作为默认存储引擎,也是我们大部分场景要使用的,而InnoDB索引通过B+树实现,叫做B-tree索引.我们默认创建的 索引就是B-tree索引,所以理解B-tree ...
- 【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
- 49、Spark Streaming基本工作原理
一.大数据实时计算介绍 1.概述 Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架.它的底层,其实,也是基于我们之前讲解的Spark Core的. 基本 ...
- “Ceph浅析”系列之五——Ceph的工作原理及流程
本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍.如前所述,由于Ceph的功能实现本质上依托于RADOS,因而,此处的介绍事实上也是针对RADOS进行.对于上层的部分,特别是RADOS GW和 ...
- JSP JSP工作原理 JSP语法 JSP声明 JSP注释 JSP指令 jsp九大隐式/内置对象
1 什么是JSP 1)为什么说,Servlet是一个动态Web开发技术呢? Servlet是基于服务端的一种动态交互技术, HttpServletRequest表示客户端到服务端的 ...
- 4.Apache Spark的工作原理
Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...
随机推荐
- JavaScript基础精华02(函数声明,arguments对象,匿名函数,JS面向对象基础)
函数声明 JavaScript中声明函数的方式:(无需声明返回值类型) function add(i1, i2) { return i1 + i2;//如果不写return返回 ...
- Android Handler传值方式
前面介绍handler的时候,也用到过几种传值方式,今天来总结一下,并且重点说一下bundle方式,代码如下: package com.handlerThread; import android.ap ...
- Sql Server查询性能优化之走出索引的误区
据了解绝大多数开发人员对于索引的理解都是一知半解,局限于大多数日常工作没有机会.也什么没有必要去关心.了解索引,实在哪天某个查询太慢了找到查询条件建个索引就ok,哪天又有个查询慢了,再建立个索引就是, ...
- 转Struts 权限控制
权限最核心的是业务逻辑,具体用什么技术来实现就简单得多. 通常:用户与角色建立多对多关系,角色与业务模块构成多对多关系,权限管理在后者关系中. 对权限的拦截,如果系统请求量大,可以用Struts2拦截 ...
- 想要风投被你的融资 PPT 打动吗?别忘了你其实就是在想方设法卖出自己公司的部分股权
硅谷,一个常常见诸于报端,看着很熟悉,但是又不那么被人所了解的未及之地.它不是一个严格限定的地理位置,一般来说是指旧金山和湾区,其中湾区又分为东湾(East Bay)和南湾(South Bay), ...
- (sql server)数据分页的实现
谈谈自己了解的几种数据库分页的方法,下面來分享下,有什么好的方法可以指导一下哦.. 方法一:利用ROW_NUMBER()方法 利用ROW_NUMBER 产生序列后直接取出 /*如要查詢的表為Test ...
- Eclipse中查看JDK源码设置
设置方法如下: 1.路径 window-> Preferences -> Java -> Installed JRES 2.此时"Installed JRES"右 ...
- Android app Splash页的替代方案
一般的App想要显示公司的log什么的,都会在启动的第一个页面显示,就是SplashActivity. 目前在看到一个替代SplashActivity的方案. 使用SplashActivity的时候, ...
- 使用hibernate annotation 为非空列加上默认值
在网上查了很多资料都没找到如何为非空列加上默认值 以前的做法是给字段一个初始值,加上dynamic-insert属性 换了annotation了以后没有找到如何设置dynamic-insert属性 但 ...
- 函数os_file_pread
/*******************************************************************//** Does a synchronous read ope ...