Spark系列(九)DAGScheduler工作原理
以wordcount为示例进行深入分析
1 | |
33 | ) { |
46 | logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")") |
47 | stage.pendingTasks ++= tasks |
48 | logDebug("New pending tasks: " + stage.pendingTasks) |
49 | // 对stage的task创建TaskSet对象,调用TaskScheduler的submitTasks()方法提交TaskSet |
50 | taskScheduler.submitTasks( |
51 | new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties)) |
52 | stage.latestInfo.submissionTime = Some(clock.getTimeMillis()) |
53 | } |
54 | |
55 | ...................... |
56 | } |
getPreferredLocsInternal
功能:
计算每个task对应的partition最佳位置,从stage的最后一个rdd开始查找,看rdd的partition是否有被cache、chencjpoint,如果有那么task的最佳位置就被cache或者checkpoint的partition的位置
调用过程:
submitMissingTasks->getPreferredLocs->getPreferredLocsInternal
1 | // 计算每个task对应的partition最佳位置 |
2 | // 从stage的最后一个rdd开始查找,看rdd的partition是否有被cache、chencjpoint, |
3 | // 如果有那么task的最佳位置就被cache或者checkpoint的partition的位置 |
4 | private def getPreferredLocsInternal( |
5 | rdd: RDD[_], |
6 | partition: Int, |
7 | visited: HashSet[(RDD[_],Int)]) |
8 | : Seq[TaskLocation] = |
9 | { |
10 | // If the partition has already been visited, no need to re-visit. |
11 | // This avoids exponential path exploration. SPARK-695 |
12 | if (!visited.add((rdd,partition))) { |
13 | // Nil has already been returned for previously visited partitions. |
14 | return Nil |
15 | } |
16 | // If the partition is cached, return the cache locations |
17 | // 寻找rdd是否被缓存 |
18 | val cached = getCacheLocs(rdd)(partition) |
19 | if (!cached.isEmpty) { |
20 | return cached |
21 | } |
22 | // If the RDD has some placement preferences (as is the case for input RDDs), get those |
23 | // 寻找当前RDD是否被cachepoint |
24 | val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList |
25 | if (!rddPrefs.isEmpty) { |
26 | return rddPrefs.map(TaskLocation(_)) |
27 | } |
28 | // If the RDD has narrow dependencies, pick the first partition of the first narrow dep |
29 | // that has any placement preferences. Ideally we would choose based on transfer sizes, |
30 | // but this will do for now. |
31 | // 递归调用自己寻找rdd的父rdd,检查对应的partition是否被缓存或者checkpoint |
32 | rdd.dependencies.foreach { |
33 | case n: NarrowDependency[_] => |
34 | for (inPart <- n.getParents(partition)) { |
35 | val locs = getPreferredLocsInternal(n.rdd, inPart, visited) |
36 | if (locs != Nil) { |
37 | return locs |
38 | } |
39 | } |
40 | case _ => |
41 | } |
42 | // 如果stage从最后一个rdd到最开始的rdd,partiton都没有被缓存或者cachepoint, |
43 | // 那么task的最佳位置(preferredLocs)为Nil |
44 | Nil |
45 | } |
Spark系列(九)DAGScheduler工作原理的更多相关文章
- Spark系列(十)TaskSchedule工作原理
工作原理图 源码分析: 1.) 25 launchedTask = true 26 } 27 } catch { 28 ...
- Spark系列(八)Worker工作原理
工作原理图 源代码分析 包名:org.apache.spark.deploy.worker 启动driver入口点:registerWithMaster方法中的case LaunchDriver ...
- line-height系列——定义和工作原理总结
一.line-height的定义和工作原理总结 line-height的属性值: normal 默认 设置合理的行间距. number 设置数字,此数字会与当前的字体尺寸相乘来设置行间距li ...
- MySQL系列(九)--InnoDB索引原理
InnoDB在MySQL5.6版本后作为默认存储引擎,也是我们大部分场景要使用的,而InnoDB索引通过B+树实现,叫做B-tree索引.我们默认创建的 索引就是B-tree索引,所以理解B-tree ...
- 【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
- 49、Spark Streaming基本工作原理
一.大数据实时计算介绍 1.概述 Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架.它的底层,其实,也是基于我们之前讲解的Spark Core的. 基本 ...
- “Ceph浅析”系列之五——Ceph的工作原理及流程
本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍.如前所述,由于Ceph的功能实现本质上依托于RADOS,因而,此处的介绍事实上也是针对RADOS进行.对于上层的部分,特别是RADOS GW和 ...
- JSP JSP工作原理 JSP语法 JSP声明 JSP注释 JSP指令 jsp九大隐式/内置对象
1 什么是JSP 1)为什么说,Servlet是一个动态Web开发技术呢? Servlet是基于服务端的一种动态交互技术, HttpServletRequest表示客户端到服务端的 ...
- 4.Apache Spark的工作原理
Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...
随机推荐
- *两个关键字static和final
static关键字:可以用于修饰属性,也可以用于修饰方法,还可以用于修饰类. static 修饰属性: 无论一个类生成了多少个对象,所有这些对象共同使用唯一一份静态的成员变量:一个对象对该静态成员变量 ...
- SqlServer几个注意点
1.修改系统参数时,必须是单用户情况下才能更改成功!在Properties->Options中修改. 2.数据库字段值默认是不区分大小写的,修改方法如下: 2.1.右键数据库,选择Propert ...
- 使用HttpClient发送HTTPS请求以及配置Tomcat支持SSL
这里使用的是HttpComponents-Client-4.1.2 package com.jadyer.util; import java.io.File; import java.io.FileI ...
- BZOJ 1923 外星千足虫(高斯消元)
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=1923 题意:有n个数字,m次测试.每个数字为0或者1.每次测试选出一些数字出来把他们加起 ...
- struts2中改变struts.xml默认路径
struts2.X配置文件默认存放路径在/WEB-INF/classes目录下,即将struts.xml放在src的目录下. 但是为了方便管理,开发人员把struts.xml放到其他位置,处理方法如下 ...
- 从客户端中检测到有潜在危险的 Request.Form 值-解决方案
环境:VS2010 1.页头上加上ValidateRequest="false" <%@ Page Language="C#" ValidateReque ...
- 让你的 Node.js 应用跑得更快的 10 个技巧(转)
Node.js 受益于它的事件驱动和异步的特征,已经很快了.但是,在现代网络中只是快是不行的.如果你打算用 Node.js 开发你的下一个Web 应用的话,那么你就应该无所不用其极,让你的应用更快,异 ...
- Java [Leetcode 189]Rotate Array
题目描述: Rotate an array of n elements to the right by k steps. For example, with n = 7 and k = 3, the ...
- poj 1236 Network of Schools
题目描述:有一些学校连接到一个计算机网络.这些学校之间达成了一个协议:每个学校维护着一个学校列表,它向学校列表中的学校发布软件.注意,如果学校B在学校A的列表中,则A不一定在B的列表中.任务A:计算为 ...
- Blog CSS
你好 print("你好.") haode