本课主题

Job Stage 划分算法解密
Task 最佳位置算法实现解密

引言

作业调度的划分算法以及 Task 的最佳计算位置的算法，因为 Stage 的划分是DAGScheduler 工作的核心，这也是关系到整个作业有集群中该怎么运行；其次就是数据本地性，Spark 一般的代码都是链式表达的，这就让一个任务什么时候划分成 Stage，在大数据世界要追求最大化的数据本地性，所有最大化的数据本地性就是在数据计算的时候，数据就在内存中。希望这篇文章能为读者带出以下的启发：

了解 Stage 的具体是如何划分的
了解数据本地性的最大化

Job Stage 划分算法解密

Spark Application 中可以因为不同的Action 触发众多的Job，也就是一个Application 中可以有很多的Job ，每个Job 是由一个或者多个Stage 构成的，后面的Stage 依赖前面的Stage; 也就是说只有前面的依赖的Stage 计算完毕后，后面的Stage 才会运行；
Stage 划分的依据就是宽依赖，什么时侯产生宽依赖呢？例如 reduceByKey、groupByKey 等等；
由 Action (例如collect) 导致了SparkContext.runJob 最终导致了 DAGScheduler 中的 submitJob 执行。

它会等待作业提交的结果，然后判断一下成功或者是失败来进行下一步操作
其核心是通过发送一个case class JobSubmitted 对象给 eventProcessLoop

其中JobSubmitted 源码如下：因为需要创建不同的实例，所以要弄一个case class 而不是case object，case object 一般是以全区唯一的变量去使用。
这里开了一条线程，用 post 的方式把消息交在队例中，由于你把它放在队例中它就会不断的循环去拿消息，它转过来就调用回调方法 onReceive( )，eventProcessLoop 是一个消息循环器，它是 DAGSchedulerEvent 的具体实例，eventLoop 是一个 Link的blockingQueue。
　　
而DAGSchedulerEventProcessLoop 是 EventLoop 的子类，具体实现 eventLoop 的 onReceive 方法，onReceive方法转过来回调 doOnReceive( )
在 doOnReceive 这个类中有接收 JobSubmitted 的判断，转过来调用 handleJobSubmitted 的方法

思考题：为什么要再开一条线程搞一个消息循环器呢？因为有对例你就可以接受多个作业的提交，就是异步处理多 Job，这里背后有一个很重要的理念，就是如果无论是你自己发消息，还是别人发消息，你都采用一个线程去处理的话，这个时候处理的方式就是统一的，你的思路是一致的，这样你的扩展性就会非常的好，代码也会很乾净。

处理 Job 时的过程和逻辑

handleJobSubmitted( ) -->

调用 JobSubmitted 的方法，在这里用了一个消息循环器就可以统一对消息进行处理，在 handleJobSubmitted 中首先创建 finalStage，创建 finalStage 时会建立父 Stage 的依赖链条，这里是在这个算法里用的数据结构：

如果没有之前没有 visited 就把放在 visited 的数据结构中，然后判断一下它的依赖关系，如果是宽依赖的话就新增一个 Stage

处理 missingParent

处理 missingParent

SubmitJob

submitJob

Task 最佳位置算法实现解密

从 submitMissingTask 开始找出它的数据本地算法
在具体算法实现的时候，会首先查询 DAGScheduler 的內存数据结构中是否存在当前 Partition 的数据本地性的信息，如果有得话就直接返回；如果沒有首先会调用 rdd.getPreferredLocations.例如想让 Spark 运行在 HBase 上或者一种現在还沒有直接的数据库上面，此时开发者需要自定义 RDD，为了保证 Task 数据本地性，最为关键的方法就是必需实现 RDD 的 getPreferredLocations
DAGScheduler 计算数据本地性的时候，巧妙的借助了RDD 自身的getPreferredLocations 中的数据，最大化的优化了效率，因为getPreferredLocations 中表明了每个Partition 的数据本地性，虽然当前Partition 可能被persists 或者是checkpoint，但是persists 或者是checkpoint默认情况下肯定是和getPreferredLocations 中的数据本地性是一致的，所以这就更大的优化了Task 的数据本地性算法的显现和效率的优化

总结

Stage划分和Task最佳位置算法源码彻底解密的更多相关文章

[Spark内核] 第34课：Stage划分和Task最佳位置算法源码彻底解密
本課主題 Job Stage 划分算法解密 Task 最佳位置算法實現解密引言作业调度的划分算法以及 Task 的最佳位置的算法,因为 Stage 的划分是DAGScheduler 工作的核心,这 ...
Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法
上篇文章< Spark 源码解析 : DAGScheduler中的DAG划分与提交 >介绍了DAGScheduler的Stage划分算法. 本文继续分析Stage被封装成TaskSet, ...
diff.js 列表对比算法源码分析
diff.js列表对比算法源码分析 npm上的代码可以查看 (https://www.npmjs.com/package/list-diff2) 源码如下: /** * * @param {Arra ...
Atitit 图像清晰度模糊度检测识别评价算法源码实现attilax总结
Atitit 图像清晰度模糊度检测识别评价算法源码实现attilax总结 1.1. 原理,主要使用像素模糊后的差别会变小1 1.2. 具体流程1 1.3. 提升性能可以使用采样法即可..1 ...
mahout算法源码分析之Collaborative Filtering with ALS-WR （四）评价和推荐
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 首先来总结一下 mahout算法源码分析之Collaborative Filtering with AL ...
mahout算法源码分析之Collaborative Filtering with ALS-WR拓展篇
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 额,好吧,心头的一块石头总算是放下了.关于Collaborative Filtering with AL ...
mahout算法源码分析之Collaborative Filtering with ALS-WR 并行思路
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. mahout算法源码分析之Collaborative Filtering with ALS-WR 这个算 ...
zookeeper集群搭建及Leader选举算法源码解析
第一章.zookeeper概述一.zookeeper 简介 zookeeper 是一个开源的分布式应用程序协调服务器,是 Hadoop 的重要组件. zooKeeper 是一个分布式的,开放源码的分 ...
基于单层决策树的AdaBoost算法源码
基于单层决策树的AdaBoost算法源码 Mian.py # -*- coding: utf-8 -*- # coding: UTF-8 import numpy as np from AdaBoos ...

随机推荐

ExtJs6解决添加和修改Form共用一个form的隐藏域的id的取消传值
问题重现:修改不会有问题,id会绑定之前的grid,有具体数字添加有问题,因为id是空,传的是绑定值的话会显示“类名-1”,从int类型变成了string类型,后台会出错这是EduQuestion ...
网络协议-HTTPS
转载:http://www.renfed.com/2017/02/03/https/ 一.解决问题 HTTPS解决的是中间人攻击公网:域名解析--IP:所以中间站点抢答返回错误IP 局域网:路由器找 ...
Js 合并 table 行的实现方法
Js 合并 table 行的实现方法需求如下: 某公司的员工档案,如下, 经理看员工的信息不是很清晰: 姓名所在学校毕业时间张三小学 2000 张三中学 2006 张三大学 2010 ...
使用axis2调用webservice需要导入的依赖
<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> &l ...
xcode8 打开的 xib 踩坑
之前开发都不敢工测试版的开发,一直用正式版的,xcode7.3.1的模糊匹配让我很蛋疼,自定义的类,类名不提示,每次都粘贴复制,8号苹果发布了 xcode8GM 版,迫不及待的从苹果开发者官网下了一个 ...
windows下es安装教程
es安装 1.es下载地址:https://www.elastic.co/downloads/past-releases 2.使用es需要先安装好jdk,注意es版本和jdk版本的兼容问题,es6.1 ...
Win7下硬盘安装Ubuntu双系统
一. 准备工作 1. 下载ubuntu镜像文件:Ubuntu-14.04.5-desktop-amd64.iso(4G及以上内存建议64位) 注意这个amd并不是指amd芯片. 2. 下载硬盘分区工具 ...
设计模式入门,单件模式,c++代码实现
// test05.cpp : Defines the entry point for the console application.// #include "stdafx.h" ...
Redis学习笔记1 -- 单机环境时分布式锁的使用
使用第三方开源组件Jedis实现Redis客户端,且只考虑Redis服务端单机部署的场景. 前言分布式锁一般有三种实现方式:1. 数据库乐观锁:2. 基于Redis的分布式锁:3. 基于ZooKee ...
HTML5数据存储方案data与jQuery数据存储方案$.data()的区别
我们先看下$.fn.data()的使用,这个和$.data()是不一样的,前者是和某个jquery对象相关,后者则是全局方法.主要有data()和removeData()这2个实例方法.通过下面的例子 ...

Stage划分和Task最佳位置算法源码彻底解密