Apache Spark 3.0 将内置支持 GPU 调度

　如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后，来自 Databricks、NVIDIA、Google 以及阿里巴巴的工程师们正在为 Apache Spark 添加原生的 GPU 调度支持，该方案填补了 Spark 在 GPU 资源的任务调度方面的空白，有机地融合了大数据处理和 AI 应用，扩展了 Spark 在深度学习、信号处理和各大数据应用的应用场景。这项工作的 issue 可以在 SPARK-24615 里面查看，相关的 SPIP(Spark Project Improvement Proposals) 文档可以参见 SPIP: Accelerator-aware scheduling

　　如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：数模堂、iteblog_hadoop

　　目前 Apache Spark 支持的资源管理器 YARN 和 Kubernetes 已经支持了 GPU。为了让 Spark 也支持 GPUs，在技术层面上需要做出两个主要改变

　　在 cluster manager 层面上，需要升级 cluster managers 来支持 GPU。并且给用户提供相关 API，使得用户可以控制 GPU 资源的使用和分配。

　　在 Spark 内部，需要在 scheduler 层面做出修改，使得 scheduler 可以在用户 task 请求中识别 GPU 的需求，然后根据 executor 上的 GPU 供给来完成分配。

　　因为让 Apache Spark 支持 GPU 是一个比较大的特性，所以项目分为了几个阶段。在 Apache Spark 3.0 版本，将支持在 standalone、 YARN 以及 Kubernetes 资源管理器下支持 GPU，并且对现有正常的作业基本没影响。对于 TPU 的支持、Mesos 资源管理器中 GPU 的支持、以及 Windows 平台的 GPU 支持将不是这个版本的目标。而且对于一张 GPU 卡内的细粒度调度也不会在这个版本支持;Apache Spark 3.0 版本将把一张 GPU 卡和其内存作为不可分割的单元。

　　实现概括

　　Spark Scheduling

　　在这个层面，我们得允许从 RDD/PandasUDF API 中指定资源请求，这些请求应该在 DAGScheduler 中汇总。TaskSetManager 管理每个 Stage 挂起(pending)的任务，对于那些有 GPU 请求的任务，我们需要处理;对于那些不需要 GPU 的作业，其调度行为和效率应该和之前保持一致。

　　目前，CPUS_PER_TASK(spark.task.cpus)是一个 int 类型的全局配置，用于指定每个 task 应分配的 cores。为了支持 GPU 的配置，引入了 spark.task.gpus 参数用于指定每个 task 需要申请的 GPU 数。如果用户没有指定 spark.task.cpus 或 spark.task.gpus，那么 Spark 程序将使用默认的值;因为需要向后兼容，所以如果用户没指定 spark.task.cpus 或 spark.task.gpus，这两个参数的默认值分别为 1 和空。

　　对于 ExecutorBackend ，需要使得它可以识别和管理 GPU ，并且把这些信息同步(比如修改现有的 RegisterExecutor 类)到 SchedulerBackend，然后 SchedulerBackend 可以根据这些 GPU 信息，为那些需要 GPU 资源的 task 进行资源分配。

　　Resource Manager

　　第一阶段将在 Standalone、YARN 以及 Kubernetes 上支持 GPU。Spark 需要在这三种资源管理上面做一些工作。

　　Standalone

　　Standalone 是 Spark 内置的资源管理模式，但是目前的 Standalone 部署模式并不能支持 GPU 等资源。为了能识别 GPU 信息，一种可行的方法是在配置文件里面对 GPU 资源进行配置， Worker 通过读取这些配置信息，并在内存结构里面维护 GPU 和 CPU 等可用资源等信息。同时，在 Master 上通过 allocateWorkerResourceToExecutors 方法对 Executors 申请的资源(包括 GPU)进行分配。

　　YARN

　　为了能够在 YARN 上支持 GPU，我们需要使用 YARN 3.1.2+ 版本;同时我们需要在 YARN 集群上做出相关配置，使得 YARN 启动了对 GPU 资源的支持，关于如何在 YARN 上配置 GPU 资源，请参见这里。

　　当为 Executors 申请 YARN 容器时，Spark 需要在 YARN 容器请求中将 executor 所需的 GPU 数量映射到 yarn.io/gpu 资源中。YARN 具有 GPU 隔离机制，所以无论是否使用 Docker 容器，对未分配给 YARN 容器的 GPU 资源的使用将会被阻止。

　　需要注意的是，截至目前 YARN 仅支持 Nvidia GPU。

　　Kubernetes

　　从 Kubernetes 1.8 版本开始，Kubernetes 使用设备插件模型(device plugin model)来支持 GPU、高性能NIC，FPGA 等设备。目前 Kubernetes 支持 Nvidia 、AMD 和 Intel 的 GPU 设备。在 Spark + k8s 里面为 task 指定 GPU 的数量和在 Standalone 或 YARN 模式里面一样。也是支持 spark.task.gpus 和 spark.executor.gpus 的全局配置，也支持在 RDD stage 中为每个 task 设置。

Apache Spark 3.0 将内置支持 GPU 调度的更多相关文章

Apache Spark 3.0 预览版正式发布，多项重大功能发布
2019年11月08日数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3. ...
迭代器模式的一种应用场景以及C#对于迭代器的内置支持
迭代器模式先放上gof中对于迭代器模式的介绍镇楼意图提供一种方法顺序访问一个聚合对象中各个元素, 而又不需暴露该对象的内部表示. 别名游标(Cursor). 动机一个聚合对象, 如列表(li ...
Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset
Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单.易用的APIs,支持跨多种语言(比如:Scala.Java.Python和R)来操作大数据. 本文主要 ...
thinkphp中ajax使用实例（thinkphp内置支持ajax）
thinkphp中ajax使用实例(thinkphp内置支持ajax) 一.总结 1.thinkphp应该是内置支持ajax的,所以请求类型里面才会有是否是ajax // 是否为 Ajax 请求 if ...
Spring MVC内置支持的4种内容协商方式【享学Spring MVC】
每篇一句十个光头九个富,最后一个会砍树前言不知你在使用Spring Boot时是否对这样一个现象"诧异"过:同一个接口(同一个URL)在接口报错情况下,若你用rest访问,它 ...
php 内置支持的标签和属性
内置支持的标签和属性列表如下: 标签名作用包含属性 include 包含外部模板文件(闭合) file import 导入资源文件(闭合包括js css load别名) file,href,ty ...
APACHE SPARK 2.0 API IMPROVEMENTS: RDD, DATAFRAME, DATASET AND SQL
What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If you are ju ...
重磅！K8S 1.18版本将内置支持SideCar容器。
作者:justmine 头条号:大数据与云原生微信公众号:大数据与云原生创作不易,在满足创作共用版权协议的基础上可以转载,但请以超链接形式注明出处. 为了方便阅读,微信公众号已按分类排版,后续的文 ...
.NET 7 SDK 对容器的内置支持
大家好,我是等天黑. .NET 又双叒叕出新功能了, 就在前几天,.NET 团队发布博客,宣称在 .NET SDK 中内置了对 .NET 应用容器化的支持. 小试牛刀在正式介绍它之前,先通过一个简单 ...

随机推荐

算法（第四版）C# 习题题解——2.3
写在前面整个项目都托管在了 Github 上:https://github.com/ikesnowy/Algorithms-4th-Edition-in-Csharp 查找更为方便的版本见:http ...
Matlab 将两个图像进行分离已知其中一个图像
5.下图(a)是一幅两个灰度图像合成的图像,已知其中一幅图像如图(b)所示,试把另一幅图像提取出来,并显示. 运用减法做 %加载入要处理的图片 A=imread('a.png'); %将I变为[0,1 ...
Python3 tkinter基础 Radiobutton variable 默认选中的按钮
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
SAP 应收票据处理之贴现流程和配置
特殊总账的应收票据处理是通过特殊总账标识实现的,特殊总账标识为W.在配置特殊总账时候,可以通过下面路径,定义特殊总账标识对应的备选科目.
洛谷 P3381 【【模板】最小费用最大流】
题目描述如题,给出一个网络图,以及其源点和汇点,每条边已知其最大流量和单位流量费用,求出其网络最大流和在最大流情况下的最小费用. 输入第一行包含四个正整数N.M.S.T,分别表示点的个数.有向边的 ...
javascript实现游戏贪吃蛇
1.设计蛇:属性有宽.高.方向.状态(有多少节),方法:显示,跑 2.设计食物:属性宽.高 3.显示蛇:根据状态向地图里加元素 4.蛇跑起来:下一节到前一节的位置,蛇头根据方向变,删除原来的蛇,新建蛇 ...
poj2528 Mayor's posters （线段树+离散化）
恩,这区间范围挺大的,需要离散化.如果TLE,还需要优化一下常数. AC代码 #include <stdio.h> #include <string.h> #include & ...
JS 基本类型和引用类型---JS 学习笔记（一）
本文参考了focusxxxxy的博客,感谢他的知识分享. 一基本类型和引用类型的值 ECMAScript 变量包含两种不同数据类型的值:基本类型和引用类型. 也有其他的叫法,比如原始类型和对象类型, ...
OpenGL.Tutorial15_Lightmaps
ZC:撤销 & 重做 — Blender Manual.html(https://docs.blender.org/manual/zh-hans/dev/interface/undo_redo ...
融云(API)
先记录下融云API地址:真是难找 IMKit: https://www.rongcloud.cn/docs/api/android/imkit/index.html IMLib: https://ww ...

Apache Spark 3.0 将内置支持 GPU 调度

Apache Spark 3.0 将内置支持 GPU 调度的更多相关文章

随机推荐

热门专题