在 Yarn 上使用 GPU

前提

目前，Yarn 只支持 Nvidia GPU。
YARN NodeManager 所在机器必须预先安装了 Nvidia 驱动器。
如果使用 Docker 作为容器的运行时上下文，需要安装 nvidia-docker 1.0（这是 Yarn 当前所能支持的版本）。

配置

GPU 调度

在 resource-types.xml，添加如下配置

<configuration>

  <property>

     <name>yarn.resource-types</name>

     <value>yarn.io/gpu</value>

  </property>

</configuration>

在 yarn-site.xml 中，DominantResourceCalculator 必须被配置以启用 GPU 调度和隔离。

对于 Capacity Scheduler，在 capacity-scheduler.xml 中使用如下参数以配置 DominantResourceCalculator：

参数	默认值
yarn.scheduler.capacity.resource-calculator	org.apache.hadoop.yarn.util.resource.DominantResourceCalculator

GPU 隔离

`yarn-site.xml`

<property>

  <name>yarn.nodemanager.resource-plugins</name>

  <value>yarn.io/gpu</value>

</property>

这将在 NodeManager 上启用 GPU 隔离模块。

如果配置了上述参数，YARN 会自动检测和配置 GPU。如果管理员由特殊的需求，以下参数需要在 yarn-site.xml 中配置。

1) 允许的 GPU 设备

Property	Default value
yarn.nodemanager.resource-plugins.gpu.allowed-gpu-devices	auto

指明由 Yarn NodeManager 管理的 GPU 设备，用逗号分隔。GPU 卡的数量将被汇报给 ResourceManager用于调度。默认值 auto 代表让 YARN 从系统中自动发现 GPU 卡。

如果自动探测会失败或者管理员只希望一部分的 GPU 卡被 Yarn 管理，请人为地指明可用的 GPU 卡。GPU 卡由次设备号和顺序索引来标识。可以通过执行 nvidia-smi -q 并在标准输出中查找 Minor Number 关键字，来获取 GPU 卡的次设备号。

当次版本号被特别指定，管理员还需要提供 GPU 卡的索引，格式是 index:minor_number[,index:minor_number...]。一个人为设定的示例是 0:0,1:1,2:2,3:4，由此 YARN NodeManager 将会管理索引为 0/1/2/3 且次版本号为 0/1/2/4 的 4 块 GPU 卡。

2) 发现 GPU 的可执行程序

参数	值
yarn.nodemanager.resource-plugins.gpu.path-to-discovery-executables	/absolute/path/to/nvidia-smi

当给定了 yarn.nodemanager.resource.gpu.allowed-gpu-devices=auto，Yarn NodeManager 将执行 GPU 发现的可执行程序（目前只支持 nvidia-smi）来收集 GPU 信息。如果值为空（默认值），YARN NodeManager 将尝试自行寻找，一个可能的位置是 /usr/local/bin/nvidia-smi。

3) Docker 插件相关的配置

当用户想在 Docker 容器中运行 GPU 程序，可以定制化以下配置项。如果管理员遵循了 nvidia-docker 的默认安装和配置流程，那就可以不配置。

参数	默认值
yarn.nodemanager.resource-plugins.gpu.docker-plugin	nvidia-docker-v1

指定操作 GPU 的 Docker 命令插件。默认使用 Nvidia Docker V1.0。

参数	默认值
yarn.nodemanager.resource-plugins.gpu.docker-plugin.nvidia-docker-v1.endpoint	http://localhost:3476/v1.0/docker/cli

指定 nvidia-docker-plugin 的服务入口。请参阅 https://github.com/NVIDIA/nvidia-docker/wiki 以获得更多信息。

4) CGroup 挂载

GPU 隔离使用 CGroup 设备控制器来实现 GPU 卡之间的隔离。为了自动挂载次设备到 CGRoup，以下配置要添加到 yarn-site.xml 文件中。否则，管理员必须人为地创建设备子目录以使用该功能。

参数	默认值
yarn.nodemanager.linux-container-executor.cgroups.mount	true

`container-executor.cfg`

通常需要添加如下配置到 container-executor.cfg 中

[gpu]

module.enabled=true

如果用户要在非 Docker 环境下运行 GPU 程序：

[cgroups]

# 应和 yarn-site.xml 中的 yarn.nodemanager.linux-container-executor.cgroups.mount-path 保持一致

root=/sys/fs/cgroup

# 应和 yarn-site.xml 中的 yarn.nodemanager.linux-container-executor.cgroups.hierarchy 保持一致

yarn-hierarchy=yarn

如果用户要在 Docker 环境下运行 GPU 程序：

1) 将 GPU 相关的设备添加到 Docker 段。

执行命令 ls /dev/nvidia* 获取 GPU 相关的设备，用逗号分隔将它们添加到配置文件中。

[docker]

docker.allowed.devices=/dev/nvidiactl,/dev/nvidia-uvm,/dev/nvidia-uvm-tools,/dev/nvidia1,/dev/nvidia0

2) 将 nvidia-docker 添加到 volume-driver 白名单。

[docker]

...

docker.allowed.volume-drivers

3) 添加 nvidia_driver_<version> 到只读挂载的白名单。

[docker]

...

docker.allowed.ro-mounts=nvidia_driver_375.66

使用

Distributed-shell + GPU

分布式 Shell 程序在内存和虚拟核之外，还支持申请更多的资源类型。

不使用 Docker 运行 Distributed-shell + GPU

不使用 Docker 运行分布式 Shell 程序（申请 2 个任务，每个任务消费 3GB 内存、1 虚拟核和 2 块 GPU 卡）：

yarn jar <path/to/hadoop-yarn-applications-distributedshell.jar> \

  -jar <path/to/hadoop-yarn-applications-distributedshell.jar> \

  -shell_command /usr/local/nvidia/bin/nvidia-smi \

  -container_resources memory-mb=3072,vcores=1,yarn.io/gpu=2 \

  -num_containers 2

对于已经启动的任务，你将从日志中看到如下的输出：

Tue Dec  5 22:21:47 2017

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 375.66                 Driver Version: 375.66                    |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|===============================+======================+======================|

|   0  Tesla P100-PCIE...  Off  | 0000:04:00.0     Off |                    0 |

| N/A   30C    P0    24W / 250W |      0MiB / 12193MiB |      0%      Default |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-PCIE...  Off  | 0000:82:00.0     Off |                    0 |

| N/A   34C    P0    25W / 250W |      0MiB / 12193MiB |      0%      Default |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                       GPU Memory |

|  GPU       PID  Type  Process name                               Usage      |

|=============================================================================|

|  No running processes found                                                 |

+-----------------------------------------------------------------------------+

基于 Docker 的 Distributed-shell + GPU

同样可以使用 Docker 容器来允许分布式 Shell 程序，请提供 YARN_CONTAINER_RUNTIME_TYPE/YARN_CONTAINER_RUNTIME_DOCKER_IMAGE 来指明使用的镜像。

yarn jar <path/to/hadoop-yarn-applications-distributedshell.jar> \

  -jar <path/to/hadoop-yarn-applications-distributedshell.jar> \

  -shell_env YARN_CONTAINER_RUNTIME_TYPE=docker \

  -shell_env YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=<docker-image-name> \

  -shell_command nvidia-smi \

  -container_resources memory-mb=3072,vcores=1,yarn.io/gpu=2 \

  -num_containers 2

Hadoop 3.1.1 - Yarn - 使用 GPU的更多相关文章

Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Ap ...
Hadoop 新 MapReduce 框架 Yarn 详解【转】
[转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/] 简介: 本文介绍了 Hadoop 自 0.23.0 版本 ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...
Hadoop 3.1.1 - Yarn - 使用 FPGA
在 Yarn 上使用 FPGA 前提 YARN 目前只支持通过 IntelFpgaOpenclPlugin 发布的 FPGA 资源 YARN NodeManager 所在的机器上必须预先安装供应商的驱 ...
更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）
摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理.优势.运作机制和配置方法等:着重介绍新的Yarn框架相对于原框架的差异及改进. 编者按:对于业界的大数据存 ...
hadoop多机安装YARN
hadoop伪分布安装称为测试环境安装,多机分布称为生成环境安装.以下安装没有进行HA(热备)和Federation(联邦).除非是性能需要,否则没必要安装Federation,HA可以一试,涉及到Z ...
【原创】大数据基础之Hadoop（3）yarn数据收集与监控
yarn常用rest api 1 metrics # curl http://localhost:8088/ws/v1/cluster/metrics The cluster metrics reso ...
Hadoop生态集群YARN详解
一,前言 Hadoop 2.0由三个子系统组成,分别是HDFS.YARN和MapReduce,其中,YARN是一个崭新的资源管理系统,而MapReduce则只是运行在YARN上的一个应用,如果把YAR ...
Hadoop记录-MRv2（Yarn）运行机制
1.MRv2结构—Yarn模式运行机制 Client---客户端提交任务 ResourceManager---资源管理 ---Scheduler调度器-资源分配Containers ----在Yarn ...

随机推荐

在vue项目中使用scss，以及vscode适配scss语法（解决使用scss语法编辑器报错）
项目搭建好之后安装sass 依赖包 npm install --save-dev sass-loader //sass-loader依赖于node-sass npm install --save-d ...
js关于数组的操作(合并数组、添加数组、循环等)
1. concat() 方法 concat() 方法用于连接两个或多个数组 var arr = new Array(3) arr[0] = "George" arr[1] = &q ...
CSS 奇思妙想 | 全兼容的毛玻璃效果
通过本文,你能了解到最基本的使用 CSS backdrop-filter 实现磨砂玻璃(毛玻璃)的效果在至今不兼容 backdrop-filter 的 firefox 浏览器,如何利用一些技巧性的 ...
centos7安装kubernetes1.18.5
一.设置hosts 修改主机名 [root@localhost kubernetes]# hostnamectl set-hostname master69 四台服务器安装kebernetes,一个m ...
『无为则无心』Python基础 — 16、Python序列之字符串的下标和切片
目录 1.序列的概念 2.字符串的下标说明 3.字符串的切片说明 1.序列的概念序列sequence是Python中最基本的数据结构.指的是一块可存放多个值的连续内存空间,这些值按一定顺序排列,可通 ...
Vsftpd虚拟用户登陆配置(Centos7)
1 安装Vsftpd服务 # yum install vsftpd -y vsftp虚拟用户是为了保证FTP服务器的安全性,由vsftpd服务器提供的非系统用户账号, 相对于FTP的本地用户来说,虚拟 ...
20、checkconfig
chkconfig控制的原理(/etc/init.d/里面设置脚本,在/etc/rc.d/rc..d中设置软连接,通过chkconfig进行管理,同时也加入到了service服务,chkconfig设 ...
java中使用for循环删除List集合的陷阱
一直以为是数据库的数据取错了,导致后面for循环出错.慢慢调试之后,发现这原来是一个坑.回到正题 (错误示范:使用for循环删除list集合) for(int i=0;i<list.size() ...
buu crypto 凯撒？替换？呵呵!
一. 以为是简单的凯撒加密,但是分析Ascill表,发现毫无规律,意味着要爆破出所有可能.只能用在线工具来弄了,脚本是不可能写的(狗头) 找到了,但是提交不成功,需要变成小写,用脚本转换一下,同时很坑 ...
因为它，我差点删库跑路：js防抖与节流
前言前端踩雷:短时间内重复提交导致数据重复. 对于前端大佬来说,防抖和节流的技术应用都是基本操作.对于"兼职"前端开发的来说,这些都是需要躺平的坑. 我们今天就来盘一盘js防抖与 ...

Hadoop 3.1.1 - Yarn - 使用 GPU