报错 ncclCommInitRank failed.

环境

4 GeForce GTX 1080 GPUS
docker image nnabla/nnabla-ext-cuda-multi-gpu:py36-cuda102-mpi3.1.6-v1.14.0

代码

从仓库nnabla-ext-cuda-multi-gpu拉取镜像docker pull nnabla/nnabla-ext-cuda-multi-gpu:py36-cuda102-mpi3.1.6-v1.14.0
运行docker run -it --rm --gpus all nnabla/nnabla-ext-cuda-multi-gpu:py36-cuda102-mpi3.1.6-v1.14.0
添加test.py

import nnabla.communicators as C

from nnabla.ext_utils import get_extension_context

extension_module = "cudnn"

ctx = get_extension_context(extension_module)

comm = C.MultiProcessCommunicator(ctx)

comm.init()

print(f'sizes={comm.size}, divice_id={comm.rank}')

运行mpiexec -np 4 python test.py将会抛出异常。（异常只发生在使用GPU数大于2时）

bug

抛出异常如下：

Traceback (most recent call last):

  File "test.py", line 6, in <module>

    comm.init()

  File "communicator.pyx", line 121, in nnabla.communicator.Communicator.init

RuntimeError: target_specific error in init

/home/gitlab-runner/builds/g9zRZKFe/2/nnabla/builders/all/nnabla-ext-cuda/src/nbla/cuda/communicator/multi_process_data_parallel_communicator.cu:358

ncclCommInitRank failed.

使用NCCL_DEBUG=INFO查看详细信息mpiexec -np 4 -x NCCL_DEBUG=INFO python test.py

...

0db89117f3b2:87:87 [2] include/shm.h:28 NCCL WARN Call to posix_fallocate failed : No space left on device

0db89117f3b2:87:87 [2] NCCL INFO include/shm.h:41 -> 2

0db89117f3b2:87:87 [2] include/shm.h:48 NCCL WARN Error while creating shared memory segment nccl-shm-recv-6d2dacd576938b74-0-3-2 (size 9637888)

...

可以看到没有多余的共享内存，但是使用nvidia-smi查看GPU情况，发现内存并没有过多使用。

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 450.36.06    Driver Version: 450.36.06    CUDA Version: 11.0     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  GeForce GTX 1080    On   | 00000000:01:00.0 Off |                  N/A |

| 27%   30C    P8     5W / 180W |    815MiB /  8119MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  GeForce GTX 1080    On   | 00000000:02:00.0 Off |                  N/A |

| 27%   33C    P8     6W / 180W |      4MiB /  8119MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   2  GeForce GTX 1080    On   | 00000000:03:00.0 Off |                  N/A |

| 28%   35C    P8     5W / 180W |      4MiB /  8119MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   3  GeForce GTX 1080    On   | 00000000:04:00.0  On |                  N/A |

| 28%   34C    P8     6W / 180W |      4MiB /  8118MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

+-----------------------------------------------------------------------------+

原因

异常原因是NCCL不能在/dev/shm创建共享内存文件。因为docker默认的/dev/shm文件的大小为64MB太小了，所以当使用GPU数大于2时，会显示内存不够。

之前版本不出现这个错误，原因是nccl从2.6升级到2.7后，GPU之间的通信方式从p2p改为使用共享内存片段，所以如果使用nccl2.7以下版本将不会出现这个问题。

解决

有3中方式：

在/etc/nccl.conf或~/.nncd.conf文件中，添加配置NCCL_SHM_DISABLE=1。不适用共享内存，但是使用运行效率会降低。
可以映射宿主机上的/dev/shm，即docker run -v /dev/shm:/dev/shm ...，但是这样会在宿主机上留下脏文件。
运行时，修改容器共享内存的大小，即docker run --shm-size=256m ...。

参考

NCCL配置
https://github.com/NVIDIA/nccl/issues/290
https://github.com/PaddlePaddle/Paddle/pull/28484
https://github.com/horovod/horovod/issues/2395
https://github.com/NVIDIA/nccl/issues/406（使用NCCL_SHM_DISABLED=1可能会降低效率）

报错 ncclCommInitRank failed.的更多相关文章

svn报错cleanup failed–previous operation has not finished; run cleanup if it was interrupted的解决办法
今天在svn提交的时候它卡顿了一下,我以为已经提交完了,就按了一下,结果就再也恢复不了,也继续不了了... 报错 cleanup failed–previous operation has not f ...
docker报错：Failed to restart docker.service: Unit not found.
前言:我之前安装好docker了,但是关机重启后,发现docker就没了报错:Failed to restart docker.service: Unit not found. 解决方法: 1. ...
报错：Failed on local exception: Host Details : local host is: "master/192.168.52.26"; dest
报错现象 Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message ...
ionic报错： Failed to load resource
隔了一天,才发现是代码写错了出错的原因是在ts 文件中使用这样的定义 data: [] = ['高新区', '经开区', '其他园区']; 错误在于这个定义的类型,不能是 [],修改成 any就没有 ...
ionic 打包报错Execution failed for task ':processDebugResources'. > com.android.ide.common.process.ProcessException: Failed to execute aapt
在platform --> android目录下找到build.gradle文件,打开并在def promptForReleaseKeyPassword() {...}函数前加入以下内容: 完整 ...
Nginx反向代理上传大文件报错（failed to load resource : net :: ERR_CONNECTION_RESET）
转自: https://blog.csdn.net/kinginblue/article/details/50753271?locationNum=14&fps=1 Nginx反向代理上传大文 ...
git push报错error: failed to push some refs to 'git@github.com'
git push报错error: failed to push some refs to 'git@github.com' $ git push -u origin master To git@git ...
解决Eclipse启动报错【Failed to create the Java Virtual Machine】
电脑:2G内存,WIN7 32位. 启动adt-bundle-windows-x86-20140702\eclipse\eclipse.exe时,报错[Failed to create the Jav ...
【spring boot】spring boot 前台GET请求，传递时间类型的字符串，后台无法解析，报错：Failed to convert from type [java.lang.String] to type [java.util.Date]
spring boot 前台GET请求,传递时间类型的字符串,后台无法解析,报错:Failed to convert from type [java.lang.String] to type [jav ...

随机推荐

Java-Netty前菜-NIO
NIO NIO主要有三个核心部分组成: buffer缓冲区 Channel管道 Selector选择器在NIO中并不是以流的方式来处理数据的,而是以buffer缓冲区和Channel管道配合使用来处 ...
redis cluster可用性测试
上一节,我们用三台redis组成了cluster,现在我们停掉一台试试: 比较奇怪的是,在停掉其中一台服务器之前建立的链接仍然可以正常执行命令,当我们断开重连时,命令就都被拒绝了: 关联知识: 什么时 ...
Linux服务器学习----tomcat 服务配置实验报告（一）
一.实验目的 1. 掌握 tomcat 服务的搭建二.实验内容 1. 搭建一台缓存 tomcat 服务器三.实验环境1. tomcat 服务器 centos7 对应主机 ip 为 10.10.64 ...
CoProcessFunction实战三部曲之一：基本功能
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
基于FPGA的VGA显示实验设计
基于FPGA的VGA显示实验设计成果展示(优酷视频): 视频: 基于FPGA的VGA显示技术(手机控制) http://v.youku.com/v_show/id_XNjk4ODE3ODUy.htm ...
spring aop 、Redis实现拦截重复操作
一.问题:项目中有一些重复操作的情况,比如: 1.从场景有用户快速点击提交按钮,或者postMan测试时快速点击 2.从业务上来说,用户注册.用户下单等 3.黑客攻击二.解决办法 1.使用sprin ...
极简python教程：快速入门好方法
大家好,我是测试奇谭的作者风风. 其实很久之前,就有身边的同事或者网友让我分享一些关于python编程语言的快速教程,他们的痛点同大多数自学编程语言的人一样,遇到了这些问题: 网络上的信息太多,良莠不 ...
Python基础篇学习感悟：学如不及，犹恐失之
从2019年3月底开始学习Python,4月12日在CSDN发表第一篇博文,时至今日已有4个月零12天. 4个多月的学习,老猿从一个Python小白成长到今天,可以说对Python这门语言已经略知一二 ...
Kubernetes的Local Persistent Volumes使用小记
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
题解-Sakuya's task
题面 Sakuya's task \[\left(\sum_{i=1}^n\sum_{j=1}^n \varphi(\gcd(i,j))\right)\bmod 10^9+7 \] 数据范围:\(1\ ...

报错 ncclCommInitRank failed.

环境

代码

bug

原因

解决

参考

报错 ncclCommInitRank failed.的更多相关文章

随机推荐

热门专题