在超算系统上运行MXNet分布式训练任务时,面临着一个IP地址相关的问题.我们在提交MXNet的分布式任务时,需要知道各个GPU节点的IP地址,把这些IP地址放到一个hosts文件中,以供分布式训练使用.因此,一种常用的方式是先使用salloc或yhalloc申请若干节点,然后依次登录这些节点,查询它们的IP地址,手动写入到一个hosts文件中,再使用MXNet提供的脚本提交分布式训练任务.显然,这种方法具有很多劣势.首先,当集群资源不足时,我们需要人工守在电脑前,等待有空闲资源时再手动申请节点…