IMPI Python集群运行报错:
Intel MPI环境利用hostfile多主机运行下报错
HYDU_process_mfile_token (../../utils/args/args.c:523): token slots not supported at this time
HYDU_parse_hostfile (../../utils/args/args.c:597): unable to process token
mfile_fn (../../ui/mpich/utils.c:446): error parsing hostfile
match_arg (../../utils/args/args.c:243): match handler returned error
HYDU_parse_array (../../utils/args/args.c:269): argument matching returned error
parse_args (../../ui/mpich/utils.c:4770): error parsing input array
HYD_uii_mpx_get_parameters (../../ui/mpich/utils.c:5106): unable to parse user arguments
将hostfile文件中指定进程个数的slots参数删去仍然会报错。
之前用C语言的MPI和对应的hostfile
尝试集群运行,已经通过验证是没有问题的。
使用IMPI的mpirun
就发生了上述问题,还在尝试解决中
似乎和原来的OpenMPI的命令行参数不太一样,尝试了几个都没法之后,只用用命令
/opt/intel/intelpython2/bin/mpirun -help | grep host
来查找所有和host
有关的配置参数来看一遍了,输出如下
$ /opt/intel/intelpython2/bin/mpirun -help | grep host
-f {name} | -hostfile {name} file containing the host names
-hosts {host list} comma separated host list
-host {hostname} host on which processes are to be run
-hostos {OS name} operating system on particular host
-perhost <n> place consecutive <n> processes on each host
-ppn <n> stand for "process per node"; an alias to -perhost <n>
-grr <n> stand for "group round robin"; an alias to -perhost <n>
-localhost local hostname for the launching node
不使用hostfile参数,使用host参数指定唯一主机
- 前置问题一: 如果只输入
-host
参数指定远程的唯一运行主机,发现会报错:
HYDU_sock_connect (../../utils/sock/sock.c:224): unable to get host address for ServerXXXX (1)
[proxy:0:0@localhost.localdomain] main (../../pm/pmiserv/pmip.c:468): unable to connect to server ServerXXXX at port 38935 (check for firewalls!)
可能原因:
1. 防火墙未关闭,被防住了
2. 主机名无法解析
在确认防火墙关闭的情况下,注意力集中在主机名解析的问题上
在google上搜索了几个相同问题的链接,最后在StackOverFlow找到了这个问题,参考StackOverFlow相同问题
在主机2上加入对master主机名和IP地址的对应:
在 主机2的/etc/hosts/
文件中加入
192.168.xx.xxx MasterName
再使用问题一中提到的命令,可以发现已经正常工作。
使用不含slots的hostfile文件已经可以正常运行。
但是含有slots参数无法正常解析,是否OpenMPI 和 intel MPI的hostfile文件格式不一致呢
是的,没错,不一致。参考Intel的MPI进程控制说明
intel MPI的hostfiles正确写法应该是 : node0:2
其次,通过亲测,参数要使用 -machinefile
才能有效控制每台机器上的进程个数。更多详细信息请看上述链接。
至此,集群运行MPI的环境问题应该是已经全部解决了。
DAPL startup: RLIMIT_MEMLOCK too small
后来多节点并行计算时,发现这样的warning:
[5] DAPL startup: RLIMIT_MEMLOCK too small
[4] DAPL startup: RLIMIT_MEMLOCK too small
[2] DAPL startup: RLIMIT_MEMLOCK too small
[1] DAPL startup: RLIMIT_MEMLOCK too small
使用 ulimit -a
命令查看:
$ ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 6561
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 4096
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
可以清楚看到max locked memory (kbytes, -l) 64
应该调大它就不会有这个问题了。更多详情参考此处
关于ulimit
命令的使用,参考菜鸟教程Linux ulimit命令
关于max memory locked
概念,可以参考此博客
内存锁定值的限制(max locked memory)
这个值只对普通用户起作用,对超级用户不起作用,这个问题是由于CAP_IPC_LOCK造成的.
linux对内存是分页管理的,这意味着有不需要时,在物理内存的数据会被换到交换区或磁盘上.
有需要时会被交换到物理内存,而将数据锁定到物理内存可以避免数据的换入/换出.
采用锁定内存有两个理由:
1)由于程序设计上需要,比如oracle等软件,就需要将数据锁定到物理内存.
2)主要是安全上的需要,比如用户名和密码等等,被交换到swap或磁盘,有泄密的可能,所以一直将其锁定到物理内存.
IMPI Python集群运行报错:的更多相关文章
- ceph-deploy离线部署ceph集群及报错解决FAQ
ceph-deploy部署ceph集群 环境介绍 主机名 ip地址 操作系统 角色 备注 ceph-node1 10.153.204.13 Centos7.6 mon.osd.mds.mgr.rgw. ...
- Redis集群创建报错
Redis集群环境:och163/och164/och165 在执行如下脚本时报错: ./src/redis-trib.rb create 10.1.253.163: 10.1.253.164: 10 ...
- elasticsearch集群搭建报错: not enough master nodes discovered during pinging
自己用一台 阿里云 服务器 搭建ES集群的时候,总是报上面的问题. 而且两个ES服务都是报同样的问题.自己的配置文件如下: es服务1配置文件 cluster.name: elasticsearch ...
- elasticsearch配置集群+elk报错总结
配置ELK的时候,我平常遇到了以下几种报错情况,整理如下(持续更新中): elasticsearch启动失败 # systemctl start elasticsearch Job for elast ...
- 执行redis命令redis-trib.rb查看集群信息报错cannot load such file -- redis (LoadError)
问题描述: 在执行redis-trib.rb命令查看集群状态的时候,报错: [aiprd@hadoop1 ~]$ redis-trib.rb check Traceback (most recent ...
- HBase 2.1.3 集群 web 报错InvalidProtocolBufferException 解决方法
搭建好HBase 集群后,各种后台进程都正常,搭建手册参考: Hbase 2.1.3 集群搭建手册https://www.cndba.cn/dave/article/3322 但是通过web访问,却报 ...
- rabbimq集群搭建报错:Error: unable TO perform an operation ON node 'rabbit@test3'. Please see diagnostics information AND suggestions below.
在搭建rabbitmq集群的时候,添加内存节点时,抛出异常:Error: unable TO perform an operation ON node 'rabbit@test3'. Please s ...
- 【问题集】redis集群set报错(error) MOVED 11469 192.168.181.201:7002
没有启动集群模式(即缺少了那个"-c"): redis-cli -c -h yourhost -p yourpost
- 【Python】脚本运行报错:IndentationError: unindent does not match any outer indentation level
[问题] 一个python脚本,本来都运行好好的,然后写了几行代码,而且也都确保每行都对齐了,但是运行的时候,却出现语法错误: IndentationError: unindent does not ...
随机推荐
- LeetCode27.移除元素 JavaScript
给定一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,返回移除后数组的新长度. 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成 ...
- 架构风格:万金油CS与分层
计算机科学家David Wheele曾说过这么一句话: All problems in computer science can be solved by another level of indir ...
- Redis笔记 -- 在 Centos7.4单机中部署Redis集群(二)
0x00--背景和目的 在单台PC服务器上部署Redis集群,通过不同的TCP端口启动多实例,模拟多台独立PC组成集群. 0x01--环境描述: Centos版本:CentOS Linux relea ...
- 嗨翻C语言笔记(一)
对自己狠一点,逼自己努力,总有一天你会感谢今天的自己! C语言不支持现成的字符串, 只能用数组表示. & (and)运算, 即两个数的每个二进制位都进行比较, 对等位均为1时为1, 否则为0. ...
- 走进MySQL
MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数据库管理系统)应用 ...
- PHP中$a && $b = $c 语法的用法
$a && $b = $c 表示:如果$a为真,则执行$b = $c,否则不执行. 可以用if语句替代: if ($a) { $b = $c; } 实例: $a = true; $b ...
- h5禁用手机input点击放大
最近项目做的是h5的手机移动端,在用苹果浏览器测试时,弹出框输入信息会自动拉伸屏幕,并且不会像安卓一样回来. 网上查找说设置浏览器自适应头,但是并没有效果, <meta name="v ...
- yii学习笔记(1),目录结构和请求过程
最近找找工作面试,发现很多要求会yii.于是准备学习一个新的框架 先在腾讯课堂找了个视频看了一下,然后去网上现在了“归档文件”(还有一种方式是通过php的包管理工具“composer”安装) 归档文件 ...
- 大数据学习--day07(冒泡排序、Arrays工具类、方法可变参数)
冒泡排序.Arrays工具类.方法可变参数 冒泡排序之前写过,略 Arrays工具类 二分法查询 public static int binarySearch(int[] a,int key) 头信息 ...
- C语言中malloc函数的理解
在C语言中malloc函数主要是用在堆内存的申请上,使用malloc函数时,函数会返回一个void *类型的值,这个值就是你申请的堆内存的首地址:为什么返回的地址是一个void *类型的地址呢?首先我 ...