系统环境: rhel6 x86_64 iptables and selinux disabled

主机: 192.168.122.121 server21.example.com 计算节点

192.168.122.173 server73.example.com 计算节点

192.168.122.135 server35.example.com 调度节点(注:时间需同步)

所需的包:icpi-64 torque-4.1.2.tar.gz

相关网址http://www.clusterresources.com/downloads/torque/

注:首先建立调度节点与所有计算节点间的
ssh
无密码连接,方法可参考Rhel6-mpich2
hpc
集群.pdf

#安装并配置torque

以下步骤在server35(调度节点)上实施:

[root@server35
kernel]# tar zxf torque-4.1.2.tar.gz

[root@server35
kernel]# cd torque-4.1.2

[root@server35
torque-4.1.2]# ./configure --with-rcp=scp
--with-default-server=server35.example.com

此时会出现如下错误:

(1)configure:
error: no acceptable C compiler found in $PATH

(2)configure:
error: cannot find a make command

(3)configure:
error: TORQUE needs lib openssl-devel in order to build

(4)configure:
error: TORQUE needs libxml2-devel in order to build

解决方法如下:

[root@server35
torque-4.1.2]# yum install gcc -y

[root@server35
torque-4.1.2]# yum install make -y

[root@server35
torque-4.1.2]# yum install openssl-devel -y

[root@server35
torque-4.1.2]# yum install libxml2-devel -y

[root@server35
torque-4.1.2]# make && make install
(torque 的配置目录:
/var/spool/torque)

[root@server35
torque-4.1.2]# make packages (生成计算节点安装包,即在
host1

host2
上安装的包,确保所有计算
节点和服务节点的架构是相同的)

torque-package-clients-linux-x86_64.sh

torque-package-devel-linux-x86_64.sh

torque-package-doc-linux-x86_64.sh

torque-package-mom-linux-x86_64.sh

torque-package-server-linux-x86_64.sh

[root@server35
torque-4.1.2]# cd contrib/init.d/

[root@server35
init.d]# cp pbs_server /etc/init.d/

[root@server35
init.d]# cp pbs_sched /etc/init.d/

[root@server35
init.d]# cp pbs_mom /etc/init.d/ (如果调度端同时做计算的话就拷贝)

[root@server35
init.d]# scp pbs_mom 192.168.122.121:/etc/init.d/

[root@server35
init.d]# scp pbs_mom 192.168.122.173:/etc/init.d/

[root@server35
init.d]# cd /root/kernel/torque-4.1.2

[root@server35
torque-4.1.2]# ./torque.setup root (设置
torque
的管理帐户)

[root@server35
torque-4.1.2]# vim /var/spool/torque/server_priv/nodes

server21.example.com

server73.example.com
(设定计算节点,服务节点也可做计算)

[root@server35
torque-4.1.2]# scp torque-package-clients-linux-x86_64.sh
torque-package-mom-linux-x86_64.sh root@192.168.122.121:/root/kernel/

[root@server35
torque-4.1.2]# scp torque-package-clients-linux-x86_64.sh
torque-package-mom-linux-x86_64.sh root@192.168.122.173:/root/kernel/

[root@server35
torque-4.1.2]# qterm -t quick (停止torque)

[root@server35
torque-4.1.2]# /etc/init.d/pbs_server start (启动torque)

[root@server35
torque-4.1.2]# /etc/init.d/pbs_sched start (启动调度程序)

以下步骤在server21server73(所有计算节点)上实施:

[root@server21
kernel]# ./torque-package-clients-linux-x86_64.sh –install

[root@server21
kernel]# ./torque-package-mom-linux-x86_64.sh –install

注:如果计算节点的架构和服务节点不同,安装方法如下:

tar
zxf torque-4.1.2.tar.gz

./configure
--with-rcp=rcp –with-default- server=server35.example.com

make

make
install_mom install_clients

[root@server21
kernel]# vim /var/spool/torque/mom_priv/config

$pbsserver
server35.example.com

$logevent
255

[root@server21
kernel]# /etc/init.d/pbs_mom start

[root@server21
kernel]# su - lmx

[lmx@server21
~]$ mpdboot -n 2 -f mpd.hosts

测试前配置:

:torque
的调度需要使用非
root 用户

[root@server35
~]# su - lmx

[lmx@server35
~]$ vim job1.pbs (串行作业)

#!/bin/bash

#PBS
-N job1

#PBS
-o job1.log

#PBS
-e job1.err

#PBS
-q batch

cd
/home/lmx

echo
Running on hosts `hostname`

echo
Time is `date`

echo
Directory is $PWD

echo
This job runs on the following nodes:

cat
$PBS_NODEFILE

echo
This job has allocated 1 node

./prog

[lmx@server35
~]$ vim job2.pbs (并行作业)

#!/bin/bash

#PBS
-N job2

#PBS
-o job2.log

#PBS
-e job2.err

#PBS
-q batch

#PBS
-l nodes=2

cd
/home/lmx

echo
Time is `date`

echo
Directory is $PWD

echo
This job runs on the following nodes:

cat
$PBS_NODEFILE

NPROCS=`wc
-l < $PBS_NODEFILE`

echo
This job has allocated $NPROCS nodes

mpiexec
-machinefile $PBS_NODEFILE -np $NPROCS ./prog

[lmx@server35
~]$ vim prog

#!/bin/bash

echo
1000000000 | ./icpi-64 (icpi 程序是
mpi 自带的,拷贝过来即可)

[lmx@server35
~]$ chmod +x prog

qsub
jobx.pbs(
提交作业)

qstat
(
查看作业)

pbsnodes
(
查看节点)

测试结果:

[lmx@server35
~]$ qsub job1.pbs (提交串行作业)

10.server35.example.com

[lmx@server35
~]$ qstat

Job
id Name User Time Use S
Queue

-------------------------
---------------- --------------- -------- - -----

10.server35
job1 lmx 0 R batch

[lmx@server35
~]$ pbsnodes

server21.example.com

state = job-exclusive

np = 1

ntype = cluster

jobs =
0/10.server35.example.com

status =
rectime=1375075596,varattr=,jobs=,state=free,netload=18001357,gres=,loadave=0.00,ncpus=1,physmem=285532kb,availmem=1196472kb,totmem=1301332kb,idletime=7413,nusers=0,nsessions=0,uname=Linux
server21.example.com 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36
EDT 2012 x86_64,opsys=linux

mom_service_port = 15002

mom_manager_port = 15003

gpus = 0

server73.example.com

state =
free

np = 1

ntype = cluster

status =
rectime=1375075593,varattr=,jobs=,state=free,netload=18502638,gres=,loadave=0.00,ncpus=1,physmem=285532kb,availmem=1194920kb,totmem=1301332kb,idletime=12865,nusers=0,nsessions=0,uname=Linux
server73.example.com 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36
EDT 2012 x86_64,opsys=linux

mom_service_port = 15002

mom_manager_port = 15003

gpus = 0

[lmx@server35
~]$ cat job1.log (查看计算结果)

Running
on hosts server21.example.com

Time
is Mon Jul 29 13:26:58 CST 2013

Directory
is /home/lmx

This
job runs on the following nodes:

server21.example.com

This
job has allocated 1 node

Enter
the number of intervals: (0 quits) pi is approximately
3.1415926535899708, Error is 0.0000000000001776

wall
clock time = 31.147027

Enter
the number of intervals: (0 quits) No number entered; quitting

[lmx@server35
~]$ qsub job2.pbs (提交并行作业)

11.server35.example.com

[lmx@server35
~]$ qstat

Job
id Name User Time Use S
Queue

-------------------------
---------------- --------------- -------- - -----

10.server35
job1 lmx 00:00:31 C batch

11.server35
job2 lmx 0 R batch

[lmx@server35
~]$ pbsnodes

server21.example.com

state = job-exclusive

np = 1

ntype = cluster

jobs =
0/11.server35.example.com

status =
rectime=1375075821,varattr=,jobs=,state=free,netload=18314029,gres=,loadave=0.02,ncpus=1,physmem=285532kb,availmem=1196340kb,totmem=1301332kb,idletime=7638,nusers=1,nsessions=2,sessions=1209
2980,uname=Linux server21.example.com 2.6.32-279.el6.x86_64 #1 SMP
Wed Jun 13 18:24:36 EDT 2012 x86_64,opsys=linux

mom_service_port = 15002

mom_manager_port = 15003

gpus = 0

server73.example.com

state =
job-exclusive

np = 1

ntype = cluster

jobs =
0/11.server35.example.com

status =
rectime=1375075818,varattr=,jobs=,state=free,netload=18756208,gres=,loadave=0.00,ncpus=1,physmem=285532kb,availmem=1194860kb,totmem=1301332kb,idletime=13090,nusers=0,nsessions=0,uname=Linux
server73.example.com 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36
EDT 2012 x86_64,opsys=linux

mom_service_port = 15002

mom_manager_port = 15003

gpus = 0

[lmx@server35
~]$ cat job2.log (查看计算结果)

Time
is Mon Jul 29 13:30:43 CST 2013

Directory
is /home/lmx

This
job runs on the following nodes:

server73.example.com

server21.example.com

This
job has allocated 2 nodes

Enter
the number of intervals: (0 quits) pi is approximately
3.1415926535900072, Error is 0.0000000000002141

wall
clock time = 16.151319

Enter
the number of intervals: (0 quits) No number entered; quitting

注:

1.
测试时需确保所有节点上有lmx这个用户

2.
启动 mpd
程序时要使用lmx用户([lmx@server21
~]$ mpdboot -n 2 -f mpd.hosts) 因为在调度时会连接计算节点
上/tmp/mpd2.console_wxh

Rhel6-torque作业调度系统配置文档的更多相关文章

  1. Rhel6-puppet集中配置管理系统配置文档

    puppet 是一个配置管理工具, 典型的, puppet 是一个 C/S 结构, 当然,这里的 C 可以有很多,因 此,也可以说是一个星型结构. 所有的 puppet 客户端同一个服务器端的 pup ...

  2. RHEL6.2的安装文档

    1 Installing RHEL 6.2 1.1 开始安装 选择“Install or upgrade an existing system”: 1.2 光盘检测 选择“Skip”跳过安装介质的检查 ...

  3. 转://诊断 Grid Infrastructure 启动问题 (文档 ID 1623340.1) .

    文档内容   用途   适用范围   详细信息   启动顺序:   集群状态   问题 1: OHASD 无法启动   问题 2: OHASD Agents  未启动   问题 3: OCSSD.BI ...

  4. SpingMVC 核心技术帮助文档

    声明:本篇文档主要是用于参考帮助文档,没有实例,但几乎包含了SpringMVC 4.2版本的所有核心技术,当前最新版本是4.3,4.2的版本已经经是很新的了,所以非常值得大家一读,对于读完这篇文档感觉 ...

  5. 树莓派配置文档 config.txt 说明(转)

    原文连接:http://elinux.org/RPi_config.txt 由于树莓派并没有传统意义上的BIOS, 所以现在各种系统配置参数通常被存在"config.txt"这个文 ...

  6. 用DOS命令打开IE浏览器、我的文档等等

    用DOS命令打开IE浏览器 在“start”-运行中直接输入网址就可以了.如输入百度: http://www.baidu.com Command:[ start  http://www.baidu.c ...

  7. Rhel6-mysql_cluster配置文档

    MySQL Cluster 是一种技术,其主要功能是在无共享的相关系统中部署内存中数据库 的 Cluster .在通过无共享体系结构,系统能够使用廉价的硬件,而且对软硬件无特殊要求. 此外,由于每个组 ...

  8. Rhel6-moosefs分布式存储配置文档

    MFS 特性: 1. Free(GPL) 2. 通用文件系统,不需要修改上层应用就可以使用 3. 可以在线扩容,体系架构可伸缩性极强. 4. 部署简单. 5. 高可用,可设置任意的文件冗余程度(提供比 ...

  9. oracle database 12c R1 安装文档

    INSTALLORACLE DATABASE 12C 完整的安装文档下载地址: http://download.csdn.net/detail/royjj/5665869 OS:ORALCE LINU ...

随机推荐

  1. Bug测试报告--在线考试系统--金州勇士

    项目名:在线考试系统 组名:金州勇士 测试者:宫丽君(nice!团队) 代码地址: ssh:git@git.coding.net:handsomeman/examm.git     https://g ...

  2. mysql++的release版本当机的问题

    今天用mysql++的release写例子,总是当机,仔细查了一下,发现在编mysqlpp库的时候,代码生成设置成了MDD,改成MD就好了.

  3. C#:涉及DPI的高分辨率下的显示问题

    一.背景 在PC机上显示正常,在高分辨率下的Pad上,显示出现问题: 1.显示在屏幕最右端的窗体(控件)显示不出来: 2.截图时,被截图的界面字体文字变大,界面因此显示不全. 二.解决方法: 方法一: ...

  4. (转) Eclipse连接MySQL数据库(傻瓜篇)

    Eclipse连接MySQL数据库(傻瓜篇) 原帖地址: http://www.cnblogs.com/fnng/archive/2011/07/18/2110023.html Posted on 2 ...

  5. 初学画布canvas的chapter2

    文本 1.字体属性 context.font = [css font property] ——使用CSS规范,语法跟CSS字体速记符号一致 ——line-height无效,并永远忽略 Context. ...

  6. 【Unity3D游戏开发】之游戏目录结构之最佳实践和优化 (十一)

    游戏目录结构之最佳实践 前置条件 1.多人协作开发,git管理 2.游戏不大,所有Scene合并到一起Scene中,eg.RoleScene.MapScene.StoreScene 3.Master一 ...

  7. (淘宝无限适配)手机端rem布局详解(转载非原创)

    从网易与淘宝的font-size思考前端设计稿与工作流 本文结合自己对网易与淘宝移动端首页html元素上的font-size这个属性的思考与学习,讨论html5设计稿尺寸以及前端与设计之间协作流程的问 ...

  8. 通过配置的方式Autofac 《第三篇》

    一.基本配置 1.通过配置的方式使用Autofac <?xml version="1.0"?> <configuration> <configSect ...

  9. CentOS6.5 mysql 5.5安装

    CentOS 6 mysql5.5安装配置 1 安装所需软件 2 安装cmake 3 tar.gz形式安装mysql 4 配置与启动 MySQL自5.5版本以后,就开始使用cmake编译工具了.tar ...

  10. struts入门初步(一)

      struts2.0与struts1.0运用了不同的框架,有一定的不兼容性. struts2.0借鉴了webwork的框架思想. Struts2的基本步骤: 1.拷贝struts的jar到项目中(导 ...