centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)
0、检查硬件的超线程
由于模型运行时,每个进程几乎都会占用100%的CPU计算能力,开启超线程之后,每个进程最多使用每个核心50%的计算能力,导致程序运行变慢。
1,物理CPU个数:
cat /proc/cpuinfo | grep "physical id" | sort | uniq
2,每个物理CPU的逻辑核数:
cat /proc/cpuinfo | grep "cores" | uniq
3,系统整个cpu线程数:
cat /proc/cpuinfo | grep "processor" | wc -l
1、查看操作系统版本
cat /etc/redhat-release
2、关闭SELinux
修改/etc/sysconfig/selinux确保SELINUX=disabled,
临时关闭:setenforce 0
reboot服务器以生效
3、关闭防火墙
查看防火墙状态:
systemctl status firewalld
临时关闭防火墙:
systemctl stop firewalld
永久关闭防火墙:
systemctl disable firewalld
4、时间同步
在crontab中添加如下
01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service"
同步的时候,要把ntp服务停掉,同步之后再开启。
手动执行命令
systemctl stop ntpd.service
ntpdate -u time.windows.com
hwclock -w
systemctl start ntpd.service
5、修改节点名称
hostnamectl set-hostname node5
或者修改/etc/hostname,然后重启网卡:
systemctl restart network.service
6、配置集群主机列表
修改/etc/hosts,加入ip和主机名
192.168.126.39 manager
192.168.126.40 node1
192.168.126.41 node2
192.168.126.42 node3
192.168.126.43 node4
7、root用户无密码访问
注意点:所有节点的root密码必须一样
ssh-keygen -t rsa //.ssh下生成秘钥id_rsa,id_rsa.pub文件
ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1 //将公钥拷贝到node1的authorized_keys中,可以实现管理节点登陆到node1
这个过程中要输入对方机器的密码
cat authorized_keys // 将公钥加到authorized_keys文件里,
scp -rp .ssh root@node4:/root/ //将管理节点的目录,拷贝到计算节点
可以等所有计算节点的公钥都拷贝到管理节点的authorized_keyz中,然后再把管理节点的.ssh目录拷贝到计算节点下,实现所有集群无密码访问。
8、nfs文件共享
NFSv4会有一些不稳定的因素,导致客户端无法读写数据,一定使用v3
下面配置文件代码可以关闭nfs的v4的版本
[root@omgt1 ~]# vim /etc/sysconfig/nfs
# Turn off v4 protocol support
RPCNFSDARGS="-N 4"
查看nfs版本,客户端命令:nfsstat -m
/public from 12.12.12.101:/public
Flags: rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101
服务端:
(1)、服务端安装
yum install nfs-utils
只安装 nfs-utils 即可,rpcbind 属于它的依赖,也会自动安装上。
(2)、配置共享目录
编辑/etc/exports文件,添加1行:
/public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)
将管理节点上的/public目录,共享给192.168.126.*计算节点
权限:
rw
: 权限设置,可读可写。sync
: 同步共享目录。no_root_squash
: 可以使用 root 授权。no_all_squash
: 可以使用普通用户授权
(3)、服务开机自启动
systemctl enable rpcbind.service systemctl enable nfs-server.service
(4)、启动nfs服务、
systemctl start rpcbind.service systemctl start nfs-server.service
(5)、检查本地共享目录
showmount -e localhost
客户端:
(1)、安装服务
yum install nfs-utils
(2)、设置rpcbind的开机自启动
systemctl enable rpcbind.service
(3)、启动rpcbind服务
systemctl start rpcbind.service
注意:客户端不需要启动nfs服务
(4)、客户端创建目录,然后挂载
mkdir /public
mount -t nfs 192.168.126.39:/public /public
用df -Th 检查是否已经挂载成功
(5)自动挂载命令写到fstab中
编辑/etc/fstab,加上
192.168.126.39:/public /public nfs defaults 0 0
9、普通用户model的无密码访问
依次在管理节点和计算节点上创建用户model,密码保持一致
groupadd -g 200 model,
useradd -d /public/home/model -u 200 -g 200 model
passwd model
这里必须指明同一个组和用户的uid,否则不同的计算节点可能会创建不同的uid,到时候就会识别成不同的用户了
检查方法:cat /etc/passwd,cat /etc/group
id_rsa:私钥 id_rsa.pub:公钥
ssh-keygen -t rsa //.ssh下生成秘钥id_rsa,id_rsa.pub文件
cat .ssh/id_rsa.pub >> .ssh/authorized_keys //将公钥拷贝到authorized_keys中
chmod 700 .ssh
chmod 600 .ssh/authorized_keys
chmod 600 .ssh/id_rsa
chmod 644 .ssh/id_rsa.pub
因为model账户在公共存储上,各个节点model用户用的同一个家目录,不需要同步.ssh 目录
注意:/public/home/model 用户目录权限为 755 或者 700,就是不能是77x
如果配置之后,还是不能无密码访问,需要进入/var/log/secure查看日志记录信息
10、安装基础软件
yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget
其他问题处理
1、系统无法访问域名
进入 /etc/sysconfig/network-scripts/,
修改网卡配置ifcfg-eth0,增加:
DNS1=8.8.8.8
DNS2=114.114.114,
然后重启网卡:systemctl restart network
2、yum配置
进入yum目录:/etc/yum.repos.d,
将管理节点2个repo拷贝过去
centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)的更多相关文章
- Centos7部署Kubernetes集群(单工作节点)+配置dashboard可视化UI
目标:docker+kubernetes+cadvosor+dashboard 一:物理硬件 两台虚拟机(centos7):一台做为主节点(master),一台做为工作节点(node) [root@M ...
- hadoop之完全分布式集群配置(centos7)
一.基础环境 现在我们有两台虚拟机了,再克隆两台: 克隆好之后需要做三件事:1.更改主机名称 2.修改ip地址 3.将ip地址和对应的主机号加入到/etc/hosts文件中 1.永久修改主机名 hos ...
- Springboot 1.5.x 集成基于Centos7的RabbitMQ集群安装及配置
RabbitMQ简介 RabbitMQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称面向消息的中间件). RabbitMQ是一套开源(MPL)的消息队列服务软件,是由LShift提供的一 ...
- Springboot 2.0.x 集成基于Centos7的Redis集群安装及配置
Redis简介 Redis是一个基于C语言开发的开源(BSD许可),开源高性能的高级内存数据结构存储,用作数据库.缓存和消息代理.它支持数据结构,如 字符串.散列.列表.集合,带有范围查询的排序集,位 ...
- CentOS7.1.x+Druid 0.12 集群配置
原文转载自:https://blog.csdn.net/bigtree_3721/article/details/79583008 先决条件:安装版本列表 本次安装满足下面的条件: CentOS v7 ...
- Centos7搭建zookeeper集群
centos7与之前的版本都不一样,修改主机名在/ect/hostname 和/ect/hosts 这两个文件控制 首先修改/ect/hostname vi /ect/hostname 打开之后的内容 ...
- Ubuntu_10.04下Hadoop-0.20.2集群配置手册
Ubuntu_10.04下Hadoop-0.20.2集群配置手册 一.软硬件环境的准备 下面的文章来自hadoopor.com,我先交待一下我自己的环境: 两台机器,每台机器上面两个虚机(vmware ...
- Hadoop集群配置(最全面总结)
Hadoop集群配置(最全面总结) 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker.这些机器是masters.余下的机器即作为DataNode也作为Ta ...
- Apache+Tomcat服务器集群配置
在实际应用中,如果网站的访问量很大,为了提高访问速度,可以与多个Tomcat服务器与Apache服务器集成,让他们共同运行servlet/jsp 组件的任务,多个Tomcat服务器构成了一个集群(Cl ...
- 大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试 一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
随机推荐
- selenium 关闭浏览--- close 与 quit 的区别
selenium 关闭浏览器,有两种方式 close quit 既然都是关闭浏览器,为什么要写两种方式? 区别 close: close只是关闭浏览器,但是不会退出 webdriver quit: q ...
- openGauss数据库xlog目录满问题处理
openGauss 数据库 xlog 目录满问题处理 openGauss 数据库 xlog 满通常为以下几个原因: 1.主备状态不正常,存在网络问题,集群内有宕机的节点 2.xlog 保留数量过多 3 ...
- Counter 1000
From a 1000 Hz clock, derive a 1 Hz signal, called OneHertz, that could be used to drive an Enable s ...
- XRebel工具激活方式,亲测有效
首先进入生成 GUID 的网址:https://www.guidgen.com/ 用这个网址 + 生成的 GUID 激活:https://jrebel.qekang.com/ 例如:https://j ...
- 如何采用VuePress构建文档网站
作者:倾城 博客: https://www.codingbrick.com 寄语:当你意识到面子不重要时,你才算个真正的成年人. 在建设博客的初期,我采用GitBook构建了编码专家的专栏系统.Git ...
- go语言结构体使用小结
转载请注明出处: 在Go语言中,结构体(struct)是一种复合数据类型,它允许你将多个不同类型的字段组合成一个单一的类型.结构体为数据的封装和抽象提供了便利,使得数据组织更加清晰和易于管理. 结构体 ...
- Java构建工具:Maven与Gradle的对比
在Java码农的世界里,构建工具一直是一个不可或缺的元素.一开始,世上是只有一个构建工具的那就是Make后来发展为GNU Make.但是由于需求的不断涌现,这个小圈子里又逐渐衍生出其他千奇百怪的构建工 ...
- redis 简单整理——redis 的哈希基本结构和命令[三]
前言 简单介绍一下哈希基本结构和命令. 正文 什么是hash呢? hash也可以叫做字典.关联数组. 哈希类型是键本身又是一个键值对结构: value={{field1,value1},...{fie ...
- Linux下的常见基本指令
pwd //显示当前用户所在的路径 ls //显示当前路径下的文件名或者目录名称 ls-l //显示当前路径下的文件或者目录的更详细的属性信息 cd 一个目录路径 //进入一个目录,进去后,可以用pw ...
- .NET开源免费的跨平台框架 - MAUI(附学习资料)
前言 前几天分享了一个.NET MAUI开源免费的UI工具包 - Uranium,然后技术群有不少同学问.NET MAUI是不是免费的?能做什么?今天特意写这篇文章来介绍一下.NET开源.免费(基于M ...