OpenPAI大规模人工智能平台安装部署文档
环境要求:
- 如果需要图形界面,需要在Ubuntu系统安装,否则centos系统安装时是没有问题的(web端和命令行进行任务提交)
- 安装过程需要有另外一台控制端机器(注意:区别于集群所在的任何一台服务器!!!),控制端和集群服务器确保ssh服务开通
- 集群中个节点的账户和密码确保一致
- 集群中每台服务器确保有sudo权限
- 安装服务器所在机器要能翻墙,国内网络下载不了k8s镜像,如果翻不出去,请按照下表自行下载对应tag的镜像
gcr.io/google_containers/hyperkube |
v1.9.9 |
gcr.io/google_containers/kube-controller-manager |
v1.9.9 |
gcr.io/google_containers/kube-apiserver |
v1.9.9 |
gcr.io/google_containers/kube-scheduler |
v1.9.9 |
gcr.io/google_containers/etcd |
3.2.17 |
gcr.io/google_containers/kubernetes-dashboard-amd64 |
v1.8.3 |
gcr.io/google_containers/pause-amd64 |
3.0 |
第1步:准备工作(在集群节点以外的任意机器上操作)
1)拉取dev-box镜像(默认已经安装docker):
sudo docker pull docker.io/openpai/dev-box
启动dev-box容器
- sudo docker run -itd \
- -e COLUMNS=$COLUMNS -e LINES=$LINES -e TERM=$TERM \
- -v /var/lib/docker:/var/lib/docker \
- -v /var/run/docker.sock:/var/run/docker.sock \
- -v /pathHadoop:/pathHadoop \
- -v /pathConfiguration:/cluster-configuration \
- --pid=host \
- --privileged=true \
- --net=host \
- --name=dev-box \
- docker.io/openpai/dev-box
2)进入dev-box容器
- sudo docker exec -it dev-box /bin/bash
3)转到命令操作路径
cd /pai/pai-management
4)制作启动文件
拷贝模板文件:
cd quick-start/quick-start-example.yaml ../quick-start.yaml
修改模板文件:
Machines:第一个IP是为master,后面的默认为worker;如果master和worker在同一台机器上,写1个ip 就ok
第2步:生成配置文件
- python paictl.py cluster generate-configuration \
- -i quick-start.yaml \
- -o /path/to/cluster-configuration/dir
出现该图表示配置文件生成,在/path/to/cluster-configuration/dir路径可以查看,四个yaml文件
第3步:配置并安装k8s
- python paictl.py cluster k8s-bootup \
- -p /path/to/cluster-configuration/dir
该地方会有较长时间的停顿,检测python和docker环境安装
k8s镜像下载及容器启动,视网速情况而定,过程时间较长,耐心等待,曙光就在眼前
安装完成
此时,访问该web端:http://<master>:9090
第4步:安装pai相关服务
- python paictl.py service start \
- -p /path/to/cluster-configuration/dir
恭喜你,安装完成
耐心等待,正在拉取镜像,如果着急的话可以手动拉取
待上述组件安装完成后访问web端:http://<master>:9286
安装过程注意事项:
1)为了充分利用GPU所在的服务器,在以集群模式安装部署时,将master节点部署在普通(没有GPU)节点,worker节点全部部署在GPU所在服务器,达到硬件资源的充分利用。
具体方式为第一步配置文件中的第一个IP为master节点,后面的所有IP都为worker
2)在安装过程如果遇到问题,卸载掉重新再来
卸载open pai 组件:
- python paictl.py service delete -p /path/to/cluster-configuration/dir
卸载k8s组件:
- python paictl.py cluster k8s-clean -p /path/to/cluster-configuration/dir
3)安装完了以后出现类似的情况,不能彻底卸载pai需要删除etcd文件库,需要:rm –rf /var/etcd/data,然后重新安装
服务安装后出现类似的错误:Failed create pod sandbox
OpenPAI大规模人工智能平台安装部署文档的更多相关文章
- keepalived双机热备,安装部署文档
keepalived双击热备,安装部署文档: 下载目录:/apps/keepalived-1.2.7.tar.gz 1:---> yum install -y make wget 2:---&g ...
- LVS+Heartbeat安装部署文档
LVS+Heartbeat安装部署文档 发表回复 所需软件: ipvsadm-1.24-10.x86_64.rpmheartbeat-2.1.3-3.el5.centos.x86_64.rpmhear ...
- Sqlserver2008安装部署文档
Sqlserver2008部署文档 注意事项: 如果你要安装的是64位的服务器,并且是新机器.那么请注意,你需要首先需要给64系统安装一个.net framework,如果已经安装此功能,请略过这一步 ...
- EasyNVR无插件直播流媒体服务器云端集中管控的EasyNVS云管理平台安装使用文档
EasyNVS - EasyNVR云端集中管理服务 EasyNVS云管理平台是一套专门用于集中化管理EasyNVR 的解决方案. EasyNVR 采用主动注册的方式接入到 EasyNVS, 再由 Ea ...
- supervisor安装部署文档和管理实例
Supervisord是用Python实现的一款非常实用的进程管理工具,类似于monit(关于monit见我的博客:用monit监控系统关键进程),monit和supervisord的一个比较大的差异 ...
- zabbix3.0安装部署文档
zabbix v3.0安装部署 摘要: 本文的安装过程摘自http://www.ttlsa.com/以及http://b.lifec-inc.com ,和站长凉白开的<ZABBIX从入门到精通v ...
- MetaQ安装部署文档
一.MetaQ安装部署情况: 地点 IP Broker ID Master/Slave Slave ID:Group 合肥 192.168.52.23 Slave 1:meta-slave-group ...
- Oracle Grid Infrastructure安装部署文档
1. 部署环境步骤 1.1 软件环境 操作系统: CentOS release 6.5 oracle安装包: linux.x64_11gR2_grid.zip linux.x64_11gR2_data ...
- Oracle RAC安装部署文档
1. 部署环境步骤 1.1 软件环境 操作系统:CentOS release 6.5(推荐使用5.*的系统)192.168.1.151 racnode1 192.168.1.152 ...
随机推荐
- 【Graphql实践】使用 Apollo(iOS) 访问 Github 的 Graphql API
最近在协助调研 Apollo 生成的代码是否有可能跨 Query 共享模型的问题,虽然初步结论是不能,并不是预期的结果,但是在调研过程中积累的一些经验,有必要记录下.如果你也对 Graphql 感兴趣 ...
- Centos6_32位系统512M内存_如何安装gogs_Mysql_配置开机自启动
因为有很多人的Linux版本比较低,内存配置也较低,X86 ,32位系统的:所以这里推荐采用二进制安装gogs,并且使用Mysql:这个是傻瓜式的安装方案,适合绝大多数人(提及了centos7的安装思 ...
- ORA-12541:TNS:无监听程序问题
这种情况可能有多种原因,解决办法如下: 方法1.原因:监听日志listener.log过大,超过4. 步骤: a.暂停监听服务 b.删除listener.log,文件位置:E:\app\Adminis ...
- 网站用户行为分析——Linux的安装
Linux的选择 在Linux系统各个发行版中,CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以建议使用CentOS系统或Ubuntu. 一般来说,如果要做服务 ...
- Linux内核调用I2C驱动_驱动嵌套驱动方法
禁止转载!!!! Linux内核调用I2C驱动_以MPU6050为例 0. 导语 最近一段时间都在恶补数据结构和C++,加上导师的事情比较多,Linux内核驱动的学习进程总是被阻碍.不过,十一假期终于 ...
- Java学习笔记十五:Java中的成员变量和局部变量
Java中的成员变量和局部变量 一:成员变量: 成员变量在类中定义,用来描述对象将要有什么 成员变量可以被本类的方法使用,也可以被其他类的方法使用,成员变量的作用域在整个类内部都是可见的 二:局部变量 ...
- Leecode刷题之旅-C语言/python-204计数质数
/* * @lc app=leetcode.cn id=204 lang=c * * [204] 计数质数 * * https://leetcode-cn.com/problems/count-pri ...
- A1050
输入两个字符串,将第一个字符串中包含的第二个字符串的字符去掉(包括空格),然后输出. gets()不能用了,我混搭了string和length(),不用纠结长度还是很好的. 第二个字符串所在HashT ...
- 分享Centos6.5升级glibc过程
默认的Centos6.5 glibc版本最高为2.12, 而在进行Nodejs开发时项目所依赖的包往往需要更高版本的glibc库支持, 因此在不升级系统的前提下, 需要主动更新系统glibc库. 一般 ...
- R语言爬虫:CSS方法与XPath方法对比(表格介绍)
css 选择器与 xpath 用法对比 目标 匹配节点 CSS 3 XPath 所有节点 ~ * //* 查找一级.二级.三级标题节点 <h1>,<h2>,<h3> ...