自动化kolla-ansible部署openstack+GPU透传方法

自动化kolla-ansible部署openstack+GPU透传方法

欢迎加QQ群：1026880196 进行交流学习

1. CentOS7.x-8.x系列为虚拟机配置GPU直通

1. 编辑文件vim  /etc/modules， 添加以下内容：

pci_stub

vfio

vfio_iommu_type1

vfio_pci

kvm

kvm_intel

2. 在KVM主机上启用IOMMU 

#对于Intel芯片：

GRUB_CMDLINE_LINUX_DEFAULT="intel_iommu=on"

#对于AMD芯片：

GRUB_CMDLINE_LINUX_DEFAULT="iommu=pt iommu=1"

vim /etc/default/grub

GRUB_TIMEOUT=5

GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"

GRUB_DEFAULT=saved

GRUB_DISABLE_SUBMENU=true

GRUB_TERMINAL_OUTPUT="console"

GRUB_CMDLINE_LINUX="crashkernel=auto rhgb quiet intel_iommu=on"

GRUB_DISABLE_RECOVERY="true"

3. 重新生成grub
EFI
grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg

非EFI
grub2-mkconfig -o /boot/grub2/grub.cfg

4.  将下列内容加入到blacklist中以避免被宿主机占用，编辑文件

vim  /etc/modprobe.d/blacklist.conf

blacklist snd_hda_intel

blacklist amd76x_edac

blacklist vga16fb

blacklist nouveau

blacklist rivafb

blacklist nvidiafb

blacklist rivatv

blacklist nvidia

5.  查找显卡的Product ID 以及 Vendor ID：

yum install pciutils -y

lspci -nn | grep NVIDIA

如下：

[root@stein-a ~]#

03:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP104GL [Quadro P4000] [10de:1bb1] (rev a1)

03:00.1 Audio device [0403]: NVIDIA Corporation GP104 High Definition Audio Controller [10de:10f0] (rev a1)

6.  编辑

vim /etc/modprobe.d/vfio.conf

# create new: for [ids=***], specify [vendor-ID:device-ID]

options vfio-pci ids=10de:1bb1,10de:10f0

7.  写入到系统启动项

echo 'vfio-pci' > /etc/modules-load.d/vfio-pci.conf 

8.  重新生成initramfs

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

9.  重启系统

reboot

10. 验证

lspci -nnk -d 10de:1bb1

dmesg | grep -i vfio

[root@stein-a ~]# lspci -nnk -d 10de:1bb1

03:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP104GL [Quadro P4000] [10de:1bb1] (rev a1)

        Subsystem: NVIDIA Corporation Device [10de:11a3]

        Kernel driver in use: vfio-pci

        Kernel modules: nouveau

[root@stein-a ~]# dmesg | grep -i vfio

[    2.503115] VFIO - User Level meta-driver version: 0.3

[    2.515645] vfio_pci: add [10de:1bb1[ffff:ffff]] class 0x000000/00000000

[    2.515752] vfio_pci: add [10de:10f0[ffff:ffff]] class 0x000000/00000000

[root@stein-a ~]#

2. Ubuntu18.04系列为虚拟机配置GPU直通

1. 编辑文件vim  /etc/modules， 添加以下内容：

pci_stub

vfio

vfio_iommu_type1

vfio_pci

kvm

kvm_intel

2. 在KVM主机上启用IOMMU 

#对于Intel芯片：

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash intel_iommu=on"

#对于AMD芯片：

GRUB_CMDLINE_LINUX_DEFAULT="iommu=pt iommu=1"

vim /etc/default/grub

GRUB_DEFAULT=0

GRUB_TIMEOUT_STYLE=hidden

GRUB_TIMEOUT=0

GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash intel_iommu=on"

GRUB_CMDLINE_LINUX=""

3. 重新生成grub
EFI
grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg

非EFI
grub2-mkconfig -o /boot/grub2/grub.cfg

4.  将下列内容加入到blacklist中以避免被宿主机占用，编辑文件

vim  /etc/modprobe.d/blacklist.conf

blacklist snd_hda_intel

blacklist amd76x_edac

blacklist vga16fb

blacklist nouveau

blacklist rivafb

blacklist nvidiafb

blacklist rivatv

blacklist nvidia

5.  查找显卡的Product ID 以及 Vendor ID：

apt install pciutils -y

lspci -nn | grep NVIDIA

如下：

[root@stein-a ~]# lspci -nn | grep NVIDIA

03:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP104GL [Quadro P4000] [10de:1bb1] (rev a1)

03:00.1 Audio device [0403]: NVIDIA Corporation GP104 High Definition Audio Controller [10de:10f0] (rev a1)

6.  编辑

vim /etc/modprobe.d/vfio.conf

# create new: for [ids=***], specify [vendor-ID:device-ID]

options vfio-pci ids=10de:1bb1,10de:10f0

7.  写入到系统启动项

echo 'vfio-pci' > /etc/modules-load.d/vfio-pci.conf 

8.  重新生成initramfs

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

9.  重启系统

reboot

10. 验证

lspci -nnk -d 10de:1bb1

dmesg | grep -i vfio

root@kvm:~# lspci -nnk -d 10de:1bb1

dmesg | grep -i vfio

03:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP104GL [Quadro P4000] [10de:1bb1] (rev a1)

        Subsystem: NVIDIA Corporation GP104GL [Quadro P4000] [10de:11a3]

        Kernel driver in use: vfio-pci

        Kernel modules: nvidiafb, nouveau

root@kvm:~# dmesg | grep -i vfio

[    3.838714] VFIO - User Level meta-driver version: 0.3

[    3.846238] vfio-pci 0000:03:00.0: vgaarb: changed VGA decodes: olddecodes=io+mem,decodes=io+mem:owns=none

[    3.866370] vfio_pci: add [10de:1bb1[ffffffff:ffffffff]] class 0x000000/00000000

[    3.886375] vfio_pci: add [10de:10f0[ffffffff:ffffffff]] class 0x000000/00000000

3. CentOS7.x系列安装显卡驱动

1.  查看是否含有英伟达显卡

lspci | grep -i NVIDIA

#下面说明有1块英伟达的显卡

[root@train-all ~]#  lspci | grep -i NVIDIA

04:00.0 VGA compatible controller: NVIDIA Corporation GP104GL [Quadro P4000] (rev a1)

04:00.1 Audio device: NVIDIA Corporation GP104 High Definition Audio Controller (rev a1)

[root@train-all ~]# 

2.  添加ELRepo源

rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org 

3.  安装ELRepo

rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm

4.  安装nvidia-detect

yum install nvidia-detect -y

5.  运行nvidia-detect

nvidia-detect -v

6.  查找驱动程序

yum search kmod-nvidia

7.  安装驱动程序

yum install kmod-nvidia.x86_64 -y

8.  查看禁用Nouveau

lsmod | grep nouveau

#若没有输出 则说明禁用成功，否则执行下面的命令

9.  在/etc/modprobe.d/blacklist-nouveau.conf中创建一个文件，其内容如下：

vi /etc/modprobe.d/blacklist-nouveau.conf

添加

blacklist nouveau

options nouveau modeset=0

10. 重新生成内核initramfs

dracut --force

11.  重启系统

reboot

12.  测试

nvidia-smi

自动化kolla-ansible部署openstack+GPU透传方法的更多相关文章

openstack PCI透传(GPU)
描述 kolla-ansible部署openstack的GPU透传方法一.gpu物理服务器配置在gpu服务器上主启用IOMMU 确认内核⽀支持iommu $ cat /proc/cmdline | ...
使用Ansible部署openstack平台
使用Ansible部署openstack平台本周没啥博客水了,就放个云计算的作业上来吧(偷个懒) 案例描述 1.了解高可用OpenStack平台架构 2.了解Ansible部署工具的使用 3.使用A ...
kolla-ansible-----快速部署openstack
基本环境操作系统:CentOS Linux release 7.5.1804 (Core) 内核版本:3.10.0-862.el7.x86_64 docker版本:1.13.1 1.禁用宿主机的 L ...
比Ansible更吊的自动化运维工具，自动化统一安装部署_自动化部署udeploy 1.0
新增功能: 2015-03-11 除pass(备份与更新)与start(启动服务)外,实现一切自动化. 注:pass与start设为业务类,由于各类业务不同,所以无法实现自动化.同类业务除外,如更新的 ...
比Ansible更吊的自动化运维工具，自动化统一安装部署自动化部署udeploy 1.0 版本发布
新增功能: 逻辑与业务分离,完美实现逻辑与业务分离,业务实现统一shell脚本开发,由框架统一调用. 并发多线程部署,不管多少台服务器,多少个服务,同时发起线程进行更新.部署.启动. 提高list规则 ...
OpenStack（四）——使用Kolla部署OpenStack多节点云
(1).实验环境主机名 IP地址角色内存网卡 CPU 磁盘 OpenStack-con 192.168.128.110 controller(控制) 8G 桥接网卡ens32和ens33 4核 ...
kolla部署openstack多节点高可用并对接ceph后端存储（17）
部署节点执行: 安装基础包和docker yum install python-devel libffi-devel gcc openssl-devel git python-pip -y 升级一下 ...
001.Ansible部署RHCS存储集群
一前期准备 1.1 前置条件至少有三个不同的主机运行monitor (MON)节点: 至少三个直接存储(非外部SAN硬件)的OSD节点主: 至少两个不同的manager (MGR)节点: 如果使用 ...
使用ansible部署CDH 5.15.1大数据集群
使用ansible离线部署CDH 5.15.1大数据集群作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在此之前,我之前分享过使用shell自定义脚本部署大数据集群,不管是部署CD ...

随机推荐

JS相关基础
1. ES5和ES6继承方式区别 ES5定义类以函数形式, 以prototype来实现继承 ES6以class形式定义类, 以extend形式继承 2. Generator了解 ES6 提供的一种异步 ...
List转String数组 collection.toArray(new String[0])中new String[0]的语法解释
Collection的公有方法中,toArray()是比较重要的一个. 但是使用无参数的toArray()有一个缺点,就是转换后的数组类型是Object[]. 虽然Object数组也不是不能用,但当你 ...
oracle check datapump jobs
reference: https://asktom.oracle.com/pls/apex/asktom.search?tag=getting-ora-31626-job-does-not-exist ...
后端程序员之路 43、Redis list
Redis数据类型之LIST类型 - Web程序猿 - 博客频道 - CSDN.NEThttp://blog.csdn.net/thinkercode/article/details/46565051 ...
spring boot自定义类配置绑定在配置文件中自动提示
在spring boot的日常使用中,我们可能需要使用配置绑定的方式动态配置自定义类的成员变量. 这个时候,我们在配置文件中配置spring默认已有的配置时,只需要输入部分关键字即可自动提示,如下图: ...
MongoDB 在Node中的应用
转: MongoDB 在Node中的应用文章目录一 .什么是 MongoDB? 二.小Demo 三.Demo 增删改查 3.1 新增 3.2 查询 3.2.1 查询所有 [{},{}] 找不到返回 ...
数组的常用方法之split
今天我们来聊一下数组的常用方法:split 返回值:一个新数组. 1.该方法可以直接调用不传任何值,则会直接将字符串转化成数组. var str = 'I love Javascript'; cons ...
【图像处理】使用OpenCV+Python进行图像处理入门教程（三）色彩空间
这篇随笔介绍使用OpenCV进行图像处理的第三章色彩空间. 3 色彩空间之前的介绍,大多是基于BGR色彩空间进行的,但针对不同的实际情况,研究人员提出了许多色彩空间,它们都有各自擅长处理的领域. ...
calcite 概念和架构
1. 前言 Flink使用Calcite构造SQL引擎,那么他们是怎么合作的? drill, hive,storm 和其他的一干apache 大数据引擎也用calcite , 那么对于同一个sql ...
LZZY高级语言程序设计之输入秒数并用时钟的方式表达
import java.util.Scanner;public class MQ5 { public static void main(String[] args) { Scanner sc = ne ...

自动化kolla-ansible部署openstack+GPU透传方法

自动化kolla-ansible部署openstack+GPU透传方法的更多相关文章

随机推荐

热门专题