矩池云上使用nvidia-smi命令教程

简介

nvidia-smi全称是NVIDIA System Management Interface ，它是一个基于NVIDIA Management Library(NVML)构建的命令行实用工具，旨在帮助管理和监控NVIDIA GPU设备。

详解nvidia-smi命令

接下来我介绍一下，用nvidia-smi命令来查询机器GPU使用情况的相关内容。

nvidia-smi

我以上图的查询内容为例，已经复制出来了，如下，

(myconda) root@8dbdc324be74:~# nvidia-smi

Tue Jul 20 14:35:11 2021

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |

| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |

| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|  No running processes found                                                 |

+-----------------------------------------------------------------------------+

我们来拆分一下

NVIDIA-SMI 460.32.03          #

Driver Version: 460.32.03     # 英伟达驱动版本

CUDA Version: 11.2            # CUDA版本

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |

| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |

| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

GPU：                # GPU的编号，0代表第一张显卡，1代表第二张，依次类推

Fan：                # 风扇转速（0%–100%），N/A表示没有风扇

Name：               # GPU的型号，以此处为例是P100

Temp：               # GPU温度（GPU温度过高会导致GPU频率下降）

Perf：               # 性能状态，从P0（最大性能）到P12（最小性能）

Pwr：                # GPU功耗

Persistence-M：      #  持续模式的状态（持续模式耗能大，但在新的GPU应用启动时花费时间更少）

Bus-Id：             # GPU总线，domain:bus:device.function

Disp.A：             # Display Active，表示GPU的显示是否初始化

Memory-Usage：       # 显存使用率（显示显存占用情况）

Volatile GPU-Util：  # 浮动的GPU利用率

ECC：                # 是否开启错误检查和纠正技术，0/DISABLED, 1/ENABLED

Compute M.：         # 计算模式，0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

Memory-Usage和Volatile GPU-Util的两个不一样的东西，显卡由GPU和显存等部分所构成，GPU相当于显卡上的CPU，显存相当于显卡上的内存。在跑任务的过程中可以通过优化代码来提高这两者的使用率。

nvcc和nvidia-smi显示的CUDA版本不同？

(myconda) root@8dbdc324be74:~# nvidia-smi

Tue Jul 20 14:35:11 2021

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |

| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |

| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|  No running processes found                                                 |

+-----------------------------------------------------------------------------+

(myconda) root@8dbdc324be74:~# nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver

Copyright (c) 2005-2020 NVIDIA Corporation

Built on Mon_Oct_12_20:09:46_PDT_2020

Cuda compilation tools, release 11.1, V11.1.105

Build cuda_11.1.TC455_06.29190527_0

可以看到nvcc的CUDA版本是11.1，而nvidia-smi的CUDA版本是11.2。这对运行任务是没有影响的，绝大多数代码都是可以正常跑起来的，引起这个的主要是因为CUDA两个主要的API，runtime API和driver API。神奇的是这两个API都有自己对应的CUDA版本（如图上的11.1和11.2）。在StackOverflow有一个解释，如果driver API和runtime API的CUDA版本不一致可能是因为你使用的是单独的GPU driver installer，而不是CUDA Toolkit installer里的GPU driver installer。在矩池云上的表现可以解释为driver API来自于物理机器的驱动版本，runtime API是来自于矩池云镜像环境内的CUDA Toolkit版本。

实时显示显存使用情况

nvidia-smi -l 5  #5秒刷新一次

动态刷新信息（默认5s刷新一次），按Ctrl+C停止，可指定刷新频率，以秒为单位

#每隔一秒刷新一次，刷新频率改中间数字即可

watch -n 1 -d nvidia-smi

在这里不建议使用watch查看nvidia-smi，watch每个时间周期开启一个进程(PID)，查看后关闭进程，可能会影响到其他进程。

矩池云上使用nvidia-smi命令教程的更多相关文章

矩池云上安装yolov5并测试教程
官方仓库:https://github.com/ultralytics/yolov5 官方文档:https://docs.ultralytics.com/quick-start/ 此案例我是租用了k8 ...
矩池云上安装及使用Milvus教程
选择cuda10.1的镜像更新源及拷贝文件到本地 apt-get update cp -r /public/database/milvus/ / cd /milvus/ cp ./lib/* /us ...
在矩池云上复现 CVPR 2018 LearningToCompare_FSL 环境
这是 CVPR 2018 的一篇少样本学习论文:Learning to Compare: Relation Network for Few-Shot Learning 源码地址:https://git ...
矩池云上安装ikatago及远程链接教程
https://github.com/kinfkong/ikatago-resources/tree/master/dockerfiles 从作者的库中可以看到,该程序支持cuda9.2.cuda10 ...
矩池云上编译安装dlib库
方法一(简单) 矩池云上的k80因为内存问题,请用其他版本的GPU去进行编译,保存环境后再在k80上用. 准备工作下载dlib的源文件进入python的官网,点击PyPi选项,搜索dilb,再点击 ...
如何在矩池云上运行FinRL-Libray股票交易策略框架
FinRL-Libray 项目:https://github.com/AI4Finance-LLC/FinRL-Library 选择FinRL镜像在矩池云-主机市场选择合适的机器,并选择FinRL- ...
矩池云上TensorBoard/TensorBoardX配置说明
Tensorflow用户使用TensorBoard 矩池云现在为带有Tensorflow的镜像默认开启了6006端口,那么只需要在租用后使用命令启动即可 tensorboard --logdir lo ...
矩池云上cifar10使用说明
矩池云将 keras 预训练模型保存目录为 /public/keras_pretrained_model/ 使用方法: 先执行命令,创建目录 mkdir -p ~/.keras/models/ 然后将 ...
矩池云上安装yolov4 darknet教程
这里我是用PyTorch 1.8.1来安装的拉取仓库官方仓库 git clone https://github.com/AlexeyAB/darknet 镜像仓库 git clone https: ...

随机推荐

如何在pyqt中自定义SwitchButton
前言网上有很多 SwitchButton 的实现方式,大部分是通过重写 paintEvent() 来实现的,感觉灵活性不是很好.所以希望实现一个可以联合使用 qss 来更换样式的 SwitchBut ...
CF1270G Subset with Zero Sum
首先一定要从每个数的范围 \(i - n \le a_i \le i - 1\) 入手,最开始是这样一个想法,不难发现对于每个 \(i\) 都能选 \(n\) 个数,并且能选的右端点在 \(i - 1 ...
入门 - 复习Kubernetes核心概念（八）
本文将会简单介绍Kubernetes的核心概念.因为这些定义可以在Kubernetes的文档中找到,所以文章也会避免用大段的枯燥的文字介绍.相反,我们会使用一些图表(其中一些是动画)和示例来解释这些概 ...
div置顶
转载请注明来源:https://www.cnblogs.com/hookjc/ <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transit ...
js null和{}区别
{}是一个不完全空的对象,因为他的原型链上还有Object呢,而null就是完全空的对象,啥也没有,原型链也没有,所以null instanceof Object === false;[]就更不用说了 ...
3.Flink实时项目之流程分析及环境搭建
1. 流程分析前面已经将日志数据(ods_base_log)及业务数据(ods_base_db_m)发送到kafka,作为ods层,接下来要做的就是通过flink消费kafka 的ods数据,进行简 ...
【ASP.NET Core】设置 Web API 响应数据的格式——FormatFilter特性篇
在上一篇烂文中老周已向各位介绍过 Produces 特性的使用,本文老周将介绍另一个特性类:FormatFilterAttribute. 这个特性算得上是筛选器的马甲,除了从 Attribute 类派 ...
linux_15
实现基于MYSQL验证的vsftpd虚拟用户访问配置samba共享,实现/www目录共享使用rsync+inotify实现/www目录实时同步 LVS调度算法总结 LVS的跨网络DR实现
Java 给Word每一页设置不同文字水印效果
Word中设置水印时,可预设的文字或自定义文字设置为水印效果,但通常添加水印效果时,会对所有页面都设置成统一效果,如果需要对每一页或者某个页面设置不同的水印效果,则可以参考本文中的方法.下面,将以Ja ...
作业2.7_3（给UVA548 树 Tree单独一个帖子）🍺
代码:(输入函数很香建议保留)我不理解他是绿的但 The Blocks Problem 是黄的 #include<bits/stdc++.h> using namespace std; i ...

矩池云上使用nvidia-smi命令教程

矩池云上使用nvidia-smi命令教程的更多相关文章

随机推荐

热门专题