服务器端的GPU使用

查看GPU信息

  • 查看nvidia GPU信息:

    # 输入指令
    lspci | grep -i nvidia
    # 结果如下:
    # 04:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 05:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 08:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 09:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 84:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 85:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 88:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # 89:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)

    输出结果04:00.0,可用于后续查看详细的信息

  • 查看指定显卡的详细信息:

    # 输入指令:
    lspci -v -s 04:00.0
    # 输出结果:
    # 04:00.0 3D controller: NVIDIA Corporation Device 1db4 (rev a1)
    # Subsystem: NVIDIA Corporation Device 1214
    # Flags: bus master, fast devsel, latency 0, IRQ 26, NUMA node 0
    # Memory at c4000000 (32-bit, non-prefetchable) [size=16M]
    # Memory at 27800000000 (64-bit, prefetchable) [size=16G]
    # Memory at 27c00000000 (64-bit, prefetchable) [size=32M]
    # Capabilities: <access denied>
    # Kernel driver in use: nvidia
    # Kernel modules: nvidiafb, nouveau, nvidia_384_drm, nvidia_384

查看GPU的使用信息

  • nvidia-smi

    其主要看Memory-Usage栏,避免使用了其他人已经占用了显卡

  • 一般使用如下指令,周期性查看显卡的使用情况:

    watch -n 10 nvidia-smi

    每10s刷新一下显示

参考:Linux查看GPU信息和使用情况

指定GPU进行训练

在查看了GPU的信息后,在训练是指定空闲的GPU进行训练。

  • 在终端执行时指定GPU

    CUDA_VISIBLE_DEVICES=0 python3 ***.py  # 指定GPU集群中第一块GPU使用,其他的屏蔽掉
    
    # CUDA_VISIBLE_DEVICES=1           Only device 1 will be seen
    # CUDA_VISIBLE_DEVICES=0,1 Devices 0 and 1 will be visible
    # CUDA_VISIBLE_DEVICES="" No GPU will be visible
  • 在配置文件头上指定GPU,此方法和上述方法类似,以下举个例子:

    • 创建.sh文件;
    • 通过chmod +x ***.sh给文件加入可执行的属性;
    • 在文件中写入:
    #! /bin/bash
    CUDA_VISIBLE_DEVICES=1 \
    python model_main.py \
    --model_dir=training/model \
    --pipeline_config_path=training/pipeline.config \
    --num_train_steps=25000
    • 之后在执行时,通过bash ***.sh 运行即可。
  • 在Python代码中指定

    import os
    os.environ["CUDA_VISIBLE_DEVICES"] = "0"  #指定第一块gpu
  • 在tensorflow中指定GPU的使用

# allow_soft_placement=True : 如果你指定的设备不存在,允许TF自动分配设备
# log_device_placement=True : 是否打印设备分配日志
config = tf.ConfigProto(allow_soft_placement=True, log_device_placement=True)
# 限制GPU资源的使用:两者选其一即可
# 方式一:限制GPU使用率
config.gpu_options.per_process_gpu_memory_fraction = 0.4 #占用40%显存
# 方式二:动态申请显存
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)

参考:

Linux查看GPU信息和使用情况

指定GPU进行训练

tensorflow中配置GPU使用

服务器端的GPU使用的更多相关文章

  1. openGL 提升渲染性能 之 顶点数组 VBO IBO VAO

    使用openGL图形库绘制,都需要通过openGL接口向图像显卡提交顶点数据,显卡根据提交的数据绘制出相应的图形. openGL绘制方式有:直接模式,显示列表,顶点数组,顶点索引. 直接模式:最简单, ...

  2. TensorFlow从1到2(十五)(完结)在浏览器做机器学习

    TensorFlow的Javascript版 TensorFlow一直努力扩展自己的基础平台环境,除了熟悉的Python,当前的TensorFlow还实现了支持Javascript/C++/Java/ ...

  3. OpenStack 企业私有云的若干需求(1):Nova 虚机支持 GPU

    本系列会介绍OpenStack 企业私有云的几个需求: 自动扩展(Auto-scaling)支持 多租户和租户隔离 (multi-tenancy and tenancy isolation) 混合云( ...

  4. 国内云计算的缺失环节: GPU并行计算(转)

    [IT时代周刊编者按]云计算特有的优点和巨大的商业前景,让其成为了近年来的IT界最热门词汇之一.当然,这也与中国移动互联网的繁荣紧密相关,它们需要有相应的云计算服务作为支撑.但本文作者祁海江结合自身的 ...

  5. Pycharm实现服务器端代码的远程调试

     Pycharm是很多人在学习机器学习时的常用IDE.但是,当代码需要庞大计算资源的时候,我们往往需要借助远程服务器的GPU资源.很多人都是将代码拷贝到服务器,然后运行,但是当修改调试的时候,很不方便 ...

  6. 谈谈GPU与FPGA的一些看法

    从几个方面来介绍一下GPU和FPGA. 从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops).GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的G ...

  7. OpenStack企业私有云新需求(1):Nova 虚机支持 GPU

    作者:Sammy Liu 刘世民 本系列会介绍OpenStack 企业私有云的几个需求: GPU 支持 自动扩展(Auto-scaling)支持 混合云(Hybrid cloud)支持 物理机(Bar ...

  8. win7旗舰版+caffe+vs2013+matlab2014b(无GPU版)

    参考网站: http://www.cnblogs.com/njust-ycc/p/5776286.html 无法找到gpu/mxGPUArray.h: No such file or director ...

  9. ubuntu12.04通过Ganglia利用NVML模块进行GPU监控

    1.安装Ganglia,这里安装的是3.1*版本,因为监控GPU的模块只支持3.1*版本系列的 apt-get install ganglia* 2.下载并安装PyNVML和NVML模块,下载地址ht ...

随机推荐

  1. Windows下安装Apollo时的几个常见问题

    今天在本地安装Apollo时遇到几个问题,觉得还是记录下来,希望能给有需要的朋友提供帮助. 安装的过程参考这篇教程,https://www.jianshu.com/p/6cf4b15ba82f.流程基 ...

  2. 什么是内存屏障? Why Memory Barriers ?

           要了解如何使用memory barrier,最好的方法是明白它为什么存在.CPU硬件设计为了提高指令的执行速度,增设了两个缓冲区(store buffer, invalidate que ...

  3. AntDesign VUE:上传组件自定义限制的两种方式(Boolean、Promise)

    AntD上传组件 AntDesign VUE文档 第一种方式 beforeUpload(file) { let isLt = true if (filesSize) { isLt = file.siz ...

  4. Selenium系列4-元素定位

    前言 说起元素定位,一定是学习自动化测试绕不开的第一道关,无论是web端的UI自动化还是移动端的自动化,在需要首先对元素进行定位才可以完成对元素的操作已达成测试目的,在Selenium中,可以使用fi ...

  5. WPF 通过进程实现异常隔离的客户端

    当 WPF 客户端需要实现插件系统的时候,一般可以基于容器或者进程来实现.如果需要对外部插件实现异常隔离,那么只能使用子进程来加载插件,这样插件如果抛出异常,也不会影响到主进程.WPF 元素无法跨进程 ...

  6. Nginx:进程调度

    Blog:博客园 个人 Nginx采用的是固定数量的多进程模型,由一个主进程(MasterProcess)和数量与主机CPU核数相同的工作进程协同处理各种事件. 主管理进程负责工作进程的配置加载.启停 ...

  7. 使用SQL SERVER存储过程实现历史数据迁移

    今天讲下软件开发中最常见的历史数据迁移方式.在讲迁移之前,先简单介绍下几个基本概念. 1.什么是历史数据迁移? 简单直白地说:就是将一些创建时间比较久而且不常用的历史数据,存储到另一个地方(可以是另一 ...

  8. CentOS8部署nextcloud网盘

    Nextcloud是一款开源的存储软件,功能丰富,支持多人协同工作,目前完全免费. 官网:https://www.nextcloud.com 架构:LAMP或LNMP 本文以LAMP为基础 注意:ph ...

  9. 远程线程注入突破SESSION 0

    远程线程注入突破SESSION 0 SESSION 0 隔离 在Windows XP.Windows Server 2003,以及更老版本的Windows操作系统中,服务和应用程序使用相同的会话(Se ...

  10. ECMAScript 2021(ES12)新特性简介

    简介 ES12是ECMA协会在2021年6月发行的一个版本,因为是ECMAScript的第十二个版本,所以也称为ES12. ES12发行到现在已经有一个月了,那么ES12有些什么新特性和不一样的地方呢 ...