技术背景

笔者在执行一个Jax的任务中,又发现了一个奇怪的问题,就是明明只分配了很小的矩阵空间,但是在多次的任务执行之后,显存突然就爆了。而且此时已经按照Jax的官方说明配置了XLA_PYTHON_CLIENT_PREALLOCATE这个参数为false,也就是不进行显存的预分配(默认会分配90%的显存空间以供使用)。然后在网上找到了一些类似的问题,比如参考链接中的1、2、3、4,都是在一些操作后发现未释放显存,这里提供一个实例问题和处理的思路,如果有更好的方案欢迎大家在评论区留言。

问题复现

在未执行任何GPU的任务时,我们可以看到此时nvidia-smi的输出如下:

  1. Tue Dec 14 16:14:32 2021
  2. +-----------------------------------------------------------------------------+
  3. | NVIDIA-SMI 470.42.01 Driver Version: 470.42.01 CUDA Version: 11.4 |
  4. |-------------------------------+----------------------+----------------------+
  5. | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
  6. | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
  7. | | | MIG M. |
  8. |===============================+======================+======================|
  9. | 0 Quadro RTX 4000 On | 00000000:03:00.0 On | N/A |
  10. | 30% 43C P8 20W / 125W | 1260MiB / 7979MiB | 10% Default |
  11. | | | N/A |
  12. +-------------------------------+----------------------+----------------------+
  13. | 1 Quadro RTX 4000 On | 00000000:A6:00.0 Off | N/A |
  14. | 30% 34C P8 7W / 125W | 10MiB / 7982MiB | 0% Default |
  15. | | | N/A |
  16. +-------------------------------+----------------------+----------------------+
  17. +-----------------------------------------------------------------------------+
  18. | Processes: |
  19. | GPU GI CI PID Type Process name GPU Memory |
  20. | ID ID Usage |
  21. |=============================================================================|
  22. | 0 N/A N/A 1673 G /usr/lib/xorg/Xorg 110MiB |
  23. | 0 N/A N/A 3015 G /usr/lib/xorg/Xorg 661MiB |
  24. | 0 N/A N/A 3251 G /usr/bin/gnome-shell 132MiB |
  25. | 0 N/A N/A 1142734 G ...AAAAAAAAA= --shared-files 64MiB |
  26. | 0 N/A N/A 1337710 G ...AAAAAAAAA= --shared-files 80MiB |
  27. | 0 N/A N/A 1371509 G ...369783.log --shared-files 63MiB |
  28. | 0 N/A N/A 1506625 G ...AAAAAAAAA= --shared-files 89MiB |
  29. | 1 N/A N/A 1673 G /usr/lib/xorg/Xorg 4MiB |
  30. | 1 N/A N/A 3015 G /usr/lib/xorg/Xorg 4MiB |
  31. +-----------------------------------------------------------------------------+

此时启动一个ipython的终端窗口,执行如下的Jax任务:

  1. In [1]: import numpy as np
  2. In [2]: import os
  3. ...: os.environ['CUDA_VISIBLE_DEVICES']='1'
  4. ...: os.environ["XLA_PYTHON_CLIENT_PREALLOCATE"] = "false"
  5. In [3]: from jax import numpy as jnp
  6. In [4]: a = np.ones(1000000)
  7. In [5]: b = jnp.array(a)

此时再次查看nvidia-smi的结果如下:

  1. Tue Dec 14 16:18:26 2021
  2. +-----------------------------------------------------------------------------+
  3. | NVIDIA-SMI 470.42.01 Driver Version: 470.42.01 CUDA Version: 11.4 |
  4. |-------------------------------+----------------------+----------------------+
  5. | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
  6. | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
  7. | | | MIG M. |
  8. |===============================+======================+======================|
  9. | 0 Quadro RTX 4000 On | 00000000:03:00.0 On | N/A |
  10. | 30% 42C P8 20W / 125W | 1238MiB / 7979MiB | 10% Default |
  11. | | | N/A |
  12. +-------------------------------+----------------------+----------------------+
  13. | 1 Quadro RTX 4000 On | 00000000:A6:00.0 Off | N/A |
  14. | 30% 36C P0 35W / 125W | 114MiB / 7982MiB | 0% Default |
  15. | | | N/A |
  16. +-------------------------------+----------------------+----------------------+
  17. +-----------------------------------------------------------------------------+
  18. | Processes: |
  19. | GPU GI CI PID Type Process name GPU Memory |
  20. | ID ID Usage |
  21. |=============================================================================|
  22. | 0 N/A N/A 1673 G /usr/lib/xorg/Xorg 110MiB |
  23. | 0 N/A N/A 3015 G /usr/lib/xorg/Xorg 661MiB |
  24. | 0 N/A N/A 3251 G /usr/bin/gnome-shell 129MiB |
  25. | 0 N/A N/A 1142734 G ...AAAAAAAAA= --shared-files 44MiB |
  26. | 0 N/A N/A 1337710 G ...AAAAAAAAA= --shared-files 80MiB |
  27. | 0 N/A N/A 1371509 G ...369783.log --shared-files 63MiB |
  28. | 0 N/A N/A 1506625 G ...AAAAAAAAA= --shared-files 89MiB |
  29. | 1 N/A N/A 1673 G /usr/lib/xorg/Xorg 4MiB |
  30. | 1 N/A N/A 3015 G /usr/lib/xorg/Xorg 4MiB |
  31. | 1 N/A N/A 1743467 C /usr/local/bin/python 101MiB |
  32. +-----------------------------------------------------------------------------+

此时的结果还是比较符合我们的预期的,这个python的进程占用了101MB的空间。但是此时如果我们在ipython中把这个对象删除了:

  1. In [6]: del b
  2. In [7]: b
  3. ---------------------------------------------------------------------------
  4. NameError Traceback (most recent call last)
  5. <ipython-input-7-89e6c98d9288> in <module>
  6. ----> 1 b
  7. NameError: name 'b' is not defined

然后再次查看nvidia-smi的结果:

  1. Tue Dec 14 16:21:12 2021
  2. +-----------------------------------------------------------------------------+
  3. | NVIDIA-SMI 470.42.01 Driver Version: 470.42.01 CUDA Version: 11.4 |
  4. |-------------------------------+----------------------+----------------------+
  5. | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
  6. | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
  7. | | | MIG M. |
  8. |===============================+======================+======================|
  9. | 0 Quadro RTX 4000 On | 00000000:03:00.0 On | N/A |
  10. | 30% 42C P5 21W / 125W | 1231MiB / 7979MiB | 0% Default |
  11. | | | N/A |
  12. +-------------------------------+----------------------+----------------------+
  13. | 1 Quadro RTX 4000 On | 00000000:A6:00.0 Off | N/A |
  14. | 30% 35C P8 7W / 125W | 114MiB / 7982MiB | 0% Default |
  15. | | | N/A |
  16. +-------------------------------+----------------------+----------------------+
  17. +-----------------------------------------------------------------------------+
  18. | Processes: |
  19. | GPU GI CI PID Type Process name GPU Memory |
  20. | ID ID Usage |
  21. |=============================================================================|
  22. | 0 N/A N/A 1673 G /usr/lib/xorg/Xorg 110MiB |
  23. | 0 N/A N/A 3015 G /usr/lib/xorg/Xorg 662MiB |
  24. | 0 N/A N/A 3251 G /usr/bin/gnome-shell 111MiB |
  25. | 0 N/A N/A 1142734 G ...AAAAAAAAA= --shared-files 55MiB |
  26. | 0 N/A N/A 1337710 G ...AAAAAAAAA= --shared-files 80MiB |
  27. | 0 N/A N/A 1371509 G ...369783.log --shared-files 63MiB |
  28. | 0 N/A N/A 1506625 G ...AAAAAAAAA= --shared-files 89MiB |
  29. | 1 N/A N/A 1673 G /usr/lib/xorg/Xorg 4MiB |
  30. | 1 N/A N/A 3015 G /usr/lib/xorg/Xorg 4MiB |
  31. | 1 N/A N/A 1743467 C /usr/local/bin/python 101MiB |
  32. +-----------------------------------------------------------------------------+

此时我们可以看到,虽然已经把对象给删除了,在python的程序中已然找不到这个对象,但是在显存中的数据并未被消除。而且如果一直不消除,这块显存就会一直占用在那里,直到python进程(此时作为该进程的一个守护进程)的结束。

解决思路

暂时还不清楚这个问题发生的机制,在一些特定场景下出现僵尸进程的问题似乎跟我复现的这个场景也有所不同。只是考虑到在python的进程结束之后,这一块的显存还是被成功释放了的,因此我考虑直接用进程的方法来解决这个显存分配和清空的方法,以下是一个基于进程实现的案例:

  1. import os
  2. os.environ['CUDA_VISIBLE_DEVICES']='1'
  3. os.environ["XLA_PYTHON_CLIENT_PREALLOCATE"] = "false"
  4. import time
  5. from multiprocessing import Pool
  6. import numpy as np
  7. from jax import numpy as jnp
  8. a = np.ones(1000000)
  9. def f(a):
  10. b = jnp.array(a)
  11. time.sleep(2)
  12. print('Array b has been deleted!')
  13. return True
  14. with Pool(1) as p:
  15. res = p.map(f, [(a,)])
  16. print ('Is jax array deleted successfully?\t{}'.format(res))
  17. time.sleep(6)

在这个程序中,我们把要执行的相关任务,包含GPU矩阵的转化与分配,都放到了一个函数中,然后通过multiprocessing开启一个子进程,来执行这个任务,并且在任务中甚至不需要手动执行del这个删除的操作。这么一来,我们既可以实现对象的即时销毁,也通过进程控制的机制确保在显存中占用的位置被清空。如果进程执行中存在一些问题,还可以通过terminate的操作来直接杀死进程,同样也可以确保显存占用不会发生堆积的情况。程序的执行结果如下:

  1. Array b has been deleted!
  2. Is jax array deleted successfully? [True]

在程序执行的过程中我们也可以看到,在nvidia-smi中的显存占用,仅仅持续了2秒,也就是我们在函数内部设置的进程sleep参数。而在之后6秒的sleep时间中,这一块内存占用是被清空了的,这也就达到了我们最初的目的。当然,最重要的是,我们依然可以从函数中获取到返回值,这就确保后面有需要存储或者使用到的参数不被同步的销毁。需要注意的是,在同等条件下,如果不使用子进程来执行这个函数,而是直接使用res=f(a)的形式来执行,作为临时变量的b最终依然存在于显存之中,这是一个非常可怕的事情。

总结概要

在使用一些python的GPU模块,或者写CUDA时,有时会发现显存被无端占用的场景,即时执行了cudaFree()或者python的del操作,也无法消除这一块的显存占用。最终我们发现,可以通过额外开启一个子进程的方法来封装相关的操作,通过对进程的存活控制来实现对GPU显存占用的控制,有可能是一个临时规避问题的思路。

版权声明

本文首发链接为:https://www.cnblogs.com/dechinphy/p/gc.html

作者ID:DechinPhy

更多原著文章请参考:https://www.cnblogs.com/dechinphy/

打赏专用链接:https://www.cnblogs.com/dechinphy/gallery/image/379634.html

腾讯云专栏同步:https://cloud.tencent.com/developer/column/91958

参考链接

  1. https://blog.csdn.net/jzrita/article/details/80719297
  2. https://blog.csdn.net/xxs8457800/article/details/104307283
  3. https://jermine.vdo.pub/python/解决gpu显存未释放问题/
  4. https://blog.csdn.net/weixin_42317730/article/details/116786526?share_token=7ef0f7d6-6d68-4efb-995b-24517000ac11&tt_from=copy_link&utm_source=copy_link&utm_medium=toutiao_android&utm_campaign=client_share?=linux清理gpu内存,GPU内存在CUDA脚本执行后无法

关于python中显存回收的问题的更多相关文章

  1. Python中的垃圾回收与del语句

    python中的垃圾回收采用计数算法 一个对象如果被引用N次,则需要N次(即计算引用次数为零时)执行del 才能回收此对象. a = 100 b = a del a print(b) print(a) ...

  2. Python中的垃圾回收机制

    Python的垃圾回收机制 引子: 我们定义变量会申请内存空间来存放变量的值,而内存的容量是有限的,当一个变量值没有用了(简称垃圾)就应该将其占用的内存给回收掉,而变量名是访问到变量值的唯一方式,所以 ...

  3. 【转载】Python中的垃圾回收机制

    GC作为现代编程语言的自动内存管理机制,专注于两件事:1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来给其他对象使用.GC彻底把程序员从资源管理的重担中解放出来,让他们有更多的时间放在 ...

  4. Python 中的垃圾回收机制--备忘

    GC作为现代编程语言的自动内存管理机制,专注于两件事:1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来给其他对象使用.GC彻底把程序员从资源管理的重担中解放出来,让他们有更多的时间放在 ...

  5. Python 中的垃圾回收机制(转载)

    from: https://foofish.net/python-gc.html GC作为现代编程语言的自动内存管理机制,专注于两件事:1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来 ...

  6. Python中的垃圾回收机制(转)

    原文:https://foofish.net/python-gc.html GC作为现代编程语言的自动内存管理机制,专注于两件事:1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来给其他 ...

  7. Python 中的垃圾回收机制

    GC作为现代编程语言的自动内存管理机制,专注于两件事:1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来给其他对象使用.GC彻底把程序员从资源管理的重担中解放出来,让他们有更多的时间放在 ...

  8. python中的垃圾回收机制及原理

    序言: 来一起看看: 不同于C/C++,像Python这样的语言是不需要程序员写代码来管理内存的,它的GC(Garbage Collection)机制 实现了自动内存管理.GC做的事情就是解放程序员的 ...

  9. 如何在Python中显式释放内存?

    根据Python官方文档,您可以强制垃圾收集器释放未引用的内存gc.collect().例: import gc gc.collect() 所属网站分类: python高级 > 综合&其 ...

随机推荐

  1. React-Router学习(基础路由与嵌套路由)

    示例:基本路由 在这个例子中,我们有3个'Page'组件处理<Router>. 注意:而不是<a href="/">我们使用<Link to=&quo ...

  2. [hdu7034]Array

    令$f(a)_{i}=\min_{i<j\le n,a_{i}=a_{j}}j$​​(特别的,若不存在$j$​​则令$f(a)_{i}=n+1$​​),则有以下性质: 1.对于$b_{i}$​​ ...

  3. [atAGC001F]Wide Swap

    结论:排列$p'_{i}$可以通过排列$p_{i}$得到当且仅当$\forall 1\le i<j<i+k,(p_{i}-p_{j})(p'_{i}-p'_{j})>0$ 证明:构造 ...

  4. [loj3046]语言

    定义$S_{i}$表示第$i$条链所包含的点的集合,$(x,y)$合法当且仅当$x\ne y$且$\exists i,\{x,y\}\subseteq S_{i}$(答案即$\frac{合法点对数}{ ...

  5. Svelte入门——Web Components实现跨框架组件复用

    Svelte 是构建 Web 应用程序的一种新方法,推出后一直不温不火,没有继Angular.React和VUE成为第四大框架,但也没有失去热度,无人问津.造成这种情况很重要的一个原因是,Svelte ...

  6. 宝藏好物gRPCurl

    宝物简介 grpcur是一个与grpc服务器交互的命令行工具,可认为是gRPC的curl工具. grpcurl用于从命令行调用gRPC服务器支持的RPC方法,gRPC使用二进制编码(protobuf) ...

  7. char数据可以放入int[]中会自动转换

    int[] ary ={'b','c','a','d','e','f'};System.out.println(ary[0]);//98String str = new String(ary, 2, ...

  8. PHP 日期详细介绍

    简介 你可以使用这些函数获取运行 PHP 的服务器的日期和时间, 也可以使用这些函数把日期和时间 格式化成不同格式的字符串. 日期和时间信息在 PHP 内部是以 64 位数字存储的, 它可以覆盖当前时 ...

  9. 洛谷 P6775 - [NOI2020] 制作菜品(找性质+bitset 优化 dp)

    题面传送门 好久没写过题解了,感觉几天没写手都生疏了 首先这种题目直接做肯定是有些困难的,不过注意到题目中有个奇奇怪怪的条件叫 \(m\ge n-2\),我们不妨从此入手解决这道题. 我们先来探究 \ ...

  10. 用pipenv管理python虚拟环境

    python的虚拟环境可以为项目创建一个独立的环境,能够解决使用不同版本依赖给项目带来冲突的麻烦.创建虚拟环境的方式有很多种,pipenv会自动帮你管理虚拟环境和依赖文件,并且提供了一系列命令和选项来 ...