CUDA杂谈

这一年都在编写CUDA的程序，用了很多优化的手段，发现大部分其实还是官方的指南里面的手段

https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/

https://developer.download.nvidia.cn/compute/cuda/1.1-Beta/x86_website/projects/reduction/doc/reduction.pdf

至于代码，多看CUDA自带的example就好了，挺好的代码

学会使用trust库

后面才发现有这个库的，具体效率没看过，但是发现很多我手写的代码trust里面都有，下次可以用用。

内存方面

CUDA里面，用nsight一看，有大部分时间都花在cudaMalloc,cudaMemcpy这一类的函数里面，所以如何减少这些函数调用是很重要的

减少cudaMalloc,cudaMemcpy的调用

cudaMalloc是很耗时的一个操作，我在优化雷达数据计算的时候，一份数据用CPU算要80ms，但是用GPU算只要10，如果用GTX1080ti的话也才6ms左右，但是单单cudaMalloc就用了10几ms.特别在多线程下，这个问题特别严重

所以不要轻易回收申请的GPU内存，能复用就复用，能实现一个简单的内存池最好

多线程同时操作内存

void func()

{

	char *p = nullptr;

	cudaMalloc((void**)&p, 1024 * 1024 * 10);

	cudaFree(p);

}

int main()

{

	std::thread t(func);

	std::thread t2(func);

	std::thread t3(func);

	t.join();

	t2.join();

	t3.join();

}

上面的代码同时开启3个线程，申请了三块显存, 可以看到，每个malloc的申请都在100ms之间.我估计应该是产生竞争了

后来写代码发现，是每个线程在第一次执行CUDA的代码的时候，会比较慢。修改了代码，在代码前面加入create stream，发现createstream比较慢，而cudaMalloc快了点，但是依然有4-10ms的消耗，所以我估计还是有一定的竞争

而每个线程第一次调用CUDA函数会很慢是因为CUDA的每个线程需要初始化一些东西吧，找了版本也没找到相关的说明，有人说是context，但是从nsight里面看到，大部分的context都是一样的

将代码修改成串行申请内存，可以看到内存申请只有第一个比较耗时，第二个第三个都是很快的

void func()

{

	char *p = nullptr;

	cudaMalloc((void**)&p, 1024 * 1024 * 10);

	cudaFree(p);

}

int main()

{

	func();

	func();

	func();

}

拷贝内存

static const int malloc_size = 1024 * 1024 * 10;

void func()

{

	cudaStream_t stream;

	cudaStreamCreate(&stream);

	char *gpu_mem = nullptr;

	char *host_mem = (char*)malloc(malloc_size);

	cudaMalloc((void**)&gpu_mem, malloc_size);

	cudaMemcpy(gpu_mem, host_mem, malloc_size, cudaMemcpyHostToDevice);

	cudaMemcpy(host_mem, gpu_mem, malloc_size, cudaMemcpyDeviceToHost);

	cudaFree(gpu_mem);

	free(host_mem);

}

开多线程拷贝

单线程拷贝内存

可以看到单线程的内存拷贝比较稳定，而多线程在2-10ms之间，不知道是不是因为多线程操作内存引起的部分等待

网上说可以使用stream进行异步传输，于是修改代码，使用async的memcpy

	cudaStream_t stream;

	cudaStreamCreate(&stream);

	char *gpu_mem = nullptr;

	char *host_mem = (char*)malloc(malloc_size);

	cudaMalloc((void**)&gpu_mem, malloc_size);

	cudaMemcpyAsync(gpu_mem, host_mem, malloc_size, cudaMemcpyHostToDevice,stream);

	cudaMemcpyAsync(host_mem, gpu_mem, malloc_size, cudaMemcpyDeviceToHost,stream);

	cudaFree(gpu_mem);

	free(host_mem);

最终结果，表示没啥鸟用，速度慢还是慢，从几张图的开始时间和结束时间来看，也没有看出什么异步的优势

pinned 内存

申请pinned内存耗时

拷贝pinned内存与拷贝非pinned内存对比

从上面图中可以看出，拷贝pinn内存基本是拷贝非pinn内存速度的7-9倍左右，效率提升还是很可观的

zero copy, shared memory

zero copy对我来讲几乎没什么用的东西，太过频繁在CPU和GPU写和读内存反而导致速度下降得很严重，最终被放弃了

shared memory对我来讲用处并不大，而且要修改太多的代码。我们代码里面主要时间还是花在GPU和CPU的交互，即使修改成使用shared memory最终估计也就优化几ms，没必要那么折腾

IO优化

IO优化主要是在三方面，知乎上的答案讲得很清楚了

gpu的io问题一直是比较严重的瓶颈，我自己总结有三种解决方案。

1.优化算法，选择更有效的存储方式，减少显存的使用。只拷贝必要数据，优化数据结构等等。

2.使用cuda内存优化技巧。比如显存整块申请和拷贝，使用pinned memory，shared memory,constant memory，使用流来掩盖内存延迟等等。

3.硬件解决方案，放弃pci-e，使用ibm的power架构和p100，直接用nv-link进行内存传输。这个方案是一劳永逸的，但是要准备好money，一整套下来很贵的。第三个方案一般整不起，前两个方案是算法和语言技巧方面，与算法本身有很大的关系。个人经验上来讲方案1提升的潜力比较大。

作者：杨伟光

链接：https://www.zhihu.com/question/52472621/answer/130949946

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

https://www.cnblogs.com/1024incn/p/5891051.html

最重要的

学会使用nvprof工具，优化这个才是关键
了解自己的程序是否适合做并行化，不了解自己的程序是否适合并行化的话，多读几本多线程相关的书籍，或者CPU内存操作优化的书籍,其实两者的优化思路都差不多.
注意一点，如果不熟悉CUDA的话，特别是那种执行本来只需要几百毫秒的算法，一部小心写出来的代码可能比CPU版本还慢，我们的雷达处理器就是一个很好的例子。最早要优化运算，CPU版本是200ms，我同事写出来的CUDA代码居然要300ms,后来经过我的优化，最后是60ms，主要是内存操作的优化

CUDA杂谈的更多相关文章

CUDA[2] Hello,World
Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...
CUDA[1] Introductory
Section 0 :Induction of CUDA CUDA是啥?CUDA®: A General-Purpose Parallel Computing Platform and Program ...
Couldn't open CUDA library cublas64_80.dll etc. tensorflow-gpu on windows
I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\dso_load ...
ubuntu 16.04 + N驱动安装＋CUDA+Qt5 + opencv
Nvidia driver installation(after download XX.run installation file) 1. ctrl+Alt+F1 //go to virtual ...
手把手教你搭建深度学习平台——避坑安装theano+CUDA
python有多混乱我就不多说了.这个混论不仅是指整个python市场混乱,更混乱的还有python的各种附加依赖包.为了一劳永逸解决python的各种依赖包对深度学习造成的影响,本文中采用pytho ...
[CUDA] CUDA to DL
又是一枚祖国的骚年,阅览做做笔记:http://www.cnblogs.com/neopenx/p/4643705.html 这里只是一些基础知识.帮助理解DL tool的实现. “这也是深度学习带来 ...
【转】PHP 杂谈《重构-改善既有代码的设计》之一重新组织你的函数
原文地址: PHP 杂谈<重构-改善既有代码的设计>之一重新组织你的函数思维导图点击下图,可以看大图. 介绍我把我比较喜欢的和比较关注的地方写下来和大家分享.上次我写 ...
基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记
基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记飞翔的蜘蛛人注1:本人新手,文章中不准确的地方,欢迎批评指正注2:知识储备应达到Linux入门级水平 ...
CUDA程序设计(一)
为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...

随机推荐

Centos6.5 安装pip
1.下载 sudo wget https://bootstrap.pypa.io/get-pip.py --no-check-certificate 2.安装 python get-pip.py 参 ...
Java enum（枚举）使用详解之三
DK1.5引入了新的类型——枚举.在 Java 中它虽然算个“小”功能,却给我的开发带来了“大”方便. 用法一:常量在JDK1.5 之前,我们定义常量都是: publicstaticfianl... ...
特征降维之SVD分解
奇异值分解.特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的,在现实的世界中,我们看到的大部分矩阵都不是方阵,比如说有N个学生,每个学生有M科成绩,这样形成的一个N * M的矩阵就不可 ...
fabric自动化安装mysql-server
1.创建文件auto_install_mysql.py vim auto_install_mysql.py --------------------------------------------&g ...
[Android Lint] xxx is not translated in xxx 的解决方法
CLEAN项目即可转自BLOG http://blog.csdn.net/feng88724/article/details/8835664
css中的定位属性position（转）
css中的定位属性position 同样的也是上课的时候发现学生难以理解的一些问题拿出来记录一下,希望帮助初学者. 在css中定位属性position的运用在页面中是很常用的,特别是一些结合js来 ...
19. CTF综合靶机渗透(十二)
靶机说明: 靶机主题来自美剧<黑客军团> 本次靶机有三个flag,难度在初级到中级,非常适合新手训练学习,不需要逆向技术,目标就是找到三个key,并且拿到主机root权限. 渗透过程: 本 ...
netty对http协议解析原理解析(转载)
本文主要介绍netty对http协议解析原理,着重讲解keep-alive,gzip,truncked等机制,详细描述了netty如何实现对http解析的高性能. 1 http协议 1.1 描述标示 ...
python写入文件编码报错
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码. encode的作用是将u ...
HBase 命令简介
1. 进入HBase 的控制端(可以在任意一台机器上启动,只要其配置和HMaster 的配置一样): hbase shell 进入后,出现类似下面的提示符: hbase(main):002:0&g ...