六 GPU 并行优化的几种典型策略

前言

　　如何对现有的程序进行并行优化，是 GPU 并行编程技术最为关注的实际问题。本文将提供几种优化的思路，为程序并行优化指明道路方向。

优化前准备

　　首先，要明确优化的目标 - 是要将程序提速 2 倍？还是 10 倍？100倍？也许你会不假思索的说当然是提升越高越好。

　　但这里存在一个优化成本的问题。在同样的技术水平硬件水平下，提升 2 倍也许只要一个下午的工作量，但提高 10 倍可能要考虑到更多的东西，也许是一周的工作量。提高 100 倍， 1000 倍需要的成本，时间就更多了。

　　然后，需要将这个问题进行分解。通常来说先对数据集进行分解，然后将任务进行分解。这里要从数据集这样的矩阵角度来分析数据，将输入集和输出集中各个格点的对应关系找出来，然后分派给各个块，各个线程。

策略一：识别代码中的瓶颈所在

　　分析程序效率的瓶颈所在一方面靠的是分析。这种方式对于代码结构比较简单的程序非常有用，但对于实际应用中的复杂项目，人脑分析往往会导致错误的结论 - 也许你费尽心思想出来了瓶颈，然后对它做了优化，之后却发现效率仅仅提升了 1%。

　　因此更有效的方法是使用分析工具来找出瓶颈，可以使用 CUDA Profiler 或者 Parallel Nsight。

　　使用 Parallel Nsight 分析并行程序的方法请参考我的这篇文章：(准备中...)

　　还有一点要特别说明的是，在 GPU 进行数据处理的时候，CPU 可以考虑做点别的事情，比如去服务器取数之类的，这样就将 CPU 并行和 GPU 并行结合起来了，程序效率自然会大大提高。

策略二：合理的利用内存

　　首先，要灵活的使用显卡中的各类内存结构，如共享内存，常量内存等。特别要注意共享内存的使用，它的速度可是接近一级缓存的。

　　此外，必要时对多个内核函数进行融合。因为这样可以避免启动新的内核函数时需要进行的数据传递问题，还可以重用前面的任务遗留下的一些有用的数据。不过，如果是对别人写的多个内核函数进行融合的话，一定要注意其中隐含的同步问题 - 上个内核函数的代码彻底执行完毕之后，下个内核函数才会开始执行。

　　然后，对于数据的访问应该采取合并访问的方式 - 尽量使用 cudaMalloc 函数。一次访问的数据应当大于 128 字节，这样才能充分地利用显卡的带宽。

策略三：传输过程的优化

　　前面的文章已经提到过很多次了，数据在内存和显存之间进行交换是非常费时的。

　　对于这样的问题，首先我们可以以锁页内存的方式使用主机端内存。所谓锁页内存，是指该区域内存和显卡的传递不需要 CPU 来干预，如果某区域不声明为锁页内存，那么在内存往显存中或者显存往内存中传递数据前，会发生一些开销不小的锁定操作(表示该区域内存正在和显存发生数据传递，CPU勿扰)。

　　使用方法是调用 cudaHostAlloc 函数。这个函数的功能不单单是声明锁页内存那么简单。通过设置函数的参数，该函数还能实现很多非常实用的功能，个人非常推荐。

　　然后，还需要重点推荐的是零复制内存。它是一种特殊的锁页内存，一种特殊的内存映射。它允许你将主机内存映射到 GPU 的内存空间。如果你的程序是计算密集型的，那么这个机制就会非常有用，它会自动将数据传输和计算重叠。具体用法请参考我的这篇文章。

策略四：线程结构布局的优化

　　建立科学的计算网格，通过设定合适的维数，块数，以及块内线程数来尽量实现合并的内存访问，保证最大的内存带宽。

　　要学会灵活使用多维度的计算网格，而不是仅仅局限于一维。多维计算网格的使用请参考我的这篇文章。

　　尤其在单维度的块数受到限制的时候，多维网格就必须被考虑进来了。

策略五：从算法本身进行任务级的分解

　　将算法的步骤分解各个不相关的部分，步骤内采用GPU并行，这几个步骤则采用CPU并行。

策略六：灵活使用 CUDA C 的一些库还有 API

　　CUDA C 提供了很多实用的 API，且提供相当多的C++支持 (非全部)。能大大地提高开发效率。如原子操作函数等等，很方便。

　　CUDA 提供了许多实用的库：如 cuBlas cuSparse等，不在此一一介绍。尤其是 Thrust 库，简直就是 STL 的并行实现，拿来直接用非常方便。

小结

　　优化思路可以说是 CUDA 并行编程最为核心，也是最为关键所在。

　　本文仅仅是提供优化的总体策略和思路，至于具体的实现方法，请参考相关资料实现之。

六 GPU 并行优化的几种典型策略的更多相关文章

第六篇：GPU 并行优化的几种典型策略
前言如何对现有的程序进行并行优化,是 GPU 并行编程技术最为关注的实际问题.本文将提供几种优化的思路,为程序并行优化指明道路方向. 优化前准备首先,要明确优化的目标 - 是要将程序提速 2 倍? ...
使用 CUDA 进行计算优化的两种思路
前言本文讨论如何使用 CUDA 对代码进行并行优化,并给出不同并行思路对均值滤波的实现. 并行优化的两种思路思路1: global 函数在 global 函数中创建出多个块多个线程对矩阵每个元素 ...
第七篇：使用 CUDA 进行计算优化的两种思路
前言本文讨论如何使用 CUDA 对代码进行并行优化,并给出不同并行思路对均值滤波的实现. 并行优化的两种思路思路1: global 函数在 global 函数中创建出多个块多个线程对矩阵每个元素 ...
App架构师实践指南六之性能优化三
App架构师实践指南六之性能优化三 2018年08月02日 13:57:57 nicolelili1 阅读数:190 内存性能优化1.内存机制和原理 1.1 内存管理内存时一个基础又高深的话题,从 ...
GPU 编程入门到精通（四）之 GPU 程序优化
博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识,鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程.有志同道合的小伙伴 ...
工程能力UP | LightGBM的调参干货教程与并行优化
这是个人在竞赛中对LGB模型进行调参的详细过程记录,主要包含下面六个步骤: 大学习率,确定估计器参数n_estimators/num_iterations/num_round/num_boost_ro ...
[源码解析] PyTorch分布式优化器(2)----数据并行优化器
[源码解析] PyTorch分布式优化器(2)----数据并行优化器目录 [源码解析] PyTorch分布式优化器(2)----数据并行优化器 0x00 摘要 0x01 前文回顾 0x02 DP 之 ...
五浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
GPU 编程入门到精通（五）之 GPU 程序优化进阶
博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识.鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程. 有志同道合的小伙 ...

随机推荐

mke2fs/mks.etc3/fstab/mount指令
一.mke2fs指令mkfs.etc3 /dev/sdb1指令主要新学习 cat /etc/filesystem //查看文件类型 mkfs. tab键有提示 //按照系统默认的值格式化 m ...
告别硬编码-发个获取未导出函数地址的Dll及源码
还在为找内核未导出函数地址而苦恼嘛? 还在为硬编码通用性差而不爽吗? 还在为暴搜内核老蓝屏而痛苦吗? 请看这里: 最近老要用到内核未导出的函数及一些结构,不想再找特征码了,准备到网上找点符号文件解析的 ...
Debug的F5~F8用法
快捷键(F6)单步执行程序,遇到方法时跳过. 快捷键(F8)执行此断点到最后,进入下一个断点开始之处. 快捷键(F5)单步执行程序,遇到方法时进入. 快捷键(F7)单步执行程序,从当前方法跳出.
NOIP 2013 提高组 day2 积木大赛
积木大赛描述春春幼儿园举办了一年一度的“积木大赛”.今年比赛的内容是搭建一座宽度为 n 的大厦,大厦可以看成由 n 块宽度为1的积木组成,第
PL/SQL : Procedural Language / Structual Query Language and it is an exrension to SQL.
SQL is not very flexible and it cannot be made to react differently to differing sutuations easily. ...
去除hadoop启动时的警告
hadoop启动的时候,会出现以下警告提示: 执行more start-all.sh查看该文件但/libexec下不存在hadoop-config.sh文件,所以会执行bin/hadoop-conf ...
Windows Azure上搭建SSTP VPN
一.服务器设置首先,从0开始,你需要创建一个新的VM.我选择Windows Server 2012 R2,所有步骤和创建普通VM都一样,但最后在防火墙设置里一定要打开TCP 443端口: 创建完成后 ...
Apache虚拟主机（三）
一.启用 httpd-vhosts.conf 在httpd.conf文件中启用在文件中搜索:Virtual hosts #Virtual hosts虚拟主机 Include conf/extra/h ...
<矩阵的基本操作:矩阵相加，矩阵相乘，矩阵转置>
//矩阵的基本操作:矩阵相加,矩阵相乘,矩阵转置 #include<stdio.h> #include<stdlib.h> #define M 2 #define N 3 #d ...
android：强制关闭其他应用
强制关闭其他应用,可以使用ActivityManager,首先需要获取(ActivityManager)getSystemService(Context.ACTIVITY_SERVICE); 然后可以 ...

六 GPU 并行优化的几种典型策略

六 GPU 并行优化的几种典型策略的更多相关文章

随机推荐

热门专题