CUDA优化

cuda程序优化

一：程序优化概述
1：精度
在关键步骤使用双精度，其他步骤使用单精度，以获得指令吞吐量和精度的平衡。

2：延迟
先缓冲一定量数据，在交给GPU计算。可以获得较高的数据吞吐量。

3：计算量
1）：绝对计算量
当计算量较少时，不因用GPU
2）：相对计算量
当计算量中的并行站大多比例，因使用GPU并行计算。

4：优秀的CUDA程序
1）给点数据规模下，选用的算法复杂度不明显高于最优算法
2）活动的线程束应使SM满载，且活动的线程块数应大于等于2，可以有效隐藏延迟。
3）当瓶颈出现在运算时，说明指令流已经做了最好的优化
4）当瓶颈出现在IO或访存时，表明选择了最好的存储器与访存方式，以获得最大的带宽。瓶颈----〉带宽

5：CUDA程序开发流程与优化
1）确定串行与并行部分，选择合适算法
2）按照算法确定数据与任务的划分，将每个需要并行并行实现的步骤映射为一个CUDA两层并行模型的核函数。
3）编写一个能够正常运行的程序。
4）优化显存访问，避免显存带宽成为瓶颈。---〉只有将带宽问题优化，才能使优化结果明显
5）优化指令流
6）资源均衡。调整shared memory 与 register的分配使用量，获得更高的ＳＭ占有率
7）与主机通信优化

6：优化显存访问方式
1）在数据只访问一次，且满足合并访问的情况下，考虑使用zeroy copy memory
2）除非非常必要，应尽量避免将线程的私有变量分配到local memory；
3）为满足合并访问，保证访问的首地址从16的整倍数开始，对数据类型进行对齐（__align）,采用cudaMallocPitch cudaMalloc3D分配显存

7：优化指令流
１）若只需使用少量线程，尽量使用 if threadId <Ｎ　
２）采用原子函数，完成比较复杂的算法，保证结果正确性
３）避免多余的同步

８：资源均衡
　１）提高shared使用率
修改算法指令，动态分配，调整ｂｌｏｃｋ大小。
２·）节约寄存器使用
　　使用shared memory存储变量，尽量使用括号减短变量声明周期
　　使用占用寄存器较小的等效指令代替原有指令。＿ｓｉｎ代替ｓｉｎ

９：提高带宽
　１）使用ｃｕｄａＭａｌｌｏｃＨｏｓｔ分配主机端内存
　２）使用ｚｅｒｏｙｃｏｐ　和　ｗｒｉｔｅｃｏｍｂｉｎｅｄ内存
　３）一次缓存较多数据，再一次性传输
　４）使用流和异步处理隐藏与主机通信时间

CUDA优化的更多相关文章

漫谈CUDA优化
作者:Lawliet 翻译:仿佛若有光前言: 几个月前,我根据 Simoncelli 2016 年的论文编写了自己的自动编码器,用于研究目的.一开始,我想使用一些流行的深度学习框架(例如 Ten ...
GPU优化方法[转]
CUDA优化的最终目的是:在最短的时间内,在允许的误差范围内完成给定的计算任务.在这里,“最短的时间”是指整个程序运行的时间,更侧重于计算的吞吐量,而不是单个数据的延迟.在开始考虑使用GPU和CPU协 ...
CUDA C Programming Guide 在线教程学习笔记 Part 3
▶ 表面内存使用 ● 创建 cuda 数组时使用标志 cudaArraySurfaceLoadStore 来创建表面内存,可以用表面对象(surface object)或表面引用(surface re ...
ubuntu16.04 Detectron目标检测库配置（包含GPU驱动，Cuda，Caffee2等配置梳理）
Detectron概述 Detectron是Facebook FAIR开源了的一个目标检测(Object Detection)平台. 用一幅图简单说明下Object Detection.如Mask R ...
CUDA并行计算 | CUDA算法效率提升关键点概述
文章目录前言存取效率计算效率性能优化要点展现足够的并行性优化内存访问优化指令执行前言 CUDA算法的效率总的来说,由存取效率和计算效率两类决定,一个好的CUDA算法必定会让两类效率 ...
CUDA Pro：通过向量化内存访问提高性能
CUDA Pro:通过向量化内存访问提高性能许多CUDA内核受带宽限制,而新硬件中触发器与带宽的比率不断提高,导致带宽受限制的内核更多.这使得采取措施减轻代码中的带宽瓶颈非常重要.本文将展示如何在C ...
pytorch_SRU(Simple Recurrent Unit)
导读本文讨论了最新爆款论文(Training RNNs as Fast as CNNs)提出的LSTM变种SRU(Simple Recurrent Unit),以及基于pytorch实现了SRU,并 ...
语义分割丨PSPNet源码解析「训练阶段」
引言之前一段时间在参与语义分割的项目,最近有时间了,正好把这段时间的所学总结一下. 在代码上,语义分割的框架会比目标检测简单很多,但其中也涉及了很多细节.在这篇文章中,我以PSPNet为例,解读一下 ...
Vulkan移植GpuImage(四)从D到O的滤镜
现把D到O的大部分滤镜用vulkan的ComputeShader实现了,列举其中一些有点特殊的说明. GaussianBlurPosition 指定区域高斯模糊没有按照GPUImage里的方式实现, ...

随机推荐

小姐姐教你定制一个Logstash Java Filter
Logstash是用来收集数据,解析处理数据,最终输出数据到存储组件的处理引擎.数据处理流程为: Logstash Java Filter 就是基于Logstash的Filter扩展API开发一个用J ...
JMeter基于HTML测试报告的生成
1第一步: 下载ant,搭建ant环境(path的环境变量) 在path中添加ANT_HOME\bin 验证是否搭建成功Lcmd中输入ant 提示这个说明搭建成功. 第二步: 1.jmerer的目录C ...
抛弃os.path，拥抱pathlib
基于Python的文件.目录和路径操作,我们一般使用的是os.path模块. pathlib是它的替代品,在os.path上的基础上进行了封装,实现了路径的对象化,api更加通俗,操作更便捷,更符编程 ...
学习Echarts：（一）静态图表
Echarts是现在比较火的js图表库,官网有丰富的实例和友好的入门教程.但是图表的种类很多,配置项的参数也很多,一开始我根据图表类型翻看配置项,发现这样学效率太低了,决定先制定一个简单的学习步骤,按 ...
阿里云wordpress轻量应用服务器升级php版本
目录脚本升级 php.ini没有加载升级完后只能最大只能上传2m的文件的问题脚本升级用大佬写的脚本: https://yq.aliyun.com/articles/717769?spm=a2c ...
docker基本维护命令
docker search centos ##查服务器上面的镜像:docker images ##查本地的镜像.docker pull centos ##拉镜像. docker run centos ...
zoj3997网络流+数学
题目大意就是每个人都有自己喜欢的座位编号,喜欢的编号是要x的倍数就好,(1<=x<=10)一共10种情况,每种情况的人的数目不一样. 给你一个n,代表有编号1-n这n个座位,问最多能满足多 ...
C语言基础知识(三)——指针
指针定义 1.指针的值表示的是它所指向对象的地址,指针+1表示的是下一元素的地址,按**字节**编址,而不是下一字节的地址. 2.依照数据类型而定,short占用两字节.int占用4字节.double ...
模板：list列表显示
作为视图,担当的角色就是显示数据.所以关键就是,借助JSTL的c:forEach标签遍历从CategoryServlet的list()的request.setAttribute("thecs ...
centos7 安装rpm版的mysql遇到坑——误删root用户的恢复
在网上找了教程http://blog.csdn.net/frankcheng5143/article/details/77609093安装过程很顺利,随着修改了root的密码后不下心误删了root账号 ...

CUDA优化

CUDA优化的更多相关文章

随机推荐

热门专题