CUDA Pro:通过向量化内存访问提高性能

许多CUDA内核受带宽限制,而新硬件中触发器与带宽的比率不断提高,导致带宽受限制的内核更多。这使得采取措施减轻代码中的带宽瓶颈非常重要。本文将展示如何在CUDA C / C ++中使用向量加载和存储,以帮助提高带宽利用率,同时减少已执行指令的数量。

从以下简单的内存复制内核开始。

__global__ void device_copy_scalar_kernel(int* d_in, int* d_out, int N) {

int idx = blockIdx.x * blockDim.x + threadIdx.x;

for (int i = idx; i < N; i += blockDim.x * gridDim.x) {

d_out[i] = d_in[i];

}

}

void device_copy_scalar(int* d_in, int* d_out, int N)

{

int threads = 128;

int blocks = min((N + threads-1) / threads, MAX_BLOCKS);

device_copy_scalar_kernel<<<blocks, threads>>>(d_in, d_out, N);

}

代码使用的是网格跨度循环。图1显示了内核吞吐量(GB / s)与副本大小的关系。

图1:复制带宽与复制大小的关系。

可以使用CUDA Toolkit 附带的cuobjdump工具检查该内核的程序集。

%> cuobjdump -sass可执行文件

标量复制内核主体的SASS如下:

/ * 0058 * / IMAD R6.CC,R0,R9,c [0x0] [0x140]

/ * 0060 * / IMAD.HI.X R7,R0,R9,c [0x0] [0x144]

/ * 0068 * / IMAD R4.CC,R0,R9,c [0x0] [0x148]

/ * 0070 * / LD.E R2,[R6]

/ * 0078 * / IMAD.HI.X R5,R0,R9,c [0x0] [0x14c]

/ * 0090 * / ST.E [R4],R2

可以看到总共六个与复制操作相关的指令。四个IMAD指令计算加载和存储地址和LD.E与ST.E负载位和32位来自这些地址存储。

可以使用向量化的加载和存储指令LD.E.{64,128}和来提高此操作的性能ST.E.{64,128}。这些操作也可以加载和存储数据,但可以64位或128位宽度进行加载和存储。使用矢量化负载减少了指令总数,减少了等待时间,并提高了带宽利用率。

使用矢量载荷的最简单的方法是使用在CUDA C / C ++标准头中定义的向量的数据类型,如int2,int4,或 float2。可以通过C / C ++中的类型转换轻松地使用这些类型。例如,在C ++可以重铸int指针d_in到一个int2使用指针reinterpret_cast<int2*>(d_in)。在C99中,可以使用强制转换运算符做相同的事情:(int2*(d_in))。

取消引用那些指针将导致编译器生成矢量化指令。但是,有一个重要警告:这些指令需要对齐的数据。设备分配的内存会自动对齐到数据类型大小的倍数,但是如果偏移指针,则偏移也必须对齐。例如reinterpret_cast<int2*>(d_in+1),无效是因为d_in+1未与对齐sizeof(int2)。

如果使用“对齐”偏移量,则可以安全地偏移数组,如 reinterpret_cast<int2*>(d_in+2)中所示。也可以使用结构生成矢量化载荷,只要该结构的大小为2个字节即可。

struct Foo {int a,int b,double c}; // 16个字节

Foo * x,* y;

x [i] = y [i];

既然已经看到了如何生成向量化指令,那么让修改内存复制内核以使用向量加载。

__global__ void device_copy_vector2_kernel(int* d_in, int* d_out, int N) {

int idx = blockIdx.x * blockDim.x + threadIdx.x;

for (int i = idx; i < N/2; i += blockDim.x * gridDim.x) {

reinterpret_cast<int2*>(d_out)[i] = reinterpret_cast<int2*>(d_in)[i];

}

// in only one thread, process final element (if there is one)

if (idx==N/2 && N%2==1)

d_out[N-1] = d_in[N-1];

}

void device_copy_vector2(int* d_in, int* d_out, int n) {

threads = 128;

blocks = min((N/2 + threads-1) / threads, MAX_BLOCKS);

device_copy_vector2_kernel<<<blocks, threads>>>(d_in, d_out, N);

}

该内核只有几处更改。首先,循环现在仅执行N/ 2次,因为每次迭代处理两个元素。其次,在副本中使用上述技术。第三,处理所有可能N被2整除的剩余元素。最后,启动的线程数量是标量内核中数量的一半。

检查SASS,看到以下内容。

/ * 0088 * / IMAD R10.CC,R3,R5,c [0x0] [0x140]

/ * 0090 * / IMAD.HI.X R11,R3,R5,c [0x0] [0x144]

/ * 0098 * / IMAD R8.CC,R3,R5,c [0x0] [0x148]

/ * 00a0 * / LD.E.64 R6,[R10]

/ * 00a8 * / IMAD.HI.X R9,R3,R5,c [0x0] [0x14c]

/ * 00c8 * / ST.E.64 [R8],R6

编译器生成LD.E.64和ST.E.64。其他所有指令均相同。由于循环仅执行N / 2次,因此将执行一半的指令。在指令绑定或延迟绑定的内核中,指令数量的2倍改进非常重要。

还可以编写复制内核的vector4版本。

___global__ void device_copy_vector4_kernel(int* d_in, int* d_out, int N) {

int idx = blockIdx.x * blockDim.x + threadIdx.x;

for(int i = idx; i < N/4; i += blockDim.x * gridDim.x) {

reinterpret_cast<int4*>(d_out)[i] = reinterpret_cast<int4*>(d_in)[i];

}

// in only one thread, process final elements (if there are any)

int remainder = N%4;

if (idx==N/4 && remainder!=0) {

while(remainder) {

int idx = N - remainder--;

d_out[idx] = d_in[idx];

}

}

}

void device_copy_vector4(int* d_in, int* d_out, int N) {

int threads = 128;

int blocks = min((N/4 + threads-1) / threads, MAX_BLOCKS);

device_copy_vector4_kernel<<<blocks, threads>>>(d_in, d_out, N);

}

相应的SASS是:

/*0090*/                IMAD R10.CC, R3, R13, c[0x0][0x140]

/*0098*/                IMAD.HI.X R11, R3, R13, c[0x0][0x144]

/*00a0*/                IMAD R8.CC, R3, R13, c[0x0][0x148]

/*00a8*/                LD.E.128 R4, [R10]

/*00b0*/                IMAD.HI.X R9, R3, R13, c[0x0][0x14c]

/*00d0*/                ST.E.128 [R8], R4

在这里可以看到生成的LD.E.128和ST.E.128。此版本的代码将指令数减少了4倍。可以在图2中看到所有3个内核的整体性能。

图2:矢量化内核的复制带宽与复制大小的关系。

在几乎所有情况下,矢量化载荷都优于标量载荷。但是请注意,使用矢量化负载会增加寄存器压力并降低总体并行度。因此,如果的内核已经受到寄存器限制或并行度很低,则可能需要坚持标量加载。同样,如前所述,如果指针未对齐或以字节为单位的数据类型大小不是2的幂,则不能使用矢量化加载。

向量化加载是应该尽可能使用的基本CUDA优化,因为它们会增加带宽,减少指令数量并减少延迟。本文展示了如何通过较少的更改就可以轻松地将向量化负载合并到现有内核中。

CUDA Pro:通过向量化内存访问提高性能的更多相关文章

  1. 深度解读Facebook刚开源的beringei时序数据库——数据压缩delta of delta+充分利用内存以提高性能

    转自:https://yq.aliyun.com/topic/58?spm=5176.100239.blogcont69354.9.MLtp4T 摘要: Facebook最近开源了beringei时序 ...

  2. C# 7.2 通过 in 和 readonly struct 减少方法值复制提高性能

    在 C# 7.2 提供了一系列的方法用于方法参数传输的时候减少对结构体的复制从而可以高效使用内存同时提高性能 在开始阅读之前,希望读者对 C# 的值类型.引用类型有比较深刻的认知. 在 C# 中,如果 ...

  3. 2018-12-25-C#-7.2-通过-in-和-readonly-struct-减少方法值复制提高性能

    title author date CreateTime categories C# 7.2 通过 in 和 readonly struct 减少方法值复制提高性能 lindexi 2018-12-2 ...

  4. Integer 如何实现节约内存和提升性能的?

    在Java5中,为Integer的操作引入了一个新的特性,用来节省内存和提高性能.整型对象在内部实现中通过使用相同的对象引用实现了缓存和重用. 上面的规则默认适用于整数区间 -128 到 +127(这 ...

  5. 【CUDA 基础】5.4 合并的全局内存访问

    title: [CUDA 基础]5.4 合并的全局内存访问 categories: - CUDA - Freshman tags: - 合并 - 转置 toc: true date: 2018-06- ...

  6. 【CUDA 基础】4.3 内存访问模式

    title: [CUDA 基础]4.3 内存访问模式 categories: - CUDA - Freshman tags: - 内存访问模式 - 对齐 - 合并 - 缓存 - 结构体数组 - 数组结 ...

  7. php大型网站如何提高性能和并发访问

    一.大型网站性能提高策略: 大型网站,比如门户网站,在面对大量用户访问.高并发请求方面,基本的解决方案集中在这样几个环节:使用高性能的服务器.高性能的数据库.高效率的编程语言.还有高性能的Web容器. ...

  8. 【CUDA 基础】5.3 减少全局内存访问

    title: [CUDA 基础]5.3 减少全局内存访问 categories: - CUDA - Freshman tags: - 共享内存 - 归约 toc: true date: 2018-06 ...

  9. 利用Linux文件系统内存cache来提高性能

    https://www.linuxjournal.com/article/6345 利用Linux文件系统内存cache来提高性能 本地磁盘文件->socket发送,4步骤数据流向: hard ...

随机推荐

  1. reset 去掉margin和padding的 默认代码,其余根据自己的情况做调整

    body, dl, dd, h2, h3, h4, h5, h6, p, form{margin:0;} ol,li,ul{margin:0; padding:0;} h1{margin:10px 0 ...

  2. 【JDK8】Java8 LocalDate操作时间和日期的API

    时间项目中的涉及到的时间处理非常多,犹豫SimpleDateFormat的不安全性以及Calendar等类在计算时比较复杂, 往往我们都会使用工具类来封装较多的日期处理函数, 但是JDK8中新增了操作 ...

  3. hdu4862 费用流(不错)

    题意:       给你一个矩阵,你最多可以选择k条路线,k条路线的起点随意,每次行走的距离随意,但是只能往右或者下走,走过的点不能再走,而且每一步如果a->b,如果a和b的权值s相等那么就可以 ...

  4. 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)

    摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留 ...

  5. Android 面试必备 - 系统、App、Activity 启动过程“一锅端”

    Android 系统启动过程 从系统层看: linux 系统层 Android系统服务层 Zygote 从开机启动到Home Launcher: 启动bootloader (小程序:初始化硬件) 加载 ...

  6. TCP的握手和挥手

    三次握手 三次握手具体过程是什么? 客户端发送一个数据包 将SYN置成1,表示希望建立连接 这个包中的序列号是X 服务器收到客户端发来的数据包 通过SYN得知这是一个建立连接的请求 于是发送一个响应包 ...

  7. windows同时安装jdk7和jdk8

    windows同时安装jdk7和jdk8 我本地的情况是本地安装了jdk8,但是因为项目的需要,将tomcat9换成tomcat8,即jdk8换成jdk7(但是好像也可以不用换,因为 7 and la ...

  8. Python数模笔记-Sklearn(5)支持向量机

    支持向量机(Support vector machine, SVM)是一种二分类模型,是按有监督学习方式对数据进行二元分类的广义线性分类器. 支持向量机经常应用于模式识别问题,如人像识别.文本分类.手 ...

  9. EventSource的自定义实现

    前言: 前面两篇文章都介绍了.NET Core 性能诊断工具,其中诊断工具都用到了EventCounters来实时的收集服务器性能指标. 那么收集指标能否自己定义呢? 一.What's EventCo ...

  10. 列出系统上的存储库,状态是enabled [root@blog ~]# dnf repolist

    DNF 和 YUM 均是 rpm 软件包管理工具,但是 DFN 替代 YUM 的说法由来已久,因为 YUM 包管理工具有一些问题长期得不到解决. 这些问题包括性能低下.内存占用高以及依赖包解决方案不佳 ...