1. 使用 Thrust

Thrust 是一个开源的 C++ 库,用于开发高性能并行应用程序,以 C++ 标准模板库为蓝本实现。

官方文档见这里:CUDA Thrust

/* ... */

float *fMatrix_Device; // 指向设备显存

int iMatrixSize = iRow * iCol; // 矩阵元素个数

cudaMalloc((void**)&fMatrix_Device, iMatrixSize * sizeof(float)); // 在显存中为矩阵开辟空间

cudaMemcpy(fMatrix_Device, fMatrix_Host, iMatrixSize * sizeof(float), cudaMemcpyHostToDevice); // 将数据拷贝到显存

thrust::device_ptr<float> dev_ptr(fMatrix_Device);

float thrustResult = thrust::reduce(dev_ptr, dev_ptr + size_t(iMatrixSize), (float)0, thrust::plus<float>());

其中,fMatrix_Host 为指向主机内存的矩阵的头指针。

2. 我的 Reduction

/**

* 每个 warp 自动同步,不用 __syncthreads();

* volatile : 加上关键字volatile的变量将被定义为敏感变量,意思是加了volatile

*            的变量在内存中的值可能会随时发生变化,当程序要去读取这个变量时,

             必须要从内存中读取,而不是从缓存中读取

* sdata  数组头指针,数组位于共享内存

* tid    线程索引

*/

__device__ void warpReduce(volatile float *sdata, int tid)

{

    sdata[tid] += sdata[tid + 32];

    sdata[tid] += sdata[tid + 16];

    sdata[tid] += sdata[tid + 8];

    sdata[tid] += sdata[tid + 4];

    sdata[tid] += sdata[tid + 2];

    sdata[tid] += sdata[tid + 1];

}

/**

* 优化:解决了 reduce3 中存在的多余同步操作(每个warp默认自动同步)。

* globalInputData  输入数据,位于全局内存

* globalOutputData 输出数据,位于全局内存

*/

__global__ void reduce4(float *globalInputData, float *globalOutputData, unsigned int n)

{

    __shared__ float sdata[BLOCK_SIZE];

    // 坐标索引

    unsigned int tid = threadIdx.x;

    unsigned int index = blockIdx.x*(blockDim.x * 2) + threadIdx.x;

    unsigned int indexWithOffset = index + blockDim.x;

    if (index >= n) sdata[tid] = 0;

    else if (indexWithOffset >= n) sdata[tid] = globalInputData[index];

    else sdata[tid] = globalInputData[index] + globalInputData[indexWithOffset];

    __syncthreads();

    // 在共享内存中对每一个块进行规约计算

    for (unsigned int s = blockDim.x / 2; s>32; s >>= 1)

    {

        if (tid < s) sdata[tid] += sdata[tid + s];

        __syncthreads();

    }

    if (tid < 32) warpReduce(sdata, tid);

    // 把计算结果从共享内存写回全局内存

    if (tid == 0) globalOutputData[blockIdx.x] = sdata[0];

}

/**

* 计算 reduce4 函数的时间

* fMatrix_Host  矩阵头指针

* iRow          矩阵行数

* iCol          矩阵列数

* @return       和

*/

float RuntimeOfReduce4(float *fMatrix_Host, const int iRow, const int iCol)

{

    float *fReuslt = (float*)malloc(sizeof(float));;

    float *fMatrix_Device; // 指向设备显存

    int iMatrixSize = iRow * iCol; // 矩阵元素个数

    cudaMalloc((void**)&fMatrix_Device, iMatrixSize * sizeof(float)); // 在显存中为矩阵开辟空间

    cudaMemcpy(fMatrix_Device, fMatrix_Host, iMatrixSize * sizeof(float), cudaMemcpyHostToDevice); // 将数据拷贝到显存

    /* ... */

    for (int i = 1, int iNum = iMatrixSize; i < iMatrixSize; i = 2 * i * BLOCK_SIZE)

    {

        int iBlockNum = (iNum + (2 * BLOCK_SIZE) - 1) / (2 * BLOCK_SIZE);

        reduce4<<<iBlockNum, BLOCK_SIZE>>>(fMatrix_Device, fMatrix_Device, iNum);

        iNum = iBlockNum;

    }

    cudaMemcpy(fReuslt, fMatrix_Device, sizeof(float), cudaMemcpyDeviceToHost); // 将数据拷贝到内存

    /* ... */

    cudaFree(fMatrix_Device);// 释放显存空间

    return fReuslt[0];

}

上述程序是优化的最终版本,优化的主要内容包括:

1. 避免每个 Warp 中出现分支导致效率低下。 

2. 减少取余操作。 

3. 减小不必要的同步操作,每个warp都是默认同步的,不用额外的同步操作。 

4. 减小线程的闲置,提高并行度

3. 时间对比

数据的大小为:

iRow = 1000; 

iCol = 1000;

时间为:

ReduceThrust 的运行时间为:0.179968ms.

494497

Reduce0 的运行时间为:0.229152ms.

494497

Reduce1 的运行时间为:0.134816ms.

494497

Reduce2 的运行时间为:0.117504ms.

494497

Reduce3 的运行时间为:0.086016ms.

494497

Reduce4 的运行时间为:0.07424ms.

494497

CPU的运行时间为:1 ms.

494497

数据的大小为:

iRow = 2000; 

iCol = 2000;

时间为:

ReduceThrust 的运行时间为:0.282944ms.

1.97828e+006

Reduce0 的运行时间为:0.779776ms.

1.97828e+006

Reduce1 的运行时间为:0.42624ms.

1.97828e+006

Reduce2 的运行时间为:0.343744ms.

1.97828e+006

Reduce3 的运行时间为:0.217248ms.

1.97828e+006

Reduce4 的运行时间为:0.160416ms.

1.97828e+006

CPU的运行时间为:3 ms.

1.97828e+006

数据的大小为:

iRow = 4000; 

iCol = 4000;

时间为:

ReduceThrust 的运行时间为:0.536832ms.

7.91319e+006

Reduce0 的运行时间为:2.9919ms.

7.91319e+006

Reduce1 的运行时间为:1.56054ms.

7.91319e+006

Reduce2 的运行时间为:1.26618ms.

7.91319e+006

Reduce3 的运行时间为:0.726016ms.

7.91319e+006

Reduce4 的运行时间为:0.531712ms.

7.91319e+006

CPU的运行时间为:11 ms.

7.91319e+006

数据的大小为:

iRow = 6000; 

iCol = 6000;

时间为:

ReduceThrust 的运行时间为:0.988992ms.

1.7807e+007

Reduce4 的运行时间为:1.09286ms.

1.7807e+007

CPU的运行时间为:25 ms.

1.7807e+007

数据的大小为:

iRow = 11000; 

iCol = 11000;

时间为:

ReduceThrust 的运行时间为:2.9208ms.

5.98583e+007

Reduce4 的运行时间为:3.36998ms.

5.98583e+007

CPU的运行时间为:85 ms.

5.98583e+007

从上可以看出,2 中介绍的几种优化方式取得了良好的效果;另外,当数据量较少时,我自己优化的规约函数比 Thrust 中的规约更高效,但是当数据量大于 4000 * 4000 时,Thrust 更高效,因此还有优化的空间。

4. 完整代码

GitHub

【CUDA开发】 CUDA Thrust 规约求和的更多相关文章

  1. CUDA开发 - CUDA 版本

    "CUDA runtime is insufficient with CUDA driver"CUDA 9.2: 396.xx CUDA 9.1: 387.xx CUDA 9.0: ...

  2. 【CUDA开发】Thrust库

    Thrust库从C++的STL中得到灵感,将最简单的类似于STL的结构放在Thrust库中,比如STL中的vector.此外,Thrust库还包含STL中的算法和迭代器.        Thrust函 ...

  3. Windows平台CUDA开发之前的准备工作

    CUDA是NVIDIA的GPU开发工具,眼下在大规模并行计算领域有着广泛应用. windows平台上面的CUDA开发之前.最好去NVIDIA官网查看说明,然后下载对应的driver. ToolKits ...

  4. 【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三

    JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...

  5. 【CUDA开发】CUDA面内存拷贝用法总结

    [CUDA开发]CUDA面内存拷贝用法总结 标签(空格分隔): [CUDA开发] 主要是在调试CUDA硬解码并用D3D9或者D3D11显示的时候遇到了一些代码,如下所示: CUdeviceptr g_ ...

  6. 【CUDA开发】CUDA编程接口(一)------一十八般武器

    子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...

  7. 【神经网络与深度学习】【CUDA开发】caffe-windows win32下的编译尝试

    [神经网络与深度学习][CUDA开发]caffe-windows win32下的编译尝试 标签:[神经网络与深度学习] [CUDA开发] 主要是在开发Qt的应用程序时,需要的是有一个使用的库文件也只是 ...

  8. 【神经网络与深度学习】【CUDA开发】【VS开发】Caffe+VS2013+CUDA7.5+cuDNN配置过程说明

    [神经网络与深度学习][CUDA开发][VS开发]Caffe+VS2013+CUDA7.5+cuDNN配置过程说明 标签:[Qt开发] 说明:这个工具在Windows上的配置真的是让我纠结万分,大部分 ...

  9. 【视频开发】【CUDA开发】ffmpeg Nvidia硬件加速总结

    原文链接:https://developer.nvidia.com/ffmpeg GPU-accelerated video processing integrated into the most p ...

随机推荐

  1. 在项目中使用Swagger接口说明

    该链接写的内容非常详细: https://blog.csdn.net/xudant/article/details/82856555

  2. oracle rowtype

    v_customer customerinfo%rowtype; select * into v_customer from customerinfo where guid = v_loan.cust ...

  3. 从Ubuntu 18.04 LTS升级到Ubuntu 18.10版本的方法

    从Ubuntu 18.04 LTS升级到Ubuntu 18.10版本的方法 2018-10-18 21:08:39作者:ywnz稿源:云网牛站 本文提供从Ubuntu 18.04 LTS(Bionic ...

  4. js的三种异步处理

    js的三种异步处理   Promise 对象 含义: Promise是异步编程的一种解决方案, 优点: 相比传统回调函数和事件更加合理和优雅,Promise是链式编程(后面会详细讲述),有效的解决了令 ...

  5. CF1146F Leaf Partition 树形DP

    感觉很多树上难以直接求解的问题都可以转化为动态规划问题并进行求解$.$ 令 $f[x],g[x]$ 分别表示以 $x$ 为根的子树不想上延申,向上延申的方案数$.$ 这里向上延申指的是会有其他子树的节 ...

  6. 圆桌游戏(区间DP)

    2.圆桌游戏 (game.cpp/c/pas) [问题描述] 有一种圆桌游戏是这样进行的:n个人围着圆桌坐成一圈,按顺时针顺序依次标号为1号至n号.对1<=i<=n的i来说,i号的左边是i ...

  7. win7安装Elasticsearch和Elasticsearch-Head插件

    1.环境搭建 1)Java环境搭建可以参考相关的资料,这里不做详细介绍 2)nodejs环境搭建 到官方网站下载相应的zip包:https://nodejs.org/dist/v8.9.1/node- ...

  8. linux开启数据库远程连接

    1.阿里云开启数据库端口 3306 2. 修改 Mysql-Server 用户配置 mysql -uroot -p(注意此用户必须要有最高级权限才行 默认root用户) mysql> USE m ...

  9. IDEA怎么开启终端Terminal

    方法一:在IDEA中点击view→tool window→Terminal即可开启 方法二:按住ALT+F12(如果是笔记本按不出来的话再加个Fn键)

  10. 石川es6课程---12、Promise

    石川es6课程---12.Promise 一.总结 一句话总结: 用同步的方式来书写异步代码,让异步书写变的特别简单 用同步的方式来书写异步代码Promise 让异步操作写起来,像在写同步操作的流程, ...