0_Simple__MultiGPU

使用多台 GPU 进行计算

▶ 源代码。使用不同的流来控制不同 GPU 上的运算任务。

 #include <stdio.h>

 #include <timer.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <helper_cuda.h>

 #include "simpleMultiGPU.h"

 const int MAX_GPU_COUNT = ;

 const int DATA_N        =  * ;

 __global__ static void reduceKernel(float *d_Result, float *d_Input, int N)

 {

     const int tid = blockIdx.x * blockDim.x + threadIdx.x;

     const int threadN = gridDim.x * blockDim.x;

     float sum = ;

     for (int pos = tid; pos < N; pos += threadN)

         sum += d_Input[pos];

     d_Result[tid] = sum;

 }

 int main(int argc, char **argv)

 {

     printf("\n\tStart.\n");

     const int BLOCK_N = , THREAD_N = ;

     const int ACCUM_N = BLOCK_N * THREAD_N;

     int i, j, GPU_N;

     float sumGPU;

     TGPUplan plan[MAX_GPU_COUNT];

     cudaGetDeviceCount(&GPU_N);

     GPU_N = MIN(GPU_N, MAX_GPU_COUNT);

     printf("\n\tDevice count: %i\n", GPU_N);

     // 准备计算数据

     for (i = ; i < GPU_N; i++)

         plan[i].dataN = DATA_N / GPU_N;

     // 计算数据量与设备数量没有对齐的部分

     for (i = ; i < DATA_N % GPU_N; i++)

         plan[i].dataN++;

     // 申请内存，初始化 h_data

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaStreamCreate(&plan[i].stream);

         cudaMalloc((void **)&plan[i].d_data, plan[i].dataN * sizeof(float));

         cudaMalloc((void **)&plan[i].d_sum, ACCUM_N * sizeof(float));

         cudaMallocHost((void **)&plan[i].h_sum_from_device, ACCUM_N * sizeof(float));

         cudaMallocHost((void **)&plan[i].h_data, plan[i].dataN * sizeof(float));

         for (j = ; j < plan[i].dataN; j++)

             plan[i].h_data[j] = (float)rand() / (float)RAND_MAX;

     }

     StartTimer();// 计时

     // 调用各 GPU 进行计算，plan[i].d_data -> plan[i].d_sum -> plan[i].h_sum_from_device

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaMemcpyAsync(plan[i].d_data, plan[i].h_data, plan[i].dataN * sizeof(float), cudaMemcpyHostToDevice, plan[i].stream);

         reduceKernel<<<BLOCK_N, THREAD_N, , plan[i].stream>>>(plan[i].d_sum, plan[i].d_data, plan[i].dataN);

         cudaMemcpyAsync(plan[i].h_sum_from_device, plan[i].d_sum, ACCUM_N *sizeof(float), cudaMemcpyDeviceToHost, plan[i].stream);

     }

     // 处理 GPU 计算结果，plan[i].h_sum_from_device -> plan[i].h_sum -> sumGPU

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaStreamSynchronize(plan[i].stream);

         for (j = , plan[i].h_sum = 0.0f; j < ACCUM_N; j++)

             plan[i].h_sum += plan[i].h_sum_from_device[j];

     }

     for (i = , sumGPU = 0.0f; i < GPU_N; i++)// CPU 最后规约

         sumGPU += plan[i].h_sum;

     printf("\n\tGPU Processing time: %f (ms)\n", GetTimer());

     // 使用 CPU 计算，plan[i].h_data -> sumCPU

     double sumCPU = ;

     for (i = ; i < GPU_N; i++)

     {

         for (j = ; j < plan[i].dataN; j++)

             sumCPU += plan[i].h_data[j];

     }

     // 检查结果

     double diff = fabs(sumCPU - sumGPU) / fabs(sumCPU);

     printf("\n\tGPU sum: %f\n\tCPU sum: %f\n", sumGPU, sumCPU);

     printf("\n\tRelative difference: %E, %s\n", diff, (diff < 1e-) ? "Passed" : "Failed");

     //回收工作

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaFreeHost(plan[i].h_data);

         cudaFreeHost(plan[i].h_sum_from_device);

         cudaFree(plan[i].d_sum);

         cudaFree(plan[i].d_data);

         cudaStreamDestroy(plan[i].stream);

     }

     getchar();

     return ;

 }

▶ 输出结果

    Start.

    Device count: 

    GPU Processing time: 13.726471 (ms)

    GPU sum: 16779778.000000

    CPU sum: 16779776.312309

    Relative difference: 1.005789E-07, Passed

▶ 涨姿势

● 在使用不同的设备执行相关函数（包括 cudaFree 等主机函数）时要注意，使用函数 cudaSetDevice() 来切换设备。

0_Simple__MultiGPU的更多相关文章

随机推荐

Executor 框架
Java的线程既是工作单元,也是执行机制.从JDK5开始,把工作单元与执行机制分离开来.工作单元包括Runnable和Callable,而执行机制由Executor框架提供. Executor 框架简 ...
Python 操作Excel之通过xlutils实现在保留原格式的情况下追加写入数据
在Python操作Excel 的模块有 xlrd.xlwt.xlutils等. xlrd:读取Excel文件数据 xlwt:写入Excel 数据,缺点是Excel格式无法复用,为了方便用户,写入的话, ...
Hash表的平均查找长度ASL计算方法
Hash表的“查找成功的ASL”和“查找不成功的ASL” ASL指的是平均查找时间关键字序列:(7.8.30.11.18.9.14) 散列函数: H(Key) = (key x 3) MOD 7 ...
Microsoft - Find the K closest points to the origin in a 2D plane
Find the K closest points to the origin in a 2D plane, given an array containing N points. 用 max hea ...
转-java编译时error: illegal character '\ufeff' 的解决办法-https://blog.csdn.net/t518vs20s/article/details/80833061
原文链接:https://blog.csdn.net/shixing_11/article/details/6976900 最近开发人员通过SVN提交了xxx.java文件,因发布时该包有问题需要回退 ...
【转】Android开源项目（非组件）
原文网址:http://blog.csdn.net/feizhixuan46789/article/details/9252887 学习开发一个有效的途径就是借鉴成熟的案例作为学习的对象,下面为大家推 ...
oracle单表选择率（selectivity）——计算执行计划的基数
CBO优化器是基于对当前经过特定测试的数据集中预期的行比率估计来计算基数的.此处的行数之比是一个数值,称为选择率(selectivity).得到选择率之后,将其与输入行数进行简单相乘既可得到基数. 在 ...
UOJ 393 【NOI2018】归程——可持久化并查集
题目:http://uoj.ac/problem/393 题解:https://www.cnblogs.com/HocRiser/p/9368067.html 但过不了 UOJ 的 hack 数据.不 ...
bzoj 4025 二分图——线段树分治+LCT
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=4025 线段树分治,用 LCT 维护链的长度即可.不过很慢. 正常(更快)的方法应该是线段树分 ...
Microsoft Dynamics CRM 2011 中 SQL 语句总结
一.查询用户和团队插入的类型:OwnerIdType 可以为用户或团队: 1.团队: select top 1 ObjectTypeCode from metadataschema.entity w ...

0_Simple__MultiGPU

0_Simple__MultiGPU的更多相关文章

随机推荐

热门专题