0_Simple__simpleMPI

MPI 的简单使用

▶ 源代码。主机根结点生成随机数组，发布副本到各结点（例子用孩子使用了一个结点），分别使用 GPU 求平方根并求和，然后根结点使用 MPI 回收各节点的计算结果，规约求和后除以数组大小（相当于球随机数组中所有元素的平方根的平均值）。

 // simpleMPI.h

 extern "C"

 {

     void initData(float *data, int dataSize);

     void computeGPU(float *hostData, int blockSize, int gridSize);

     float sum(float *data, int size);

     void my_abort(int err);

 }

 // simpleMPI.cu

 #include <iostream>

 #include <mpi.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "simpleMPI.h"

 using std::cout;

 using std::cerr;

 using std::endl;

 #define CUDA_CHECK(call)                                                    \

     if((call) != cudaSuccess)                                               \

     {                                                                       \

         cudaError_t err = cudaGetLastError();                               \

         cerr << "CUDA error calling \""#call"\", code is " << err << endl;  \

         my_abort(err);                                                      \

     }

 // GPU 计算平方根

 __global__ void simpleMPIKernel(float *input, float *output)

 {

     int tid = blockIdx.x * blockDim.x + threadIdx.x;

     output[tid] = sqrt(input[tid]);

 }

 // 初始化数组

 void initData(float *data, int dataSize)

 {

     for (int i = ; i < dataSize; i++)

         data[i] = (float)rand() / RAND_MAX;

 }

 // 使用 GPU 进行计算的函数

 void computeGPU(float *hostData, int blockSize, int gridSize)

 {

     int dataSize = blockSize * gridSize;

     float *deviceInputData = NULL;

     CUDA_CHECK(cudaMalloc((void **)&deviceInputData, dataSize * sizeof(float)));

     float *deviceOutputData = NULL;

     CUDA_CHECK(cudaMalloc((void **)&deviceOutputData, dataSize * sizeof(float)));

     CUDA_CHECK(cudaMemcpy(deviceInputData, hostData, dataSize * sizeof(float), cudaMemcpyHostToDevice));

     simpleMPIKernel<<<gridSize, blockSize>>>(deviceInputData, deviceOutputData);

     CUDA_CHECK(cudaMemcpy(hostData, deviceOutputData, dataSize *sizeof(float), cudaMemcpyDeviceToHost));

     CUDA_CHECK(cudaFree(deviceInputData));

     CUDA_CHECK(cudaFree(deviceOutputData));

 }

 // 简单的求和函数

 float sum(float *data, int size)

 {

     float accum = .f;

     for (int i = ; i < size; i++)

         accum += data[i];

     return accum;

 }

 // 中止函数

 void my_abort(int err)

 {

     cout << "Test FAILED\n";

     MPI_Abort(MPI_COMM_WORLD, err);

 }

 // simpleMPI.cpp

 #include <mpi.h>

 #include <iostream>

 #include "simpleMPI.h"

 using std::cout;

 using std::cerr;

 using std::endl;

 #define MPI_CHECK(call) if((call) != MPI_SUCCESS) { cerr << "MPI error calling \""#call"\"\n"; my_abort(-1); }

 int main(int argc, char *argv[])

 {

     int blockSize = ;

     int gridSize = ;

     int dataSizePerNode = gridSize * blockSize;

     // 初始化 MPI

     MPI_CHECK(MPI_Init(&argc, &argv));

     // 获取节点尺寸和编号

     int commSize, commRank;

     MPI_CHECK(MPI_Comm_size(MPI_COMM_WORLD, &commSize));

     MPI_CHECK(MPI_Comm_rank(MPI_COMM_WORLD, &commRank));

     // 根结点生成随机数组

     int dataSizeTotal = dataSizePerNode * commSize;

     float *dataRoot = NULL;

     if (commRank == )

     {

         cout << "Running on " << commSize << " nodes" << endl;

         dataRoot = new float[dataSizeTotal];

         initData(dataRoot, dataSizeTotal);

     }

     // 每个结点上申请数组用于接收根结点发来的数据

     float *dataNode = new float[dataSizePerNode];

     MPI_CHECK(MPI_Scatter(dataRoot, dataSizePerNode, MPI_FLOAT, dataNode, dataSizePerNode, MPI_FLOAT, , MPI_COMM_WORLD));

     // 清空根节点数据

     if (commRank == )

         delete [] dataRoot;

     // 每个结点调用 GPU 计算平方根，然后规约到一个值

     computeGPU(dataNode, blockSize, gridSize);

     float sumNode = sum(dataNode, dataSizePerNode);

     // 使用 MPI 接收每个结点的计算结果并进行规约

     float sumRoot;

     MPI_CHECK(MPI_Reduce(&sumNode, &sumRoot, , MPI_FLOAT, MPI_SUM, , MPI_COMM_WORLD));

     // 回收和输出工作

     delete[] dataNode;

     MPI_CHECK(MPI_Finalize());

     if (commRank == )

     {

         float average = sumRoot / dataSizeTotal;

         cout << "Average of square roots is: " << average << endl;

         cout << "PASSED\n";

     }

     getchar();

     return ;

 }

▶ 输出结果

Running on  nodes

Average of square roots is: 0.667507

PASSED

▶ 涨姿势

● 集中在 MPI 的几何函数的使用上，CUDA 部分没有新的认识。

0_Simple__simpleMPI的更多相关文章

随机推荐

BZOJ4916: 神犇和蒟蒻【杜教筛】
Description 很久很久以前,有一只神犇叫yzy; 很久很久之后,有一只蒟蒻叫lty; Input 请你读入一个整数N;1<=N<=1E9,A.B模1E9+7; Output 请你 ...
UVA 10815：Andy's First Dictionary（STL）
题意:给出一段英文,里面包含一些单词,空格和标点,单词不区分大小写,默认都为小写.按照字典序输出这些单词(这些单词不能有重复,字母全部变成小写) stringstream:包含在头文件#include ...
C++ 拷贝构造函数和赋值构造函数
转自:http://blog.chinaunix.net/uid-28662931-id-3496326.html 一.拷贝构造函数 int main(int argc, char * argv[]) ...
Mac无法上网
今天mac突然无法上网了, 家里的大部分设备, 都出现了重启后无法上网的问题, 猜测可能是dns有问题了. 于是乎, 在mac中添加了如下DNS 114.114.114.114 8.8.8.8 1.1 ...
LG1600 天天爱跑步
题意分析对一个(s,t)查询,令f=lca(s,t),则操作可化为(s,f),(f,t). 考虑观察到的情况,若x在s到t的路径上,且x观察到,则 \[ \textrm{dep}_s-\textr ...
测试开发系列之Python开发mock接口（一）
什么是mock接口呢,举个栗子,你在一家电商公司,有查看商品.购物.支付.发货.收获等等等一大堆功能,你是一个测试人员,测测测,测到支付功能的时候,你就要调用第三方支付接口了,真实支付,直接扣你支付 ...
bzoj 3277 串 && bzoj 3473 字符串 && bzoj 2780 [Spoj]8093 Sevenk Love Oimaster——广义后缀自动机
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=3277 https://www.lydsy.com/JudgeOnline/problem.p ...
使用nat123实现远程桌面
使用nat123实现动态IP或无公网IP时外网访问内网固定端口使用环境:window7 1.安装nat123软件, 下载地址为 http://www.nat123.com/Pages_2_32.js ...
【jmeter】jmeter之-聚合点
集合点:简单来理解一下,虽然我们的“性能测试”理解为“多用户并发测试”,但真正的并发是不存在的,为了更真实的实现并发这感念,我们可以在需要压力的地方设置集合点, 还拿那个用户和密码的地方,每到输入用户 ...
SQL Server-- 存储过程中错误处理
一.存储过程中使用事务的简单语法在存储过程中使用事务时非常重要的,使用数据可以保持数据的关联完整性,在Sql server存储过程中使用事务也很简单,用一个例子来说明它的语法格式: Create P ...

0_Simple__simpleMPI

0_Simple__simpleMPI的更多相关文章

随机推荐

热门专题