OpenACC parallel

▶ 使用 kernels 导语并行化 for 循环

● 同一段代码，使用 kernels，parallel 和 parallel + loop 进行对比

 #include <stdio.h>

 #include <time.h>

 #include <openacc.h>

 const int row = ;

 int main()

 {

     int i, j, k, a[row], b[row], c[row];

     clock_t time;

     for (i = ; i < row; i++)

         a[i] = b[i] = i;

 #ifdef _OPENACC

     time = clock();

 #pragma acc kernels     // 使用 kernels 或 parallel 或 parallel + loop

 // #pragma acc parallel

 // #pragma acc loop

     for (i = ; i < row; i++)

         c[i] = a[i] + b[i];

     time = clock() - time;

     printf("\nTime with acc:%d ms\n", time);

 #else

     time = clock();

     for (i = ; i < row; i++)

         c[i] = a[i] + b[i];

     time = clock() - time;

     printf("\nTime without acc:%d ms\n", time);

 #endif

     getchar();

     return ;

 }

● 输出结果

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_kernels.exe       // kernels

main:

     , Generating implicit copyin(b[:row])

         Generating implicit copyout(c[:row])

         Generating implicit copyin(a[:row])

     , Loop is parallelizable

         Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang, vector(128) /* blockIdx.x threadIdx.x */

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_parallel.exe      // parallel

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyout(c[:row])

         Generating implicit copyin(b[:row],a[:row])

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_parallel_loop.exe // parallel + loop

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang, vector(128) /* blockIdx.x threadIdx.x */

     , Generating implicit copyout(c[:row])

         Generating implicit copyin(b[:row],a[:row])

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_kernels.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=    // 多个 gang，自动配置，线程网格全都是一维的

Time with acc: ms

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_parallel.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=        // 一个 gang，gang冗余模式

Time with acc: ms

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_parallel_loop.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=    // 多个 gang，gang分裂模式

Time with acc: ms

● 二重循环，考虑是否在内层循环中使用 loop 导语

 #include <stdio.h>

 #include <time.h>

 #include <openacc.h>

 const int row = , col = ;

 int main()

 {

     int i, j, k, a[row][col], b[row][col], c[row][col];

     clock_t time;

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

             a[i][j] = b[i][j] = i + j;

     }

 #ifdef _OPENACC

     time = clock();

 #pragma acc parallel

 #pragma acc loop

     for (i = ; i < row; i++)

     {

 // #pragma acc loop

         for (j = ; j < col; j++)

             c[i][j] = a[i][j] + b[i][j];

     }

     time = clock() - time;

     printf("\nTime with acc:%d ms\n", time);

 #else

     time = clock();

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

             c[i][j] = a[i][j] + b[i][j];

     }

     time = clock() - time;

     printf("\nTime without acc:%d ms\n", time);

 #endif

     getchar();

     return ;

 }

● 输出结果

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_loop1.exe // 仅使用外层 loop

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang /* blockIdx.x */

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyin(a[:row][:col])

         Generating implicit copyout(c[:row][:col])

         Generating implicit copyin(b[:row][:col])

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_loop2.exe // 内外都使用 loop，优化结果完全相同

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang /* blockIdx.x */

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyin(a[:row][:col])

         Generating implicit copyout(c[:row][:col])

         Generating implicit copyin(b[:row][:col])

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_loop1.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=

Time with acc: ms

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_loop2.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=  // 优化结果完全相同

Time with acc: ms

● 三重循环，无论仅使用外循环 loop、外中循环 loop，还是外中内循环 loop，获得的编译和运行结果都是相同的，只放上来一个进行讨论

 #include <stdio.h>

 #include <time.h>

 #include <openacc.h>

 const int row = , col = , page = ;

 int main()

 {

     int i, j, k, a[row][col][page], b[row][col][page], c[row][col][page];

     clock_t time;

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

         {

             for (k = ; k < page; k++)

                 a[i][j][k] = b[i][j][k] = i + j + k;

         }

     }

 #ifdef _OPENACC

     time = clock();

 #pragma acc parallel

 #pragma acc loop

     for (i = ; i < row; i++)

     {

 //#pragma acc loop

         for (j = ; j < col; j++)

         {

 //#pragma acc loop

             for (k = ; k<page; k++)

                 c[i][j][k] = a[i][j][k] + b[i][j][k];

         }

     }

     time = clock() - time;

     printf("\nTime with acc:%d ms\n", time);

 #else

     time = clock();

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

         {

             for (k = ; k<page; k++)

                 c[i][j][k] = a[i][j][k] + b[i][j][k];

         }

     }

     time = clock() - time;

     printf("\nTime without acc:%d ms\n", time);

 #endif

     getchar();

     return ;

 }

● 输出结果

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_loop.exe

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang /* blockIdx.x */ // 并行化了外层循环和内层循环，但是用中间层使用的是串行

         , #pragma acc loop seq

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyout(c[:row][:col][:page])

         Generating implicit copyin(b[:row][:col][:page],a[:row][:col][:page])

     , Loop is parallelizable

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_loop1.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=

Time with acc: ms

OpenACC parallel的更多相关文章

7.OpenACC
OpenACC: openacc 可以用于fortran, c 和 c++程序,可以运行在CPU或者GPU设备. openacc的代码就是在原有的C语言基础上进行修改,通过添加:compiler di ...
OpenACC 云水参数化方案
▶ 书上第十三章,用一系列步骤优化一个云水参数化方案.用于熟悉 Fortran 以及 OpenACC 在旗下的表现 ● 代码,文件较多,放在一起了 ! main.f90 PROGRAM main US ...
OpenACC 绘制曼德勃罗集
▶ 书上第四章,用一系列步骤优化曼德勃罗集的计算过程. ● 代码 // constants.h ; ; ; ; const double xmin=-1.7; ; const double ymin= ...
OpenACC 优化矩阵乘法
▶ 按书上的步骤使用不同的导语优化矩阵乘法 ● 所有的代码 #include <iostream> #include <cstdlib> #include <chrono ...
OpenACC 简单的原子操作
▶ OpenACC 的原子操作,用到了 C++ 的一个高精度计时器 ● 代码,直接的原子操作 #include <iostream> #include <cstdlib> #i ...
OpenACC Julia 图形
▶ 书上的代码,逐步优化绘制 Julia 图形的代码 ● 无并行优化(手动优化了变量等) #include <stdio.h> #include <stdlib.h> #inc ...
OpenACC 异步计算
▶ 按照书上的例子,使用 async 导语实现主机与设备端的异步计算 ● 代码,非异步的代码只要将其中的 async 以及第 29 行删除即可 #include <stdio.h> #in ...
OpenACC 计算圆周率（简单版）
▶ 书上的计算圆周率的简单程序,主要是使用了自定义函数 #include <stdio.h> #include <stdlib.h> #include <math.h&g ...
OpenACC 计算构建内的自定义函数
▶ 使用 routine 构件创建的自定义函数,在并行调用上的差别 ● 代码,自定义一个 sqab 函数,使用内建函数 fabsf 和 sqrtf 计算一个矩阵所有元素绝对值的平方根 #include ...

随机推荐

centos下安装必要组件(相当于apt-get install install build-essential)
在centos下执行 : sudo yum groupinstall 'Development Tools'
《DSP using MATLAB》Problem 4.5
1. 2. 3. 5.不会
Restrictions用法
HQL运算符 QBC运算符含义 = Restrictions.eq() 等于equal <> Restrictions.ne() 不等于not equal > Restrict ...
$.grep()的用法
grep()方法用于数组元素过滤筛选 grep(array,callback,invert) array:待过滤数组; callback:处理数组中的每个元素,并过滤元素,该函数中包含两个参数,第一个 ...
南阳oj-ASCII码排序-用了一个晚上
#include <iostream> #include <sstream> #include <stdio.h> #include <string> ...
(研) int(*p)[10]; int *p[10]; int(*)[10]; 之间的区别
int *p[10]; 从这个最简单的说起 p先与后面的[4]结合,说明他本质是一个数组 ,“[]”的优先级比“*”要高.p先与“[]”结合,构成一个数组的定义,数组名为p,int *修饰的是数组的内 ...
MySQL Disk--磁盘相关参数
/sys/block/sda/queue/nr_requests 磁盘队列长度.默认只有 128 个队列,可以提高到 512 个.会更加占用内存,但能更加多的合并读写操作,速度变慢,但能读写更加多的量 ...
SocketIOCP
项目地址 : https://github.com/kelin-xycs/SocketIOCP SocketIOCP 一个用 C# Socket 实现的 IOCP 这是一个用 C# Socke ...
Java使用Unsafe接口操作数组Demo
public class unSafeArrayDemo { private static final sun.misc.Unsafe UNSAFE; private static final lon ...
es6比es5节省代码的地方总结
对象方法简写: es5写法: var obj = { name: 'jeff', getName: function () { return this.name; } } es6写法(方法定义里,少写 ...

OpenACC parallel

OpenACC parallel的更多相关文章

随机推荐

热门专题