GPU并行编程：内核及函数的实现

原文链接

　　回想一下我们之前在设备上使用“kernelFunction<<<1,1>>>(..)”执行一个函数的代码，我在那里还曾说过后面会细说，本文就详细介绍一下参数N1，<<>>，这里就是并行魔法发生地。

　　N1是我们想并行运行的块数，如果我们调用“kernelFunction<<<5,1>>>(..)”，这个函数将分成5个副本并行运行，每个副本称为一个块。

　　接下来我们必须要做的事情是，使用一个索引让每个副本为解决方案的不同部分工作，如果所有线程做完全一样的事情，就没有必要并行计算了，幸运的是，CUDA内置了一个变量blockIdx可以用来跟踪每个块的运行。

　　blockIdx是一个2D变量，包含x和y，你可以使用x或同时使用x和y，这取决于我们要解决什么问题，一个简单的例子是同时使用x和y处理2D图像，为x和y轴上的每个像素产生一个线程，你也可以只使用x，这里没有什么指导原则。

　　现在，我们通过检查blockIdx.x知道线程运行的id，并且知道如何并行运行内核，让我们创建一个简单的例子吧。

　　在这个例子中，我们将创建一个应用程序，完全以并行内核生成一个数组，这个数组将包含每个运行的线程的threadID，当线程结束后，我们使用printf将结果打印出来。

　　实现内核

　　我们从查看内核代码开始：

__global__ void generateArray( int *hostArray )

{

    int ThreadIndex = blockIdx.x;

    hostArray[ThreadIndex] = ThreadIndex;

}

　　首先，我们按BLOCKS大小创建一个数组，在设备上未数组分配空间，并调用：

generateArray<<<BLOCKS,>>>( deviceArray );.

　　这个函数将在BLOCKS并行内核中运行，在一个调用中创建好全部数组。

　　这个操作完成后，我们将结果从设备拷贝到主机，并将它打印在屏幕上，释放数组，最后退出。

　　整个应用程序的源代码如下：

 #include <stdio.h>

 #define BLOCKS 25

 __global__ void generateArray( int *hostArray )

 {

 int ThreadIndex = blockIdx.x;

 hostArray[ThreadIndex] = ThreadIndex;

 }

 int main( void )

 {

 int hostArray[BLOCKS];

 int *deviceArray;

 cudaMalloc( (void**)&deviceArray, BLOCKS * sizeof(int) );

 cudaMemcpy( deviceArray,

 hostArray, BLOCKS * sizeof(int),

 cudaMemcpyHostToDevice );

 generateArray<<<BLOCKS,>>>( deviceArray );

 cudaMemcpy( hostArray,

 deviceArray,

 BLOCKS * sizeof(int),

 cudaMemcpyDeviceToHost );

 for (int i=; i<BLOCKS; i++)

 {

 printf( “Thread ID running: %d\n”, hostArray[i] );

 }

 cudaFree( deviceArray );

 return ;

 }

　　现在编译并运行这段代码，你将会看到像下面这样的输出：

程序运行输出结果

　　恭喜，你已经使用CUDA成功创建了你的第一个并行应用程序!

GPU并行编程：内核及函数的实现的更多相关文章

五浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
三 GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别?本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流, ...
第三篇：GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别? 本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流 ...
第五篇：浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
四 GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
第四篇：GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
GPU并行编程小结
http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...
六 GPU 并行优化的几种典型策略
前言如何对现有的程序进行并行优化,是 GPU 并行编程技术最为关注的实际问题.本文将提供几种优化的思路,为程序并行优化指明道路方向. 优化前准备首先,要明确优化的目标 - 是要将程序提速 2 倍? ...

随机推荐

Jenkins+Jmeter+Ant自动化持续集成环境搭建
[前言] 今天让我们先把准备工作做好 >> 搭建环境! [正文] JDK+Jmeter安装教程: 参考博客:https://www.cnblogs.com/baoziluo/p/79056 ...
iOS端实现节日换肤
本文是我在网上看到一篇不错的文章,因为之前没接触过,所以特意转过来,和大家一起分享下..以下正文: 一.问题的提出不知道大家有没有发现, 元旦期间, 很多APP界面里的图标都换成了具有节日气氛的样式 ...
thinkphp5缓存使用
之前不明白缓存有什么用处,后来看了一些案例大概有点了解,记录一下.1.thinkphp5没有静态缓存2.对于一些更新不是太频繁的数据,我们可以使用缓存机制对查询到的数据进行缓存,减缓数据库压力3.下面 ...
CentOS下ganglia监控部署
第一步:CentOS环境准备 1.yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel ...
Error: npm WARN deprecated minimatch@2.0.10: Please update to minimatch 3.0.2 or higher to avoid a RegExp DoS issue
执行npm install 时,提示警告信息: Error: npm WARN deprecated minimatch@2.0.10: Please update to minimatch 3.0. ...
MD5Utils
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; import com.yundae ...
读取properties和xml中配置文件的值
五种方式让你在java中读取properties文件内容不再是难题在java中读取properties和xml文件中的方法:https://www.cnblogs.com/ConfidentLiu/ ...
Spring Boot 整合 Hibernate5
Run java -jar -Dspring.profiles.active=dev sport.web.services.jar Maven <parent> <groupId&g ...
【WEB基础】HTML & CSS 基础入门（9）CSS盒子
网页上的元素辣么多,我该用什么办法让它们排列整齐.间距合理呢.常干家务的朋友们就容易理解了,用收纳盒呀! 所以用CSS做网页布局就涉及一个盒子的概念,简单理解,我们可以把页面上的所有HTML元素看作一 ...
form中onsubmit的使用
form 中的onsubmit在点submit按钮时被触发,如果return false;则结果不会被提交到action中去(也就是提交动作不会发生),如果不返回或者返回true,则执行提交动作.(& ...

GPU并行编程：内核及函数的实现

GPU并行编程：内核及函数的实现的更多相关文章

随机推荐

热门专题