CUDA中的归约

CUDA编程实战书中的乘方和解决办法：

对一个数组执行某种计算，然后产生一个更小的结果数组。

由一个线程在共享内存上进行迭代并计算出总和值。而如果用并行，所花时间就与数组长度的对数成正比。

代码的思想是，每个线程将cache[]中的两个值加和，然后结果保存回cache[]。由于每个线程都将两个值合并为一个值，那么在完成这个步骤后，得到的结果数量就是计算开始时数值数量的一半。在下一个步骤中，我们对这一半数值执行相同的操作。在将这种操作执行log2(threadsPerBlock)个步骤后，就能得到cache[]中所有值的总和。对这里的示例来说，我们在每个线程块中使用了256个线程，因此需要8次迭代将cache[]中的256个值归约为一个值。

int i = blockDim.x/2;

while(i != 0)

{

　　if(cacheIndex < i)

　　　　cache[cacheIndex]+=cache[cacheIndex + i];

__syncthreads();

i /= 2;

}

取threadsPerBlock的一半作为i值，只有索引小于这个值的线程才会执行。只有当线程的索引小于i时，才可以把cache[]的两个数据项相加起来，因此我们将假发运算放在if(cacheIndex<i)的代码块中。执行加法运算的线程将cache[]中线程索引位置上的值和线程索引加上i得到的位置上的值相加，并将结果保存会cache[]中线程索引位置上。

CUDA中的归约的更多相关文章

CUDA中并行规约（Parallel Reduction）的优化
转自: http://hackecho.com/2013/04/cuda-parallel-reduction/ Parallel Reduction是NVIDIA-CUDA自带的例子,也几乎是所有C ...
cuda中时间用法
转载:http://blog.csdn.net/jdhanhua/article/details/4843653 在CUDA中统计运算时间,大致有三种方法: <1>使用cutil.h中的函 ...
OpenCV二维Mat数组（二级指针）在CUDA中的使用
CUDA用于并行计算非常方便,但是GPU与CPU之间的交互,比如传递参数等相对麻烦一些.在写CUDA核函数的时候形参往往会有很多个,动辄达到10-20个,如果能够在CPU中提前把数据组织好,比如使用二 ...
cuda中模板的使用
模板是C++的一个重要特征,它可以让我们简化代码,同时使代码更整洁.CUDA中也支持模板,这给我们编写cuda程序带来了方便.不过cuda4.0之前和之后使用模板的方法不一样,这给我们带来了少许困难. ...
cuda中的二分查找
使用背景通常,在做高性能计算时,我们需要随机的连接某些点.这些点都具有自己的度量值,显然,度量值越大的值随机到的概率就会越大.因此,采用加权值得方法: void getdegreeSum(DG *g ...
CUDA中多维数组以及多维纹理内存的使用
纹理存储器(texture memory)是一种只读存储器,由GPU用于纹理渲染的图形专用单元发展而来,因此也提供了一些特殊功能.纹理存储器中的数据位于显存,但可以通过纹理缓存加速读取.在纹理存储器中 ...
CUDA中确定你显卡的thread和block数
CUDA中确定你显卡的thread和block数在进行并行计算时, 你的显卡所支持创建的thread数与block数是有限制的, 因此, 需要自己提前确定够用, 再进行计算, 否则, 你需要改进你的 ...
CUDA中使用多维数组
今天想起一个问题,看到的绝大多数CUDA代码都是使用的一维数组,是否可以在CUDA中使用一维数组,这是一个问题,想了各种问题,各种被77的错误状态码和段错误折磨,最后发现有一个cudaMallocMa ...
CUDA中关于C++特性的限制
CUDA中关于C++特性的限制 CUDA官方文档中对C++语言的支持和限制,懒得每次看英文文档,自己尝试翻译一下(没有放lambda表达式的相关内容,太过于复杂,我选择不用).官方文档https:// ...

随机推荐

【iOS开发-30】UITabBarController的几种代理方法以及结合NSUserDefaults还原上次退出时被选中视图控制器和视图控制器的顺序
一.UITabBarController的几种代理方法在AppDelegate.h中加入一个协议<UITabBarControllerDelegate>.然后再AppDelegate.m ...
Android-Volley网络通信框架（自己定义Request 请求：实现 GsonRequest）
1.回想上篇学习了android 通过 volley 网络通信框架实现请求图片的三种方法! 2.重点 (1)复习和熟悉 StringRequest ,JsonObjectRequest 方法 ( ...
87.node.js操作mongoDB数据库示例分享
转自:https://www.cnblogs.com/mracale/p/5845148.html 连接数据库 var mongo=require("mongodb"); va ...
c:\Windows\System32\drivers\etc\hosts的作用
c:\Windows\System32\drivers\etc\hosts 是域名解析文件. 可以直接用记事本打开.将IP地址重定向. 格式为:ip地址-空格-域名可以将一个域名重新定向到一个IP ...
[JZOJ 5894] [NOIP2018模拟10.5] 同余方程解题报告（容斥）
题目链接: http://172.16.0.132/senior/#contest/show/2523/0 题目: 题解:(部分内容来自https://blog.csdn.net/gmh77/arti ...
linux进程控制函数详解
进程控制 fork函数创建一个子进程. pid_t fork(void); 失败返回-1:成功返回:① 父进程返回子进程的ID(非负) ②子进程返回 0 pid_t类型表示进程ID,但为了表示-1, ...
avalon 双工绑定以及一个按钮多个事件
<html xmlns="http://www.w3.org/1999/xhtml"><head runat="server"> ...
3ds Max制作厨房贴图和纹理实例
来源:CG游使用软件:3ds Max 软件下载:www.xy3dsmax.com/xiazai.html 大家好,欢迎大家来阅读这个教程.这个教程是讲解我前不久制作的一个场景效果图.因为场景已经制作 ...
关于注意力机制（《Attention is all you need》）
深度学习做NLP的方法,基本上都是先将句子分词,然后每个词转化为对应的词向量序列.(https://kexue.fm/archives/4765) 第一个思路是RNN层,递归进行,但是RNN无法很好地 ...
c++string类的简单介绍
#include "iostream" #include "string" using namespace std; /*@author:浅滩 *family: ...

CUDA中的归约

CUDA中的归约的更多相关文章

随机推荐

热门专题