1. Reduction

Reduction是一种广泛使用的计算模型，特别是在并行计算领域。简单地来说，Reduction就是一系列的划分（Partition）和汇总（Summarize）操作的集合：对输入数据分块，对每一个分块汇总，然后再将汇总后的数据视为新的输入数据，重复分块和汇总，直到得到最终结果，可以想象为一个倒置的树。Google和Hadoop的Map/Reduce中的Reduce计算就是一个很好的例子。

Reduction模型满足联合性和交换性：联合性：(a + b) + c = a + (b + c)，交换性：a + b = b + c。换言之，Reduction模型对输入数据的顺序没有特定的要求。模型满足这两个性质，则里面的算符也必须满足这两个性质。常见的Reduction算符，也可以说是Reduction操作，包括了Max，Min，Sum，Product等，用户也可以自定义算符，但一定要注意，自定义的算符首先需要满足上述两个性质，其次需要定义单位值（Identity Value）。单位值是指一种特殊的值，它的存在对计算结果没有影响，比如，对Sum计算，0就是单位值。单位值常常被用来填充数据，使得数据长度为2的幂方值或某一特定值的整数倍。

一个Max算符的Reduction树如下图所示：

2. Reduction树的性能考虑

这里以一个求向量元素之和的计算任务为例来说明如何提高Reduction模型的性能。

向量求和可以如下图表示：

显而易见，这个过程包含了O(llogN)步，一共有O(N)的算符操作，每一步都会让活动的线程数减半。

现在来考虑性能。假设一个Warp大小为2个Thread（仅仅是假设，大多数情况下Warp大小为32T），那么一共需要2个Warp。在STEP1时，所有的4个Thread都处于活动状态，而到了STEP2，就只有T0和T2处于活动状态。但是，前面有提到过，Warp是调度的最小单位，所以，只要在Warp中有任何的活动线程，整个Warp就处于活动状态，其中的非活动状态的线程仍然会占用计算资源。因此，在STEP2时，尽管只有2个活动线程，但是仍然会占用4个线程的计算开销。

通过改变Reduction树计算方式可以解决这个问题。注意到上面的计算中，随着计算步骤增加，待计算的两个数据之间的距离是增加的。比如STEP1中3+1=4，3和1间距离为1，而STEP2中4+7=11，4和7间的距离为2。活动线程间的距离是数据距离的2倍，在它们之间是非活动线程。这样在计算中间过程中总有活动线程被非活动线程所分隔，就总会有多余1个的Warp同时包含了活动和非活动线程。

现在将上面的计算步骤反过来，先从距离为4的数据开始计算，即STEP1中T0会计算3+4=7而不是3+1=4。可以验证，这样的计算步骤所有的活动线程都集中在前部，所有的非活动线程都在后部。因此，至多只会有1个Warp同时包含了活动和非活动线程。

从上述例子可以看出，尽管Reduction模型对数据顺序没有要求，不同的计算顺序对性能是有影响的。

3. 代码示例

// just the kernel function

void sumOfVec(float *input) {

    // take advantage of shared memory to speed up calculation

    // each thread take 2 elements from input to shared memory

    __shared__ float partialSum[ * BLOCK_SIZE]

    int t = threadIdx.x;

    int start =  * blockIdx.x * blockDim.x;

    partialSum[t] = input[start + t];

    partialSum[t + blockDim.x] = input[start + t + blockDim.x];

    // reduction begin

    for (int i = blockDim.x; i > ; i /= ) {

        __syncthreads();

        if (t < i) {

            partialSum[t] = partialSum[t + i];

        }

    }

}

4.1Reduction模型的更多相关文章

CUDA 进阶学习
CUDA基本概念 CUDA网格限制 1.2CPU和GPU的设计区别 2.1CUDA-Thread 2.2CUDA-Memory(存储)和bank-conflict 2.3CUDA矩阵乘法 3.1 全局 ...
ASP.NET MVC with Entity Framework and CSS一书翻译系列文章之第二章：利用模型类创建视图、控制器和数据库
在这一章中,我们将直接进入项目,并且为产品和分类添加一些基本的模型类.我们将在Entity Framework的代码优先模式下,利用这些模型类创建一个数据库.我们还将学习如何在代码中创建数据库上下文类 ...
ASP.NET Core MVC/WebAPi 模型绑定探索
前言相信一直关注我的园友都知道,我写的博文都没有特别枯燥理论性的东西,主要是当每开启一门新的技术之旅时,刚开始就直接去看底层实现原理,第一会感觉索然无味,第二也不明白到底为何要这样做,所以只有当你用 ...
ASP.NET路由模型解析
大家好,我又来吹牛逼了 ~-＿-~ 转载请注明出处:来自吹牛逼之<ASP.NET路由模型解析> 背景:很多人知道Asp.Net中路由怎么用的,却不知道路由模型内部的运行原理,今天我就给大家 ...
高性能IO模型浅析
高性能IO模型浅析服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型. (2)同步非阻塞IO(Non-blocking ...
探索ASP.NET MVC5系列之~~~4.模型篇---包含模型常用特性和过度提交防御
其实任何资料里面的任何知识点都无所谓,都是不重要的,重要的是学习方法,自行摸索的过程(不妥之处欢迎指正) 汇总:http://www.cnblogs.com/dunitian/p/4822808.ht ...
隐马尔科夫模型python实现简单拼音输入法
在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此 ...
webapi - 模型验证
本次要和大家分享的是webapi的模型验证,讲解的内容可能不单单是做验证,但都是围绕模型来说明的:首先来吐槽下,今天下午老板为自己买了套新办公家具,看起来挺好说明老板有钱,不好的是我们干技术的又成了搬 ...
谈谈一些有趣的CSS题目（二）-- 从条纹边框的实现谈盒子模型
开本系列,讨论一些有趣的 CSS 题目,抛开实用性而言,一些题目为了拓宽一下解决问题的思路,此外,涉及一些容易忽视的 CSS 细节. 解题不考虑兼容性,题目天马行空,想到什么说什么,如果解题中有你感觉 ...

随机推荐

uva 11039
水题排序判符号 #include <cstdio> #include <cstring> #include <algorithm> using namespa ...
adt安装慢解决
原地址:http://yuanzhifei89.iteye.com/blog/1884398 安装adt的时候不管时在线安装还是下载下来了离线安装,都不见安装进度条动,只要把一个选项勾掉立马就让进度条 ...
http://www.linuxidc.com/Linux/2007-09/7399.htm
http://www.linuxidc.com/Linux/2007-09/7399.htm
N-Queens leetcode java
题目: The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two que ...
Delphi函数翻译成VC要注意句柄指针传递（传递Handle的时候，必须加上一个指针引用，才能消除编译错误）
Delphi里做了魔法变化,每个变量名称本身就是指针,因为不怎么需要指针语法.我也不知道是不是因为这个原因引起的Delphi与VC对句柄的不同处理. 这是Delphi的强行关机函数,好用,调用方式:W ...
Ado.Net小练习02(小项目CUID
前台界面: 后台代码: namespace ado.net小项目cuid { public partial class Form1 : Form { //连接字符串 ...
HashMap源代码深入剖析
..
200. Number of Islands
题目: Given a 2d grid map of '1's (land) and '0's (water), count the number of islands. An island is s ...
再谈 retain，copy，mutableCopy（官方SDK，声明NSString都用copy非retain）
之前一直以为retain就是简单的计数器+1,copy就是重新开辟内存复制对象: 其实不是这样,原来之前的自己独自徘徊于糊涂之中. (官方SDK,对NSString属性的定义都是用copy,而不是re ...
Windows 各种计时函数总结
本文对Windows平台下常用的计时函数进行总结,包括精度为秒.毫秒.微秒三种精度的 5种方法.分为在标准C/C++下的二种time()及clock(),标准C/C++所以使用的time()及cloc ...

4.1Reduction模型

1. Reduction

2. Reduction树的性能考虑

3. 代码示例

4.1Reduction模型的更多相关文章

随机推荐

热门专题