本小节来自《大规模并行处理器编程实战》第四节,该书是很好的从内部原理结构上来讲述了CUDA的,对于理解CUDA很有帮助,借以博客的形式去繁取间,肯定会加入自己个人理解,所以有错误之处还望指正。

一、块索引与线程索引   

CUDA是细粒度的,数据并行的轻量级线程,在启动一个CUDA的一个Kernel函数的时候,就会创建一个线程网格grid,该网格中的所有线程都是执行该kernel函数的,对于kernel的函数调用形式:kernel<<<dimGrid, dimBlk >>>(argument list);可以看出,一个函数代表一个网格,里面是由块构成,而每个块中就有许多的轻量级线程了。块是cuda的资源调度单位,块之间交互相较于块内较为困难:

如上图所示,一个网格有许多块,每个块有差不多3维的线程形式,其中线程中的具体的索引就是对应着具体的线程计算,这可以用在矩阵操作中。所以一个kernel对应一个网格,那么什么对应每个块和块中的线程呢?是blockIdx (blockIdx.x ,blockIdx.y,blockIdx.z)和threadIdx(threadIdx.x ,threadIdx.y,threadIdx.z),这两个变量是c语言版本的dim3结构其中有3个无符号整数类型的字段:x、y、z,由CUDA内置的变量,对应的值由运行时系统在运行的时候分配,前者就是用来索引网格中块的位置;后者就是用来索引块中的线程的位置。

一个块中的线程是有上限的(在http://blog.csdn.net/shouhuxianjian/article/details/42427285 的最后有所提及),所以如果只用块中的索引来矩阵计算势必是不够的,这里提下,上面kernel的函数形式中dimGrid,
dimBlk 都是三维形式,前者是用来说明这个网格中块在x,y,z 三个维度上的分布;而后者是用来说明每个块中线程在x,y,z 三个维度上的分布。但是根据书中p52页所说,网格是一个二维的块数组,所以网格维度参数中第三个字段z通常是默认为1的,(个人:这里说下,这是这本书说的,那时候还挺早的,现在不一定,因为按照cuda的属性返回值看出来不同的显卡有不同的信息,有兴趣的可以自己测试下):

例子代码如下:

dim3 dimGrid(32,32,1);

dim3 dimBlk(16,16,16);//这是错的,因为16^3大于512(早期显卡),也大于1024(780ti),所以这里需要注意分配
addCUDA<<<dimGrid, dimBlk>>>(参数列表);

上面的kernel函数自己写的,这里是为了说明<<<>>>中的两个参数,不同维度上最大值请先调取自己显卡的信息核实再决定,这个函数就是告诉运行时系统启动kernel函数了,通过blockIdx和threadIdx,两个的组合就能生成成千上万,上百万的线程用来计算。

上图就是一个矩阵乘法的例子,行向量乘以列向量作为生成向量的一个元素。如果矩阵很大,那么只靠threadIdx来是无法索引的,可以通过下图这种将整个矩阵划分成不同的子块矩阵来计算,刚好就对应了块索引和块中的元素:

下面给出一个例子,因为暂时看到的资料和教程还没有涉及到2维或者3维的操作,就先按照行主排序或者列主排序来将矩阵划分成1维的向量来计算,不过对于矩阵的元素索引还是遵从2维形式的。

__global__ void MatrixMulKernel(float *Md,float *Pd,int Width){
int Row = blockIdx.y*TILE_WIDTH+threadIdx.y;//计算矩阵的第几行
int Col = blockIdx.x*TILE_WIDTH+threadIdx.x;//计算矩阵的第几列 float Pvalue= 0;//临时变量 for(int k = 0;k<Witdh;++k){
Pvalue += Md[Row*Width+k]*Nd[k*Witdh +Col];//循环计算行向量乘以列向量
Pd[Row*Width +Col] = Pvalue;//将值赋值给结果矩阵
}
} //执行配置参数
dim3 dimGrid(Width/TILE_WIDTH,Width/TILE_WIDTH);
dim3 dimBlk(TILE_WIDTH,TILE_WIDTH);
//启动核函数,其中WIDTH为矩阵的维度,这里默认方形矩阵,TILE_WIDTH是每个子方形矩阵的维度
MatrixMulKernel<<<dimGrid,dimBlk>>>(Md,Nd,Pd,Width);

  

二、同步与透明可扩展性
    CUDA中有一个用于一个块中所有线程的栅栏同步函数 __syncthreads()来用于协调这个块中的所有线程,该函数是用来进行块中的线程等待的,即假设一个块中有500个线程,kernel中有工作a,工作b,前250个线程完成了工作a,可是剩下250个线程还没完成,这时候使用了该函数,那么前250个线程就需要等待后续的250个线程完成工作a之后在一起整个500个线程接着完成工作b。该函数具有唯一性,不会被异步,假设在 if -else 语句中:

if(argument)
__syncthreads();
else
__syncthreads();
end

  

这种情况下无需担心,因为该函数的意思是要么块中所有的线程都按照其中包含这个函数的路径执行,要么都不执行,不然一半停留在if后面,一半停留在else后面,互相等待,岂不是成了死锁了。

正式因为该函数基于块,所以一个块中相互之间的线程等待时间还能够忍受,如果是基于块的相互等待那么就不能忍受了。正是这种相同块需要栅栏同步,不同块无需栅栏同步,所以不同的显卡上程序才有可伸缩性:

如上图,程序刚好划分成8个块,前者设备每次执行2个块,后者每次可以执行4个块,但是都能很灵活的划分任务进行执行。

三、线程分配

启动kernel函数之后,运行时系统会生成相应的线程网格,然后以块为单位把这些线程分配给这些执行资源。这些执行资源组织成多核流处理器(streaming multiprocessor,SM)。书中这里接着说CUDA运行时系统会自动减少每个SM中分配的块的数量,这个情况是发生在任何一种或者多种资源都不能满足一个SM中所有的块运行的时候。也就是在之前的人为分配好块和线程的参数的时候,在执行的时候运行时系统发现每个sm无法使用满运行的所有的块,那么就自动让那几个块休息不工作(个人:结合CUDA2.2讲述的存储器等的限制,应该是假设一个SM最大支持768个线程,而每个块最大支持256个线程,所以SM算下来最少可以支持3个块,但是如果在kernel中设置好了参数,但是发现由于存储器等限制,那么就减少块数,本来是3块的,现在一个SM只能驻留2个块了)。

这里引用《cuda并行程序设计》6.3章节中一段话:“GPU与CPU不同,GPU不使用寄存器重命名的机制,而是致力于为每个线程都分配真实的寄存器,因此当需要上下文切换时,所需要的操作就是将指向当前寄存器组的选择器或者指针进行更新,指向下一个要执行的线程束的寄存器组,因此是零开销。...如果一个内核函数的每个线程需要的寄存器过多,则每个SM中GPU能够调度的线程块的数量就会受到限制,因此总的可以执行的线程数量也会受到限制。开启的线程数量过少会造成硬件无法被充分利用,性能急剧下降,但是开启过多又意味着资源可能短缺,调度到SM上的线程块数量会减少...由于所使用硬件不同,每个SM可供所有线程使用的寄存器空间大小也不同,分分别有8KB,16KB,32KB以及64KB。牢记,每个线程中每个变量都会占用一个寄存器,举个例子,每个SM拥有32KB的寄存器空间,如果每个线程块有256个线程,则对于每个变量是32位,需要占用4个Bytes的情况下,每个线程可以使用32×1024/4/256=32个寄存器。而每个SM也有所谓最大可使用上限的寄存器数量,如果当前线程块上的寄存器数目是允许的最大值时,每个SM只会处理一个线程块”。

一旦一个块分配给了一个SM,那么该块就会被以大小为32的线程warp所划分,warp的个数的多少(个人:英文版是size,觉得应该说的是分配给每个SM中划分的warp的个数,而每个warp是固定的32个线程)是在具体实现的时候指定的,对于程序员来说这个是透明的,因为无需我们关心。这个参数也可以在不同的显卡的属性信息中得知,在SM中,warp才是线程调度的单位,而不是单个的线程,这个概念不属于CUDA的规范,但是却有助于理解和优化在特定CUDA设备上运行的程序的性能。通常cuda会以半个线程束做一次调度,此时可以将一半的线程束的取数据操作合并成一次连续取数据操作,且指令取一次,并广播给这整个线程束(cuda并行程序设计5.5章节:“由于硬件每次只能为一个线程束获取一条指令...在指令执行层,硬件的调度是基于半个线程束,而不是整个线程束”)。块中相邻的Warp的threadIdx的值是连续的,假设第一个waro包含线程0-31,那么第二个就包含线程32-63,以此类推。

上图就是一个SM,这个sm的上面就是三个不同的块,和每个块划分成不同的warp,每个warp中有32个线程。只要给定块的大小和每个sm中块的数量,就能计算每个sm中驻留的warp的数量了,上图中假设每个块有256个线程,那么每个块就有256/32 = 8个warp了,如果每个sm中只有3个块,那么每个sm就有8×3 = 24个warp,假设在G80类型的显卡中每个sm最多驻留768个线程,每个sm最多驻留768/32
= 24个warp。但是如果说每个SM中只有8个sp(streaming processors)(个人:一个sp执行一个warp还是一个线程?应该是执行一个线程,不过是流水形式的串行执行),那么为什么一个sm中会有这么多的warp。这里就在于CUDA的处理器需要高效的执行长延时操作,比如访问全局存储器(时间比访问寄存器长)。如果warp中线程执行一条指令需要等待前面启动的长延时操作的结果(就是该warp需要从全局存储器中提取数值计算),那么就不选择该warp,而是选择另一个不需要等待结果的驻留的warp(这个warp已经得到了自己需要的结果,所以已经无需等待了,可以直接执行了),当多个warp准备执行的时候,采用优先机制选择一个warp执行,这种机制不产生延时的线程先执行,这就是所谓的延时隐藏(latency
hiding)。执行这种处于就绪状态的warp不会带来多余的时间开销,被称之为“零开销线程调度(zero-overhead thread scheduling)”。

所以我们在写网格维度和块的维度的时候,最好考虑到这个,将每个块中的线程的数量设置成32的倍数,而且尽可能的先满足一个块中线程的上限,因为块内线程调度相比较与块间调度来说,时间开销更小,更能加速程序运行,也就是更少的粗粒度,更多的细粒度。(该想法是错的,见下面博客)

顺带看了下其他人博客http://blog.csdn.net/mysniper11/article/details/8269776 的相关理解。其中的:

“每一个块内线程数应该首先是32的倍数,因为这样的话可以适应每一个warp包含32个线程的要求,每一个warp中串行执行,这就要求每一个线程中不可以有过多的循环或者需要的资源过多。但是每一个块中如果线程数过多,可能由于线程中参数过多带来存储器要求过大,从而使SM处理的效率更低。所以,在函数不是很复杂的情况下,可以适当的增加线程数目,线程中不要加入循环。在函数比较复杂的情况下,每一个块中分配32或是64个线程比较合适。每一个SM同时处理一个块,只有在粗粒度层面上以及细粒度层面上均达到平衡,才能使得GPU的利用到达最大。“解答了上面错误想法的地方。

CUDA2.1-原理之索引与warp的更多相关文章

  1. 【mysql】索引原理-MySQL索引原理以及查询优化

    转载:https://www.cnblogs.com/bypp/p/7755307.html 一.介绍 1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性 ...

  2. 【转】Lucene工作原理——反向索引

    原文链接:  http://my.oschina.net/wangfree/blog/77045 倒排索引 倒排索引(反向索引) 倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项 ...

  3. mysql索引之四:复合索引之最左前缀原理,索引选择性,索引优化策略之前缀索引

    高效使用索引的首要条件是知道什么样的查询会使用到索引,这个问题和B+Tree中的“最左前缀原理”有关,下面通过例子说明最左前缀原理. 一.最左前缀索引 这里先说一下联合索引的概念.MySQL中的索引可 ...

  4. Mysql 索引实现原理. 聚集索引, 非聚集索引

    Mysql索引实现: B-tree,B是balance,一般用于数据库的索引.使用B-tree结构可以显著减少定位记录时所经历的中间过程,从而加快存取速度.而B+tree是B-tree的一个变种,My ...

  5. SQL Server 索引碎片产生原理重建索引和重新组织索引

    数据库存储本身是无序的,建立了聚集索引,会按照聚集索引物理顺序存入硬盘.既键值的逻辑顺序决定了表中相应行的物理顺序 多数情况下,数据库读取频率远高于写入频率,索引的存在 为了读取速度牺牲写入速度 页 ...

  6. 索引原理-btree索引与hash索引的区别

    btree索引与hash索引的区别,之前不清楚,mark一下. Hash索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree索引需要从根节点到枝节点,最后才能访问到页节点这样多 ...

  7. sqlserver索引的原理及索引建立的注意事项小结

    聚集索引,数据实际上是按顺序存储的,数据页就在索引页上.就好像参考手册将所有主题按顺序编排一样.一旦找到了所要搜索的数据,就完成了这次搜索,对于非聚集索引,索引是安全独立于数据本身结构的,在索引中找到 ...

  8. MySQL之索引原理和慢查询优化

    一 介绍 为何要有索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句 ...

  9. MySQL索引原理以及查询优化

    转载自:https://www.cnblogs.com/bypp/p/7755307.html MySQL索引原理以及查询优化 一.介绍 1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且 ...

随机推荐

  1. C#中去掉表中重复的数据

    /// <summary> /// 去掉表中重复的数据  int /// </summary> /// <param name="SourceTable&quo ...

  2. asp.net mvc 之旅—— 第一站 从简单的razor入手

    记得2011年mvc3刚出来的时候,我们就有幸将 mvc3 用在我们团购项目上,当时老大让我们用一个星期时间来熟悉mvc,幸好园子里面的老朋友DR 正在写mvc3系列,也恭喜这个系列文章被整理成专题供 ...

  3. Sql Server之旅——第六站 使用winHex利器加深理解数据页

    这篇我来介绍一个winhex利器,这个工具网上有介绍,用途大着呢,可以用来玩数据修复,恢复删除文件等等....它能够将一个file解析成 hex形式,这样你就可以对hex进行修改,然后你就可以看到修复 ...

  4. JS代码判断字符串中有多少汉字

    $("form").submit(function () { var content = editor.getContentTxt(); var sum = 0; re = /[\ ...

  5. 十、Android学习第九天——小结(转)

    (转自:http://wenku.baidu.com/view/af39b3164431b90d6c85c72f.html) 十.Android学习第九天——小结 通过这段时间的学习,今晚上来做个小小 ...

  6. C语言中内存分配那些事儿

    C程序的内存结构 C语言的之所以复杂,首先它的内存模型功不可没.不像某些那样的高级语言只需要在使用对象的时候,用new创建.所有之后的事情,你不需要操心.对于C语言,所有与内存相关的东西,都需要熟悉, ...

  7. sql中视图的作用

    视图是一个虚拟表,其内容由查询定义.同真实的表一样,视图包含一系列带有名称的列和行数据.但是,视图并不在数据库中以存储的数据值集形式存在.行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态 ...

  8. 【一周读书】All life is problem solving

    书籍:<开放的智力> 采铜是我在知乎关注最早的大V之一,那时我脑里有一大堆疑惑和问题,是他的答案帮助我理清了思绪.我从他身上学习到对书籍的爱好,对思维方法的关注,对智慧的向往.读这本小集子 ...

  9. 北理工c语言期末考试

    1 给定一个区间,输出其中前半部分数字之和等于后半部分数字之和的数,没有则输出No output.(15分) 题目内容: 给定一个区间,输出其中前半部分数字之和等于后半部分数字之和的数,没有则输出No ...

  10. Android中事件传递机制的总结

    事件传递虽然算不上某个单独的知识点,但是在实际项目开发中肯定会碰到,如果不明白其中的原理,那在设计各种滑动效果时就会感到很困惑. 关于事件的传递,我们可能会有以下疑问: 事件是如何传递的 事件是如何处 ...