cuda计算的分块

gpu的架构分为streaming multiprocessors

每个streaming multiprocessors（SM）又能分步骤执行很多threads，单个SM内部能同时执行的threads叫做warp。一个warp能同时操作16个单精度浮点数/8个双精度（tesla），或者32个单精度浮点数/16个双精度浮点数（feimi）。

单个SM内部有local memory和16kb大小的share memory，后者是在做计算的时候要尽量利用好的东西。

根据gpu的架构，做cuda计算的时候基本上是这么一个流程

先把目标矩阵分块，8*8或者16*16等，具体多大要看所用gpu的配置

分块完以后，gpu会把每个块调度到每个SM上去执行。SM执行的时候按照warp大小起线程，直到运算完成。

资源限制：

每个GPU必须有16个以上的block（对应16个SM）。而每个SM最多只能有8个block（对应8个flag位）。

算法举例

拿矩阵乘法C=A*B举例，

在不使用share memory的时候，每计算C中的一个值就需要2*N*N的数值。所以不使用BLOCK算法的时候，一个N*N的矩阵算一次就需要读2*N^4的数据，起了N^2的threads。每次要读2*N的数，这个操作数就是2N。带宽显然不够。这是非常慢的。在使用share memory的时候，每计算BLOCK_SIZE*BLOCK_SIZE中的值就需要读2*BLOCK_SIZE*BLOCK_SIZE的数据，当BLOCK_SIZE是16的时候，那就是2k，16kb的share memory能允许8个block。

当BLOCK_SIZE是32的时候，大小是8k，就是2个block。

那回顾一下刚才的数据，我们能知道，大小是32*32的block在16kbshare memory的时候对SM的利用率不高，（只能放2个block），而大小是16*16的block在16kb sharememory的时候对SM的利用率高（到了8个block，到顶了）。

为什么不用2个block而是8个block呢？

因为在从local memory读到share memory的是要时间的，gpu可以在这一个warp读取share memory的时候切换到别的warp 让他们也读share memory。还记得吗？一个warp是16个线程，SM能同时保存8个BLOCK的状态。对于32*32这个大小的block，对于SM的调度没有利用好，所有线程全都卡在读取内存上了。

对于16*16的block，每次要读2*256=512个数，这256个数的操作是256*16*2=8192个浮点操作。这时带宽就足够了。

对于feimi架构来说，share memory翻了3倍成了48kb

BLOCK_SIZE等于16的时候，就是24个block，BLOCK_SIZE=32的时候就是6个block。gpu读取share memory大概要20个cycle。一个32*32的block有1024个线程，一个warp 32个线程。这样就至少32个cycle过去了，足够前面的线程读完。

而对于BLOCK_SIZE等于16的时候，24个block对于一个SM来说太多了（同时只能调度8个）.

ps:

在调试矩阵乘法的时候掉进坑里了……给每个矩阵赋值10.0*i+j，两个矩阵互相乘。当矩阵比较小的时候100*100及以下，一点问题都没有。大到1000*1000的开始出现计算错误。找了大半天都没找出个所以然来。突然发现结果比较长，一数位数，都快7-8位了，原来是过了单精度浮点数的有效位数了。

cuda计算的分块的更多相关文章

CUDA计算矩阵相乘
1.最简单的 kernel 函数 __global__ void MatrixMulKernel( float* Md, float* Nd, float* Pd, int Width) { int ...
CUDA 计算线程索引的一般公式
CUDA thread index: int blockId = blockIdx.z * (gridDim.x*gridDim.y) + blockIdx.y ...
BZOJ 4765 普通计算姬 (分块 + BIT)
4765: 普通计算姬 Time Limit: 30 Sec Memory Limit: 256 MBSubmit: 1547 Solved: 329[Submit][Status][Discus ...
[BZOJ4765]普通计算姬(分块+树状数组)
4765: 普通计算姬 Time Limit: 30 Sec Memory Limit: 256 MBSubmit: 1725 Solved: 376[Submit][Status][Discus ...
[bzoj4765]普通计算姬——分块
Brief Description 给定一棵n个节点的带权树,节点编号为1到n,以root为根,设sum[p]表示以点p为根的这棵子树中所有节点的权值和.支持下列两种操作: 1 给定两个整数u,v, ...
CUDA 计算pi （π）
通过简单的程序设计熟练CUDA的使用步骤下面是cuda代码及相关注释 #include <stdio.h> #include <iostream> #include < ...
BZOJ 4765: 普通计算姬 [分块树状数组 DFS序]
传送门题意: 一棵树,支持单点修改和询问以$[l,r]$为根的子树的权值和的和只有我这种不会分块的沙茶不会做这道题吗? 说一点总结: 子树和当然上$dfs$序了,询问原序列一段区间所有子树和,对原 ...
BZOJ 4765: 普通计算姬 (分块+树状数组)
传送门解题思路树上的分块题,,对于修改操作,每次修改只会对他父亲到根这条链上的元素有影响:对于查询操作,每次查询[l,r]内所有元素的子树,所以就考虑dfn序,进标记一次,出标记一次,然后子树就是 ...
CUDA C Best Practices Guide 在线教程学习笔记 Part 1
0. APOD过程 ● 评估.分析代码运行时间的组成,对瓶颈进行并行化设计.了解需求和约束条件,确定应用程序的加速性能改善的上限. ● 并行化.根据原来的代码,采用一些手段进行并行化,例如使用现有库, ...

随机推荐

Yii2 中禁用csrf校验
Yii2 默认开启csrf校验,但是有些时候确实不需要校验,比如对外提供API 一般做法直接在xxController中增加属性: public $enableCsrfValidation = fal ...
POJ 3057 Evacuation 二分图匹配
每个门每个时间只能出一个人,那就把每个门拆成多个,对应每个时间. 不断增加时间,然后增广,直到最大匹配. //#pragma comment(linker, "/STACK:10240000 ...
JavaSE基础知识总结
最近回顾了一下Java的基础知识,决定写成博客梳理一遍,主要是JavaSE部分最基础的知识,适合考前突击,学后回顾,不适合作为初学材料. 简单的列个目录吧: 一.数据类型和运算符二.流程控制与数组 ...
几个开源XMPP Android客户端简单比较
想做个基于xmpp的即时通讯工具,服务端已经基本成型了.当然需要客户端需要配合,PC端基于spark进行改造,手机端先从Android入手(IOS估计一个人是搞不过来了). 原本Android开发 ...
Daily Scrum 12.14
今日完成任务: 优化了问题页面显示问题的算法:两名开发人员有CCF考试,今天没有完成任务,任务顺延到明天. 明日任务: 黎柱金解决资源显示全部为同一个PDF的BUG 晏旭瑞资源搜索问题孙思权做 ...
数据仓储之DLL层接口设计
一.接口设计 1.1. IBaseRepository.cs public interface IBaseRepository<T> { T Add(T entity); bool Upd ...
C# 序列化反序列化
序列化,就是格式化,是把一个对象以某种格式进行呈现.主要有三种,1.二进制序列化,2.XML序列化,3.JavaScript序列化. 下面讲一下二进制序列化的过程 1.在需要序列化的类的前面,标记 ...
IOS 代码提示有问题
Window(menu) -> Organizer(menu) -> Projects(tab) 删除 Derived Data ,立刻关闭xcode 然后重启xcode然后重新打开项目.
Google Chrome 调试
[原文地址:http://www.cnblogs.com/QLeelulu/archive/2011/08/28/2156402.html ] 在Google Chrome浏览器出来之前,我一直使用F ...
[ MySql学习心得 ] --Two
五.MySql 中常用子句 1.where子句我们都知道在查询数据时,未必会查整个表中的数据,当有条件查询时,就会用到where子句.其结构: select * from [表名] where ...

cuda计算的分块

cuda计算的分块的更多相关文章

随机推荐

热门专题