CUDA学习笔记(三)——CUDA内存
转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm5f.html
结合lec07_intro_cuda.pptx学习
内存类型
CGMA: Compute to Global Memory Access ratio
Constant memory只允许device只读,比global memory 能够提供更快更多的并行数据访问路径给kernel。
Register和local memory是线程私有的。Shared memory是同一个block中的线程共享的。
Table 1显示了cuda声明变量的语法。Scope表示变量能够被访问的线程范围。包括thread:线程单独访问,每个thread都有一个变量,如果kernel声明一个scope为thread的变量y,在启动x个线程后,就会有x个版本的变量y。block:被block中的所有thread访问,grid:被grid中的所有线程访问。
Lifetime是变量的生存期。注意:如果生存期为kernel,那么在kernel不同的启动之间,变量的值是不会被保存下来的。每次启动一次kernel都要对变量进行初始化。生存期为application的变量,必须在所有函数体外进行声明,变量可以在程序执行中保存下来并可以被所有kernel访问。
非数组自动变量:除了在kernel和device函数中声明的数组外,其他所有自动变量都在寄存器中。这些变量称为scalar变量,scope是单独的线程。当一个kernel声明了一个自动变量,系统会为执行这个kernel函数的所有线程copy这个变量。线程终止后,所有变量也就不存在了。
自动数组变量:存在global memory中,对它们的访问需要长延迟。他们的scope也是单独的线程。因此,对这种变量尽量避免使用。
(__device__)__shared__修饰的变量,表示CUDA中的共享变量。共享变量的scope是block,block中的所有线程都可以看到共享变量的同一个版本。Lifetime是kernel,kernel结束,共享变量内存也就不存在了。对共享内存的访问非常快而且是高度并行的。CUDA编程者通常用共享内存来保留一部分在kernel中用的多的全局内存数据。
(__device__) __constant__修饰的变量表示常数变量constant variable。Constant variable必须在函数体外进行声明。Scope是grids, lifetime是整个应用程序的执行。Constant variable常用于为kernel function提供输入值,存储在global memory中但被cached。一个程序constant variable最大可以使65536个字节。
__device__修饰的变量是global variable,存储在global memory中。对global memory的访问非常慢。由于global variable对所有kernel中的所有线程都是可见的。因此,global variable可以作为跨block的线程之间的协同方法。但是,如果不终止目前的kernel,无法保证线程之间数据的一致性。因此,global variable通常作为kernel function之间的信息传递。
指针只能用于指向global memory的数据对象,不用于device memory。指针有两种典型用法:第一,如果一个对象由host function分配,指向此对象的指针被cudaMalloc()初始化并能够作为参数传递给kernel function。第二,在global memory中声明的变量的地址可以分配给一个指针变量。例如,
float * ptr=&GlobalVar。
减少全局内存通信的策略
由于全局内存大而慢,共享内存小而快。常用的策略是把数据划分成片tile,每一片适合共享内存的使用。对这些tile的kernel计算可以独立的进行。
__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width)
{
1. __shared__float Mds[TILE_WIDTH][TILE_WIDTH];
2. __shared__float Nds[TILE_WIDTH][TILE_WIDTH];
3. int bx = blockIdx.x; int by = blockIdx.y;
4. int tx = threadIdx.x; int ty = threadIdx.y;
// Identify the row and column of the Pd element to work on
5. int Row = by * TILE_WIDTH + ty;
6. int Col = bx * TILE_WIDTH + tx;
7. float Pvalue = 0;
// Loop over the Md and Nd tiles required to compute the Pd element
8. for (int m = 0; m < Width/TILE_WIDTH; ++m) {
// Coolaborative loading of Md and Nd tiles into shared memory
9. Mds[ty][tx] = Md[Row][m*TILE_WIDTH + tx];
10. Nds[ty][tx] = Nd[m*TILE_WIDTH + ty][Col];
11. __Syncthreads();
12. for (int k = 0; k < TILE_WIDTH; ++k)
13. Pvalue += Mds[ty][k] * Nds[k][tx];
14. }
15. Pd[Row][Col] = Pvalue;
}
硬件限制:
GeForce 8800GTX每个SM有8K个寄存器,整个处理器有128K个寄存器。一个SM最多有768个线程。如果要达到这个线程最大数,每个线程只能用8K/768=10个寄存器。如果每个线程要用11个寄存器,那么线程数就会减少。例如,如果一个block有256个线程,那么每个SM中只有1/3的线程同时存在。
共享内存也会限制线程数目。在GeForce 8800 GTX中,每个SM有16K bytes大小的共享内存。而共享内存是block使用的。每个SM最多有8个block,所以,如果一个SM中有8个block,那么每个block最多能够使用2K字节的共享内存。以矩阵乘为例,若tile大小为16*16,那么,每个block需要16*16*4=1K字节存储Mds,需要1K字节存储Nds。因此,一个block需要2K字节的共享内存。根据共享内存16K 字节的限制,最多有8个block可以同时存在于一个SM中,这也是硬件限制上的最大block数目了。若tile size是32*32,那么每个block需要8K 字节共享内存,那么一个SM只能有2个block。
注意:不时关注CUDA主页,关注CUDA相关的最新研究
http://www.nvidia.com/object/cuda_home.html#
CUDA学习笔记(三)——CUDA内存的更多相关文章
- CUDA学习笔记-1: CUDA编程概览
1.GPU编程模型及基本步骤 cuda程序的基本步骤如下: 在cpu中初始化数据 将输入transfer到GPU中 利用分配好的grid和block启动kernel函数 将计算结果transfer到C ...
- 操作系统学习笔记(三) windows内存管理
//系统物理页面是由 (Page Frame Number Database )简称PFN数据库来进行管理,实际上是一个数组,每个物理页面都对应一个PFN项. 进程的地址空间是通过VAD(Virtua ...
- iOS学习笔记之ARC内存管理
iOS学习笔记之ARC内存管理 写在前面 ARC(Automatic Reference Counting),自动引用计数,是iOS中采用的一种内存管理方式. 指针变量与对象所有权 指针变量暗含了对其 ...
- java之jvm学习笔记三(Class文件检验器)
java之jvm学习笔记三(Class文件检验器) 前面的学习我们知道了class文件被类装载器所装载,但是在装载class文件之前或之后,class文件实际上还需要被校验,这就是今天的学习主题,cl ...
- 学习笔记(三)--->《Java 8编程官方参考教程(第9版).pdf》:第十章到十二章学习笔记
回到顶部 注:本文声明事项. 本博文整理者:刘军 本博文出自于: <Java8 编程官方参考教程>一书 声明:1:转载请标注出处.本文不得作为商业活动.若有违本之,则本人不负法律责任.违法 ...
- Java IO学习笔记三:MMAP与RandomAccessFile
作者:Grey 原文地址:Java IO学习笔记三:MMAP与RandomAccessFile 关于RandomAccessFile 相较于前面提到的BufferedReader/Writer和Fil ...
- Oracle学习笔记三 SQL命令
SQL简介 SQL 支持下列类别的命令: 1.数据定义语言(DDL) 2.数据操纵语言(DML) 3.事务控制语言(TCL) 4.数据控制语言(DCL)
- [Firefly引擎][学习笔记三][已完结]所需模块封装
原地址:http://www.9miao.com/question-15-54671.html 学习笔记一传送门学习笔记二传送门 学习笔记三导读: 笔记三主要就是各个模块的封装了,这里贴 ...
- JSP学习笔记(三):简单的Tomcat Web服务器
注意:每次对Tomcat配置文件进行修改后,必须重启Tomcat 在E盘的DATA文件夹中创建TomcatDemo文件夹,并将Tomcat安装路径下的webapps/ROOT中的WEB-INF文件夹复 ...
- VSTO学习笔记(三) 开发Office 2010 64位COM加载项
原文:VSTO学习笔记(三) 开发Office 2010 64位COM加载项 一.加载项简介 Office提供了多种用于扩展Office应用程序功能的模式,常见的有: 1.Office 自动化程序(A ...
随机推荐
- TCP/IP详解 学习二
链路层: 在 T C P / I P协议族中,链路层主要有三个目的:(1)为 I P模块发送和接收 I P数据报:( 2)为 A R P模块发送 A R P请求和接收 A R P应答:( 3)为 R ...
- json对象和json字符串有啥区别啊
json对象可以通过javascript存取属性!json对象装成json字符串经常用于前后台传输数据! 如果你在前台使用,那么Json对象可以通过xx.name来调用,如果是字符串,那么就是字符串了 ...
- 单步调试 step into/step out/step over 区别
step into:单步执行,遇到子函数就进入并且继续单步执行(简而言之,进入子函数): step over:在单步执行时,在函数内遇到子函数时不会进入子函数内单步执行,而是将子函数整个执行完再停止, ...
- #error和#line实例
1.#include <stdio.h>#define CONST_NAME1 "CONST_NAME1"#define CONST_NAME2 "CONST ...
- sleep()
经常看到线程中用sleep(),到底是什么用处,下面讲的比较通俗: 我们可能经常会用到 Thread.Sleep 函数来使线程挂起一段时间.那么你有没有正确的理解这个函数的用法呢?思考下面这两个问题: ...
- iOS项目工作空间搭建
一般公司的项目都是一个工作空间包包含两个项目,一个主项目,一个Pods项目,当然也有些就是一个项目,然后把第三方放在项目的文件夹里. 这样做的好处是,项目再次拷贝到其他地方报错的可能性小,而且拷完就能 ...
- ALTER 语句修改数据表
1.修改数据表名:alter table 表名 rename 新表名; 2.修改列名: alter table 表名 change 列名 新列名(可以与旧的一样) 类型 默认值; 3.修改类型: al ...
- html5视频播放器
<!doctype html> <html> <head> <meta http-equiv="Content-Type" content ...
- C#设计模式-1、适配器模式(Adapter Pattern)(转载)
概述 在软件系统中,由于应用环境的变化,常常需要将“一些现存的对象”放在新的环境中应用,但是新环境要求的接口是这些现存对象所不满足的.那么如何应对这种“迁移的变化”?如何既能利用现有对象的良好实现,同 ...
- 《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程> ...