CUDA Memories--CUDA记忆体（翻译+整理+测试）

一边学习一边记录(本文中英结合，专业名词统统不翻译)

在CUDA里，host和devices有不同的记忆体空间。

首先呢，CUDA的memory有很多种类啦

1. Global memory

2. Constant memory

这两种memory可以由CPU上运行的函数呼叫读写。

Global memory 这个，学过一点点CUDA的都知道，一般说device memory 指的就是它，

Constant memory 有低延迟，高带宽，但是device只能读它不能写它，并且所有线程可以同时访问同一地址。

3. Register

4. Shared memory

这两种memory是片上记忆体（on-chip）,换句话说，读写速度要比前两种memory多很多，至于到底多多少，有空测试哈，而且可以以高度并行的模式读写。

Registers是被分配给单独的线程的，每个线程只能链接自己的register。

Shared memory 是被分配给block的。block里所有的线程都可以访问属于这个block的Shared Memory,共享记忆体是一个十分有效的工具，可以共享他们的输入信息和他们计算出来的中间结果。

各个记忆体的编程模型：

Global memory VS Register

1. Global memory: "The von Neumann Model"：这个记忆体在cuda编程模型中可以映射到冯诺依曼结构中的记忆体。

global memory 是在处理器芯片之外独立的记忆体，且应用的是动态随机存取存储器（Dynamic Random Access Memory，DRAM）技术。

所以会有很长的链接延迟，和相对来说较低的带宽。

2. Registers: 它有点类似于The von Neumann Model 中的“register file”，它在处理器芯片里面，所以链接的延迟非常的低，以及非常高的带宽。一般器件的Register的综合接入带宽是global memory的两个数量级大。此外，无论何时，链接Register的带宽不占用个global的带宽。另外比起链接global memory, 所需要的执行的指令也要少很多。一般的处理器对于算数指令都有内嵌的寄存器运算数，例如，浮点加法指令：

fadd r1,r2,r3

其中 r2,r3是寄存器的编号，用来提取要做加法的数，最后存到r1中去。

如果要做加法的数字存在global memory里，首先要从global memory中把数据提取到ALU中，然后在进行浮点运算。

load r2,r4,offset

fadd r1,r2,r3

load命令可以把数据从r4中提取出来，存入r2 再进行加法。

另外还有一个是建议把运算数值存在register的原因，在现代计算机中，从一个register里调用数据一般比从global memory中调用数据所消耗的能量要低一个数量级。

补充说明：执行单位和线程之间的关系，现在我们介绍一下冯诺依曼结构，现代计算机中的线程是一个虚拟化的冯诺依曼处理器，一个线程包含了程式的一部分代码，正要执行的那部分，还有涉及到的数据和数据结构。在基于冯诺依曼模型的计算机中，代码是存储在记忆体中的，PC不停的访问程式正要进行的那部分，IR则用来存储正要执行的指令。而寄存器和记忆体贼存储数据和数据结构。现代处理器允许

Shared memory VS Register

他们都是 on-chip 记忆体，但是当处理期要从Shared memory中调用数据时，需要有从记忆体载入数据这个操作，如同从global memory中调用数据一样。但是因为它是片上记忆体，所以无论延迟还是带宽，都比global memory有明显的优势。但因为有load这个步骤，所以无论带宽还是延时比较register都有明显的劣势。

Shared memory存储的变量是被一个block里所有线程共享的。但是register里的变量是线程私有的。Shared memory 能很好地支持thread之间资料共享。

参考书籍：《Programming Massively Parallel Processors》

《CUDA 5.0编程指南》

CUDA Memories--CUDA记忆体（翻译+整理+测试）的更多相关文章

JavaScript 作用域和闭包——另一个角度：扩展你对作用域和闭包的认识【翻译+整理】
原文地址 --这篇文章有点意思,可以扩展你对作用域和闭包的认识. 本文内容背景作用域闭包臭名昭著的循环问题自调用函数(匿名函数) 其他我认为,尝试向别人解释 JavaScript 作用域和 ...
CUDA开发 - CUDA 版本
"CUDA runtime is insufficient with CUDA driver"CUDA 9.2: 396.xx CUDA 9.1: 387.xx CUDA 9.0: ...
【CUDA学习】结构体指针复制
内核函数中要用data结构作用参数 typedef struct { int* value; int* num; } data; //host端 data* h_input; h_input=(dat ...
【CUDA】CUDA框架介绍
引用出自Bookc的博客,链接在此http://bookc.github.io/2014/05/08/my-summery-the-book-cuda-by-example-an-introduct ...
【CUDA】CUDA开发环境搭建
http://blog.csdn.net/tracer9/article/details/50484764 标签: CUDA并行计算NVIDIAlinux 2016-01-08 18:35 637人阅 ...
CUDA并行计算 | CUDA算法效率提升关键点概述
文章目录前言存取效率计算效率性能优化要点展现足够的并行性优化内存访问优化指令执行前言 CUDA算法的效率总的来说,由存取效率和计算效率两类决定,一个好的CUDA算法必定会让两类效率 ...
【好文翻译】测试必看：使用Spire.XLS来生成自动化报表！
Download C# project - 7.1 KB 介绍在我的编程博客中,我经常会比较不同算法或原理的性能特征.我常常会把性能日志(如花费时间)输出到控制台或者文本文件,然后复制到电子表格中 ...
C#与C++数据类型比较及结构体转换[整理]
//c++:HANDLE(void *) ---- c#:System.IntPtr//c++:Byte(unsigned char) ...
JavaScript：如何获得 Private、Privileged、Public 和 Static 成员（属性和方法）【翻译+整理】
本文内容背景把我们的对象放在一起添加一个私有(Private)的属性添加一个特权(Privileged)的方法添加一个公共(Public)的属性和方法添加一个静态(Static)的属性我 ...

随机推荐

C++ STL算法系列5---equal() , mismatch()
equal和mismatch算法的功能是比较容器中的两个区间内的元素.这两个算法各有3个参数first1,last1和first2.如果对于区间[first1,last1)内所有的first1+i, ...
sed命令使用记录
背景:文件A,文件B,文件格式一致,有两列,第一列为key,第二列为value. 目的:将文件A中的内容插入到文件B中,不能在最后,不能有重复key(我的key和value用tab键分割) 实现:我的 ...
Golang 绘图技术（image/draw包介绍）
image/draw 包仅仅定义了一个操作:通过可选的蒙版图(mask image),把一个原始图片绘制到目标图片上,这个操作是出奇的灵活,可以优雅和高效的执行很多常见的图像处理任务. 1 ...
DTD 简介
文档类型定义(DTD)可定义合法的XML文档构建模块.它使用一系列合法的元素来定义文档的结构.DTD 可被成行地声明于 XML 文档中,也可作为一个外部引用. 内部的 DOCTYPE 声明假如 DT ...
转来的 cuda makefile 写法学习
原文作者:FreeAquar 原文出处:http://www.cnblogs.com/FreeAquar/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给 ...
【LeetCode】88 - Merge Sorted Array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:Yo ...
配置Texmaker中文支持
在Ubuntu 12.04 LTS下安装Texmaker后,如需要支持中文环境,需要安装CJK包. 终端(Ctrl+Alt+T(Terminal))下输入命令切换到超级管理员: sudo -i 安装包 ...
新手须知设计的法则 Mark
经常看到一些讲如何学习设计的文章,坦白讲感觉有些千篇一律.且不痛不痒,都说要看点书.学点画.练软件.多观察……唉,练软件这事还要说么,难道你还需要告诉一个人学开发是需要学习编程语言的? 学习是基于过往 ...
线性时间内确定T[0:n]是否有一个主元素
设T[0:n-1]是n 个元素的数组.对任一元素x,设S(x)={ i | T[i]=x}.当| S(x) |>n/2 时,称x 为T 的主元素.设计一个算法,确定T[0:n-1]是否有一个主元 ...
linux 新学到的命令
nohup python -u /data/daemon/daemon/run.py & 使py程序可以在后台运行 nohup php a.php & 在linux平台上,要在后台运行 ...

CUDA Memories--CUDA记忆体（翻译+整理+测试）

CUDA Memories--CUDA记忆体（翻译+整理+测试）的更多相关文章

随机推荐

热门专题