CUDA：常量内存与事件

常量内存：　　

　　常量内存用于保存在核函数执行期间不会发生变化的数据，在变量面前添加 __constant__ 修饰符：

　　__constant__ Sphere s[SPHERES];

　　cudaMemcpyToSymbol(s, temp_s, sizeof(Sphere)*SPHERES);

　　这个特殊版本的cudaMemcpy()用于将主机内存复制到GPU上的常量内存。

　　从常量内存读取相同的数据可以节约内存带宽，主要原因：

　　（1）对常量内存的单次读操作可以广播到其他的“邻近”线程，这将节约15次读取操作

　　（2）常量内存的数据将缓存起来，因此对相同地址的连续读操作将不会产生而额外的内存通信量。

解释：

　　如果在半线程束中的每个线程都从常量内存的相同地址上读取数据，那么GPU只会产生一个读取请求并在随后将数据广播到每个线程。如果从常量内存中读取大量的数据，那么这种方式产生的内存流量只是使用全局内存的1/16.

　　另外由于这块内存的内容是不会发生变化的，因此硬件将主动把这个常量数据缓存在GPU上。在第一次从常量内存的某个地址上读取后，当其他的半线程束请求同一个地址时，将命中缓存，这同样减少了额外的内存流量。

　　然而，使用常量内存也可能对性能产生负面影响。如果半线程束中的所有16个线程需要访问常量内存中不同的数据，那么这个16次不同的读取操作会被串行化，从而需要16倍的时间发出请求。但如果从全局内存中读取，那么这些请求会同时发出。这种情况下，从常量内存读取就慢于从全局内存中读取。

事件：

　　CUDA的事件本质上是一个GPU时间戳，这个时间戳是在用户指定的时间点上记录的。应该将cudaEventRecord()视为一条记录当前时间的语句，并且把这条语句放入GPU的未完成队列中。因此直到GPU执行完了在调用cudaEventRecord（）之前的所有语句时，事件才会被记录下来。为了安全的读取stop值，需要告诉CPU在某个事件上同步，这个函数就是cudaEventSynchronize().当该函数返回时，代表stop事件之前的所有GPU工作已完成，stop可以安全读取。

　　由于CUDA事件是直接在GPU上实现的，因此不适用于同时包含设备代码和主机代码的混合代码计时，也就是说如果试图通过CUDA事件对核函数和设备内存复制之外的代码进行计时，将得到不可靠的结果。

　　cudaEvent_t start,stop;

　　cudaEventCreate(&start);

　　cudaEventCreate(&stop);

　　cudaEventRecord(start, 0);

　　//在GPU上执行一些工作

　　cudaEventRecord(stop, 0);

　　cudaEventSynchronize(stop);

　　float elapseTime;

　　cudaEventElapsedTime(&elapsedTime, start, stop);

　　cudaEventDestroy(start);

　　cudaEventDestroy(stop);

CUDA：常量内存与事件的更多相关文章

GPU编程自学7 —— 常量内存与事件
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...
GPU CUDA常量内存使用
#include <cuda.h> #include <stdio.h> int getMulprocessorCount(){ cudaDeviceProp prop; cu ...
CUDA中的常量内存__constant__
GPU包含数百个数学计算单元,具有强大的处理运算能力,可以强大到计算速率高于输入数据的速率,即充分利用带宽,满负荷向GPU传输数据还不够它计算的.CUDA C除全局内存和共享内存外,还支持常量内存,常 ...
《GPU高性能编程CUDA实战》第六章常量内存
▶ 本章介绍了常量内存的使用,并给光线追踪的一个例子.介绍了结构cudaEvent_t及其在计时方面的使用. ● 章节代码,大意是有SPHERES个球分布在原点附近,其球心坐标在每个坐标轴方向上分量绝 ...
【CUDA 基础】5.0 共享内存和常量内存
title: [CUDA 基础]5.0 共享内存和常量内存 categories: - CUDA - Freshman tags: - 共享内存 - 常量内存 toc: true date: 2018 ...
【CUDA 基础】5.1 CUDA共享内存概述
title: [CUDA 基础]5.1 CUDA共享内存概述 categories: - CUDA - Freshman tags: - CUDA共享内存模型 - CUDA共享内存分配 - CUDA共 ...
BEP 7：CUDA外部内存管理插件（下）
BEP 7:CUDA外部内存管理插件(下) Numba依赖向库中添加EMM插件的实现自然会使Numba成为库的依赖项,而以前可能没有.为了使依赖关系可选,如果需要的话,可以有条件地实例化并注册EMM ...
BEP 7：CUDA外部内存管理插件（上）
BEP 7:CUDA外部内存管理插件(上) 背景和目标在CUDA阵列接口使得能够共享不同的Python之间的数据库的访问CUDA设备.但是,每个库都与其它库区别对待.例如: Numba在内部管理内存 ...
CUDA零内存拷贝疑问考证
今天思考了一下CUDA零内存拷贝的问题,感觉在即将设计的程序中会派上用场,于是就查了一下相关信息. 以下是一些有帮助的链接: cuda中的零拷贝用法--针对二维指针 cuda中的零拷贝用法--针对一维 ...

随机推荐

获取元素位置信息和所占空间大小(via:js&jquery)
工作中有一个很常见的需求,hover或者click某元素后,在该元素旁边出现弹框,主要就是获取该元素的位置坐标以及元素所占区块的大小.最近工作中就遇到了,发现js和jquery的实现方法有很大的区别, ...
pair类型
pair是一个模板数据类型,其中包含两个数据值,两个数据值可以不同如 pair<int,string>a(2,"fgh");则a是一个pair类型,它包括两个数据,第 ...
SilverLight.3-Validation：二、银光验证。TheLabel、TheDescriptionViewer和TheValidationSummary
ylbtech-SilverLight.3-DataControls_BetterDataFroms:二.银光验证.TheLabel.TheDescriptionViewer和TheValidatio ...
js ioc 实现
var ar=[]; var o1={ id:'o1', o2:null } ar.push(o1); var o2={ id:'o2', o1:null } ar.push(o2) var ioc= ...
Github css加载失败，样式混乱解决办法
github被墙的解决办法 Github css加载失败,样式混乱解决办法打开cmd,输入 nslookup github.com 8.8.8.8 ,下面就会显示出github的服务器地址列 ...
apue学习笔记（第十一章线程）
本章将进一步深入理解进程,了解如何使用多个控制线程(简单得说就是线程)在单进程环境中执行多个任务. 线程概念每个线程都包含有表示执行环境所必须的信息:线程ID.一组寄存器值.栈.调度优先级和策略.信 ...
mongodb: 安装建/删库，表
mongodb的安装下载mongodb www.mongodb.org 下载最新stable版解压文件 3.不用编译,解压之后本身就是编译后的二进制可执行文件解压之后,目录格式如下在bin目录 ...
centos7 安装rocketmq(quick start)
Quick Start This quick start guide is a detailed instruction of setting up RocketMQ messaging system ...
为电脑添加u盘写保护
需求:解决在公共打印PC机上u盘病毒的传染,设置后该PC机将不能对u盘文件进行写操作修改注册表,在HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Contro ...
ORACLE经常使用系统查询
1 查询系统全部对象 SELECT OWNER, OBJECT_NAME, OBJECT_TYPE, CREATED, LAST_DDL_TIME, TIMESTAMP, STATUS FRO ...

CUDA： 常量内存与事件

CUDA： 常量内存与事件的更多相关文章

随机推荐

热门专题

CUDA：常量内存与事件

CUDA：常量内存与事件的更多相关文章