cudaMalloc和cudaMallocPitch

偶有兴趣测试了一下题目中提到的这两个函数，为了满足对齐访问数据，咱们平时可能会用到cudamallocPitch，以为它会带来更高的效率。呵呵，这里给出一段测试程序，大家可以在自己的机器上跑跑，你会发现这两个函数在某些情况下是一样的。

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime_api.h>
int main(int argc, char **argv)
{
// device pointers.
float *d_pitch;
float *d_normal;
// matrix size.
size_t cols = 63;
size_t rows = 16;
size_t pitch = 0;
// alloc the data form gpu memory.
cudaMallocPitch((void**)&d_pitch, &pitch, cols*sizeof(float), rows);
cudaMalloc((void**)(&d_normal), rows*cols*sizeof(float));
// test the data address.
fprintf(stdout, "row size(in bytes) = %.2f*128.\n", pitch/128.0f);
fprintf(stdout, "the head address of d_pitch mod 128 = %x.\n", ((unsigned int)d_pitch)%128);
fprintf(stdout, "the head address of d_normal mod 128 = %x.\n", ((unsigned int)d_normal)%128);
cudaFree(d_pitch);
cudaFree(d_normal);
getchar();
return 0;
}

上面这段程序的运行结果如下：

row size(in bytes) = 28.00*128.
the head address of d_pitch mod 128 = 0.
the head address of d_normal mod 128 = 0.

我多次做过实验，我觉得从以上实验结果可以知道，无论如何改变实验的参数，两个显存申请函数返回的数据首地址都是128，256的整数倍，我猜想GPU上的每个计算单元的数据在全局中加载的时候一次可以连续加载2的幂次个数据，并且这些数据的加载其实地址一定也是2的幂次，所以warp使用全局内存中的数据的时候应该尽量按照对齐的原则加载数据，这样就可以获得更高的效率了。至于对齐原则可以在CUDA的编程手册中找到。

cudaMalloc和cudaMallocPitch的更多相关文章

CUDA编程
目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...
CUDA线性内存分配
原文链接概述:线性存储器可以通过cudaMalloc().cudaMallocPitch()和cudaMalloc3D()分配 1.1D线性内存分配 1 cudaMalloc(void**,int) ...
【CUDA开发】CUDA编程接口（一）------一十八般武器
子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...
二维数组 cudaMallocPitch() 和三维数组 cudaMalloc3D() 的使用
▶ 使用函数 cudaMallocPitch() 和配套的函数 cudaMemcpy2D() 来使用二维数组.C 中二维数组内存分配是转化为一维数组,连贯紧凑,每次访问数组中的元素都必须从数组首元素开 ...
cudaMallocPitch – 向GPU分配存储器
概要 cudaError_t cudaMallocPitch( void** devPtr,size_t* pitch,size_t widthInBytes,size_t height ) 说明向 ...
如何理解CUDA中的cudaMalloc()的参数
首先看下此运行时函数的原型: cudaError_t cudaMalloc (void **devPtr, size_t size ); 主要的第一个参数.为什么是两个星星呢?用个例子来说明下. fl ...
cudaMemcpy cudaMalloc
cudaMemcpy有四种类型:HostToHost, DeviceToHost, HostToDevice, DeviceToDevices 现在我有两个指针:h_ptr, d_ptr,分别指向ho ...
cudaMallocPitch()
二维数组的传输 (host <-> device)
前言本文的目的很明确:介绍如何将二维数组传递进显存,以及如何将二维数组从显存传递回主机端. 实现步骤 1. 在显存中为二维数组开辟空间 2. 获取该二维数组在显存中的 pitch 值 (cudaMa ...

随机推荐

webpack01
python_元组学习
一.创建元组代码: name=(‘chinese’,’gansu’,’beijing’) 创建空元组 name=() 元组中只包含一个元素时,需要在玄素后面加逗号(,)消除歧义: name=(‘ch ...
tomcat异常[0]--java.lang.ClassNotFoundException: org.apache.taglibs.standard.tlv.JstlCoreTLV
自己建了一个项目,启动项目的时候,发生了java.lang.ClassNotFoundException: org.apache.taglibs.standard.tlv.JstlCoreTLV异常. ...
【Python学习一】使用Python+selenium实现第一个自动化测试脚本
1.Python的下载 python官方下载地址:https://www.python.org/downloads/ 这边安装的3.6.5为最新版本以适应未来的需求进入页面就有两个版本的下载选择,2 ...
.NET面试题3
1.什么是拆箱和装箱? 2.什么是箱子? 3.箱子放在哪里? 4.装箱和拆箱有什么性能影响? 5.如何避免隐身装箱? 6.箱子的基本结构? 7.装箱的过程? 8.拆箱的过程? 9.下面这段代码输出什么 ...
phpstorm 配置 webserver ，配置根目录
原文链接 http://blog.csdn.net/pony_maggie/article/details/52367093 phpstorm自带了一个web server,我们可以直接在IDE ...
MSSql关闭自增列
在对已经建好表结构的表抽取数据的时候,突然报错,根据Error发现,不能显式插入有自增列的值. 于是搜索后,用 set IDENTITY_INSERT #Tmp onset IDENTITY_INSE ...
[Java][Servlet] Failed to destroy end point associated with ProtocolHandler ["http-nio-8080"]
Background: Servlet version 3.1(3.0之后就有了@WebServlet注解) Error 严重: Failed to destroy end point associa ...
关于hibernate字段映射@colunm出现的问题以及jpa驼峰大写转_小写的问题探究
关于hibernate字段映射@colunm出现的问题以及jpa驼峰大写转_小写的问题探究2018年04月24日 15:47:26 守望dfdfdf 阅读数:735 标签: @colunmhibern ...
nopCommerce如何支持MySQL
此方法支持nopCommerce2.4以上版本(缺少的代码,可参照nopCommerce2.6源码) nopCommerce 4.1 如何支持Mysql 请看 Url: http://www.nop ...

cudaMalloc和cudaMallocPitch

cudaMalloc和cudaMallocPitch的更多相关文章

随机推荐

热门专题