【CUDA开发】CUDA面内存拷贝用法总结

标签（空格分隔）：【CUDA开发】

主要是在调试CUDA硬解码并用D3D9或者D3D11显示的时候遇到了一些代码，如下所示：

CUdeviceptr    g_pRgba = 0;

CUDA_MEMCPY2D memcpy2D = { 0 };

memcpy2D.srcMemoryType = CU_MEMORYTYPE_DEVICE;

memcpy2D.srcDevice = g_pRgba;

memcpy2D.srcPitch = nWidth * 4;

memcpy2D.dstMemoryType = CU_MEMORYTYPE_ARRAY;

memcpy2D.dstArray = array;

memcpy2D.dstPitch = nWidth * 4;

memcpy2D.WidthInBytes = nWidth * 4;

memcpy2D.Height = nHeight;

// clear the surface to solid white

checkCudaErrors(cuMemcpy2D(&memcpy2D));

将设备内存g_pRgba中的数据拷贝到面内存中；还有另外一种情况：

src GMEM pointer : dpSrc

src GMEM layout  : 100x100

dst GMEM pointer : dpDst

dst GMEM layout  : 50*50

将src GMEM按行序初始化为：0~9999的值

CUDA_MEMCPY2D planeMem;

memset(&planeMem,0,sizeof(planeMem));

planeMem.srcMemoryType=CU_MEMORYTYPE_DEVICE;

planeMem.srcDevice    =dpSrc;

planeMem.srcXInBytes  =25*sizeof(float);

planeMem.srcY         =25;

planeMem.srcPitch     =100*sizeof(float);

planeMem.dstMemoryType=CU_MEMORYTYPE_DEVICE;

planeMem.dstDevice    =dpDst;

planeMem.dstXInBytes  =0;

planeMem.dstY         =0;

planeMem.dstPitch     =50*sizeof(float);

planeMem.WidthInBytes =planeMem.dstPitch;

planeMem.Height       =50;

cuMemcpy2DUnaligned(&planeMem); //如果数据已经对齐则最好使用cuMemcpy2D，否则必须使用该函数，另外当内存是使用cuMemAllocPitch分配的时候，如果内存布局本事不是2的次幂，则需要将planeMem的srcPitch和dstPitch设置为通过cuMemAllocPitch得到的pitch参数，而不是内存本身的布局大小*sizeof(TYPE)

2017-01-26 23:28

张朋艺 pyZhangBIT2010@126.com

【CUDA开发】CUDA面内存拷贝用法总结的更多相关文章

CUDA开发 - CUDA 版本
"CUDA runtime is insufficient with CUDA driver"CUDA 9.2: 396.xx CUDA 9.1: 387.xx CUDA 9.0: ...
CUDA零内存拷贝疑问考证
今天思考了一下CUDA零内存拷贝的问题,感觉在即将设计的程序中会派上用场,于是就查了一下相关信息. 以下是一些有帮助的链接: cuda中的零拷贝用法--针对二维指针 cuda中的零拷贝用法--针对一维 ...
【并行计算-CUDA开发】有关CUDA当中global memory如何实现合并访问跟内存对齐相关的问题
ps:这是英伟达二面面的一道相关CUDA的题目.<NVIDIA CUDA编程指南>第57页开始在合并访问这里,不要跟shared memory的bank conflic ...
CUDA内存拷贝
原文链接1.cudaMemcpy()<--> cudaMalloc() //线性内存拷贝 1 //线性内存拷贝 2 cudaMalloc((void**)&dev_A, data ...
【CUDA开发】CUDA编程接口（一）------一十八般武器
子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...
【CUDA开发】CUDA从入门到精通
CUDA从入门到精通(零):写在前面在老板的要求下,本博主从2012年上高性能计算课程开始接触CUDA编程,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追 ...
CUDA编程模型之内存管理
CUDA编程模型假设系统是由一个主机和一个设备组成的,而且各自拥有独立的内存. 主机:CPU及其内存(主机内存),主机内存中的变量名以h_为前缀,主机代码按照ANSI C标准进行编写设备:GPU及其 ...
CUDA中的常量内存__constant__
GPU包含数百个数学计算单元,具有强大的处理运算能力,可以强大到计算速率高于输入数据的速率,即充分利用带宽,满负荷向GPU传输数据还不够它计算的.CUDA C除全局内存和共享内存外,还支持常量内存,常 ...
【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三
JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...

随机推荐

noi.ac #42 模拟
\(des\) 二维平面上存在 \(m\) 个点,每个点会对该点的 \(8\) 个方向上的最近的点产生影响问每个点会被影响多少次 \(sol\) 过每个点会产生 \(4\) 条线段保存每条线段的斜 ...
AtCoder Grand Contest 003题解
传送门 \(A\) 咕咕 const int N=1005; char s[N];int val[N],n; int main(){ scanf("%s",s+1),n=strle ...
（23）打鸡儿教你Vue.js
实例: 模板语法 vue-router,vuex以及调式方法介绍打包部署: npm run build Webpack 目前无论在求职还是工作中,使用越来越普及.而想要学懂,学会Webpack更绝非 ...
【随记】安装SQL Server 2008 R2 提示创建usersettings/microsoft.sqlserver.configuration.landingpage.properties.se
在安装SQL Server 2008 R2 提示创建usersettings/microsoft.sqlserver.configuration.landingpage.properties.se.. ...
【洛谷】P2261 [CQOI2007]余数求和
题面?? 点我获得题面QAQ 我这个咕儿终于在csp初赛前夕开始学习数论了! 我是绝对不会承认之前不学数学是因为去年刚开始学OI的时候就跟yyq他们学莫比乌斯反演然后自闭的分析对于k mod i, ...
利用Wireshark抓取并分析OpenFlow协议报文
OpenFlow 交换机与控制器交互步骤 1. 利用Mininet仿真平台构建如下图所示的网络拓扑,配置主机h1和h2的IP地址(h1:10.0.0.1,h2:10.0.0.2),测试两台主机之间的网 ...
Mysql 按年、季度、月、周查询统计
User表 CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用户ID', `username` varchar( ...
Socket通信(1)：搭建开发环境
一. 准备工具 1. mac环境下的VMware Fusion, 下载地址:https://www.newasp.net/soft/462096.html 2. ubuntu 14.04 LTS, 不 ...
积神经网络(CNN)的参数优化方法
http://www.cnblogs.com/bonelee/p/8528863.html 积神经网络的参数优化方法——调整网络结构是关键!!!你只需不停增加层,直到测试误差不再减少. 积神经网络(C ...
IDEA中使用Maven：通过模板项目来创建新工程(转)
首先自己有一个很完善的项目,并想通过这个项目做一个Demo事例项目: 例子1 如下图,在idea的terminal中敲入命令: mvn archetype:create-from-project 1 ...

【CUDA开发】CUDA面内存拷贝用法总结

【CUDA开发】CUDA面内存拷贝用法总结

【CUDA开发】CUDA面内存拷贝用法总结的更多相关文章

随机推荐

热门专题