cudaMemcpy cudaMalloc

cudaMemcpy有四种类型：HostToHost, DeviceToHost, HostToDevice, DeviceToDevices

现在我有两个指针:h_ptr, d_ptr，分别指向host端某数组的起始位置，和device端数组的起始位置。num是h_ptr数组的大小，一开始只有host端存有这个数组。

这两个指针是直接定义在host端的，比如

int *h_ptr;

int *d_ptr;

当我要在Device（也就是GPU）上创建一个d_ptr指向的数组，并把h_ptr数组的值拷贝过去时：

cudaMalloc((void**)&d_ptr, (num) * sizeof(int));  //注意这里是void**

cudaMemcpy(d_ptr, h_ptr,

           sizeof(int) * (num), cudaMemcpyHostToDevice);

需要先在GPU上malloc一段内存，然后使用cudaMemcpyHostToDevice指定内存传输方向，把num个int传过去。

那么现在，虽然d_ptr仍然是host端的指针，但它指向的地址是device端的了，我在GPU的kernel function中将d_ptr作为参数传进去，便可以在GPU端通过d_ptr获取数组的值了：

__global__ void kernel_opt(int *d_ptr, int num){

    int id = blockIdx.x * blockDim.x + threadIdx.x;

    if(id < num)

	    d_ptr[id] = calc(d_ptr[id]);

    // 计算

}

在GPU端计算完毕之后，可能要把数组中新的值传回host端，也就是d_ptr到h_ptr，在host端这样操作即可：

cudaMemcpy(h_ptr, d_ptr, sizeof(int) * (num), cudaMemcpyDeviceToHost);

总结：host端只能获取位于host端的内存（比如 h_ptr[0] ），device端只能获取位于device端的内存（比如 d_ptr[0]），如要跨界，使用cudaMemcpy。

cudaMemcpy cudaMalloc的更多相关文章

CUDA内存拷贝
原文链接1.cudaMemcpy()<--> cudaMalloc() //线性内存拷贝 1 //线性内存拷贝 2 cudaMalloc((void**)&dev_A, data ...
cudaMemcpy与cudaMemcpyAsync的区别
转载请注明来源:http://www.cnblogs.com/shrimp-can/p/5231857.html 简单可以理解为:cudaMemcpy是同步的,而cudaMemcpyAsync是异步的 ...
cudaMalloc和cudaMallocPitch
原文链接偶有兴趣测试了一下题目中提到的这两个函数,为了满足对齐访问数据,咱们平时可能会用到cudamallocPitch,以为它会带来更高的效率.呵呵,这里给出一段测试程序,大家可以在自己的机器上跑 ...
如何理解CUDA中的cudaMalloc()的参数
首先看下此运行时函数的原型: cudaError_t cudaMalloc (void **devPtr, size_t size ); 主要的第一个参数.为什么是两个星星呢?用个例子来说明下. fl ...
CUDA[2] Hello,World
Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...
CUDA[1] Introductory
Section 0 :Induction of CUDA CUDA是啥?CUDA®: A General-Purpose Parallel Computing Platform and Program ...
[CUDA] CUDA to DL
又是一枚祖国的骚年,阅览做做笔记:http://www.cnblogs.com/neopenx/p/4643705.html 这里只是一些基础知识.帮助理解DL tool的实现. “这也是深度学习带来 ...
CUDA程序设计(一)
为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...

随机推荐

MVCC多版本并发控制的理解
前置知识当前读与快照读当前读什么是当前读:读取的是最新的数据,不会读到老数据. 何时触发:update.insert.delete.select lock in share mode.selec ...
4.直方图介绍和使用|MySQL索引学习
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 目录一.导读二.步骤 2.1 SQL语句 2.2 直方图案例 2.3 查看直方图统计信息 2.3 直方图分类 2.4 ...
多云部署多主模式的MGR集群，每个云一个MGR 节点,满足业务单元化改造的需求
欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答 GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 本 ...
解决前端向后端请求静态资源的问题（基于express框架）
请求js,css,image资源: 前端 <script src='后端url/assets/js/xxx.js'>,<link href='后端url/assets/css/xxx ...
List的同步类比较
TL;NRs CopyOnWriteArrayList类在多线程顺序读取上有很大的优势,但在随机读取上反而有较大的劣势,且在写入方面性能极差. Vector类在顺序读取方面性能较差,但在随机读取方面有 ...
python包合集-cffi
一.cffi cffi是连接Python与c的桥梁,可实现在Python中调用c文件.cffi为c语言的外部接口,在Python中使用该接口可以实现在Python中使用外部c文件的数据结构及函数. 二 ...
java-异常处理和线程的一些简单方法及使用
1.1 子类重写父类含有throws声明异常抛出的方法时的规则: 1.允许不再抛出任何异常. 2.仅抛出部分异常. 3.抛出父类方法抛出异常的子类型异常. 4.不可以抛出额外异常. 5.不能抛出父类方 ...
Excel 数学函数（二）：ISODD 和 ISEVEN
ISODD 函数用于判断一个数是否为奇数:ISEVEN 函数用于判断一个数是否为偶数. 结合文本函数 MID 和逻辑函数 IF,来判断一个身份证的性别. 身份证倒数第二位是奇数就代表男性,否则代表女性 ...
APT 安装 MySQL 提示错误：dpkg: error: dpkg frontend lock is locked by another process
在安装 MySQL 的时候提示错误: ubuntu@VM-0-6-ubuntu:/opt$ sudo dpkg -i mysql-apt-config_0.8.22-1_all.deb dpkg: e ...
HTTPS 一定是安全的吗？
大家好,我是小林. 上周有位读者在面字节时被问道这么一个问题:HTTPS 一定安全可靠吗? 这个问题的场景是这样的:客户端通过浏览器向服务端发起 HTTPS 请求时,被「假基站」转发到了一个「中间人服 ...

cudaMemcpy cudaMalloc

cudaMemcpy cudaMalloc的更多相关文章

随机推荐

热门专题