【CUDA 基础】4.5 使用统一内存的向量加法

title: 【CUDA 基础】4.5 使用统一内存的向量加法

categories:

- CUDA

- Freshman

tags:

- 统一内存

- Uniform Memory

toc: true

date: 2018-05-14 17:24:55

Abstract: 使用统一内存的CUDA程序——向量加法

Keywords: 统一内存，Uniform Memory

开篇废话

本文太短，不说废话。

本文是前面关于统一内存的补充

参考：https://face2ai.com/CUDA-F-4-2-%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86/

统一内存矩阵加法

统一内存的基本思路就是减少指向同一个地址的指针，比如我们经常见到的，在本地分配内存，然后传输到设备，然后在从设备传输回来，使用统一内存，就没有这些显式的需求了，而是驱动程序帮我们完成。

具体的做法就是:

CHECK(cudaMallocManaged((float**)&a_d,nByte));

CHECK(cudaMallocManaged((float**)&b_d,nByte));

CHECK(cudaMallocManaged((float**)&res_d,nByte));

使用cudaMallocManaged 来分配内存，这种内存在表面上看在设备和主机端都能访问，但是内部过程和我们前面手动copy过来copy过去是一样的，也就是memcopy是本质，而这个只是封装了一下。

我们来看看完整的代码：

#include <cuda_runtime.h>

#include <stdio.h>

#include "freshman.h"

void sumArrays(float * a,float * b,float * res,const int size)

{

  for(int i=0;i<size;i+=4)

  {

    res[i]=a[i]+b[i];

    res[i+1]=a[i+1]+b[i+1];

    res[i+2]=a[i+2]+b[i+2];

    res[i+3]=a[i+3]+b[i+3];

  }

}

__global__ void sumArraysGPU(float*a,float*b,float*res,int N)

{

  int i=blockIdx.x*blockDim.x+threadIdx.x;

  if(i < N)

    res[i]=a[i]+b[i];

}

int main(int argc,char **argv)

{

  // set up device

  initDevice(0);

  int nElem=1<<24;

  printf("Vector size:%d\n",nElem);

  int nByte=sizeof(float)*nElem;

  float *res_h=(float*)malloc(nByte);

  memset(res_h,0,nByte);

  memset(res_from_gpu_h,0,nByte);

  float *a_d,*b_d,*res_d;

  CHECK(cudaMallocManaged((float**)&a_d,nByte));

  CHECK(cudaMallocManaged((float**)&b_d,nByte));

  CHECK(cudaMallocManaged((float**)&res_d,nByte));

  initialData(a_d,nElem);

  initialData(b_d,nElem);

  //CHECK(cudaMemcpy(a_d,a_h,nByte,cudaMemcpyHostToDevice));

  //CHECK(cudaMemcpy(b_d,b_h,nByte,cudaMemcpyHostToDevice));

  dim3 block(512);

  dim3 grid((nElem-1)/block.x+1);

  double iStart,iElaps;

  iStart=cpuSecond();

  sumArraysGPU<<<grid,block>>>(a_d,b_d,res_d,nElem);

  cudaDeviceSynchronize();

  iElaps=cpuSecond()-iStart;

  printf("Execution configuration<<<%d,%d>>> Time elapsed %f sec\n",grid.x,block.x,iElaps);

  //CHECK(cudaMemcpy(res_from_gpu_h,res_d,nByte,cudaMemcpyDeviceToHost));

  sumArrays(b_d,b_d,res_h,nElem);

  checkResult(res_h,res_d,nElem);

  cudaFree(a_d);

  cudaFree(b_d);

  cudaFree(res_d);

  free(res_h);

  return 0;

}

完整内容： https://face2ai.com/CUDA-F-4-5-使用统一内存的向量加法/

【CUDA 基础】4.5 使用统一内存的向量加法的更多相关文章

【CUDA 基础】4.0 全局内存
title: [CUDA 基础]4.0 全局内存 categories: - CUDA - Freshman tags: - 全局内存 - CUDA内存模型 - CUDA内存管理 - 全局内存编程 - ...
【CUDA 基础】5.2 共享内存的数据布局
title: [CUDA 基础]5.2 共享内存的数据布局 categories: - CUDA - Freshman tags: - 行主序 - 列主序 toc: true date: 2018-0 ...
【CUDA 基础】5.0 共享内存和常量内存
title: [CUDA 基础]5.0 共享内存和常量内存 categories: - CUDA - Freshman tags: - 共享内存 - 常量内存 toc: true date: 2018 ...
【CUDA 基础】4.3 内存访问模式
title: [CUDA 基础]4.3 内存访问模式 categories: - CUDA - Freshman tags: - 内存访问模式 - 对齐 - 合并 - 缓存 - 结构体数组 - 数组结 ...
【CUDA 基础】4.2 内存管理
title: [CUDA 基础]4.2 内存管理 categories: - CUDA - Freshman tags: - CUDA内存管理 - CUDA内存分配和释放 - CUDA内存传输 - 固 ...
【CUDA 基础】5.4 合并的全局内存访问
title: [CUDA 基础]5.4 合并的全局内存访问 categories: - CUDA - Freshman tags: - 合并 - 转置 toc: true date: 2018-06- ...
【CUDA 基础】5.3 减少全局内存访问
title: [CUDA 基础]5.3 减少全局内存访问 categories: - CUDA - Freshman tags: - 共享内存 - 归约 toc: true date: 2018-06 ...
【CUDA 基础】5.1 CUDA共享内存概述
title: [CUDA 基础]5.1 CUDA共享内存概述 categories: - CUDA - Freshman tags: - CUDA共享内存模型 - CUDA共享内存分配 - CUDA共 ...
【CUDA 基础】4.1 内存模型概述
title: [CUDA 基础]4.1 内存模型概述 categories: - CUDA - Freshman tags: - CUDA内存模型 - CUDA内存层次结构 - 寄存器 - 共享内存 ...

随机推荐

顶级Python库
绝不能错过的24个顶级Python库 Python有以下三个特点: · 易用性和灵活性 · 全行业高接受度:Python无疑是业界最流行的数据科学语言 · 用于数据科学的Python库的数量优势事实 ...
【数据结构】P1996 约瑟夫问题
[题目链接] https://www.luogu.org/problem/P1996 题目描述 n个人(n<=100)围成一圈,从第一个人开始报数,数到m的人出列,再由下一个人重新从1开始报数, ...
Unity异步加载场景
在游戏中,经常可以看到从一个关卡跳到另一个关卡时,有一个显眼的进度条,研究了下,其时也很简单: public void LoadAScene() { StartCoroutine(LoadSce ...
windows 安装K8s 简易教程
1. 先安装 chocolatey https://chocolatey.org/install administrator 运行命令: @"%SystemRoot%\System32\W ...
C调用C++（C++封装以及C对其调用）
C调用C++(C++封装以及C对其调用) 来源 https://blog.csdn.net/wonengguwozai/article/details/89854781 相关知识提点:很经典的exte ...
php--正则(手机号码)
PHP手机号码正则表达式 php用正则表达式判断手机号码的写法:从文章中匹配出所有的手机号就可以preg_match_all(),如果要检查用户输入的手机号是否正确可这样来检查:preg_match( ...
一个SDL2.0程序的分析
//把图片加载到SDL_Texture SDL_Texture* loadTexture(const std::string &file, SDL_Renderer *ren){ ...
ThreeJS 3d模型简介
本文主要是对Threejs中加载模型的支持种类进行简单的知识科普. 3ds (.3ds) 3ds是3ds max通用储存文件格式.使用的范围更宽,可被更多的软件识别使用. amf (.amf) AMF ...
HashMap闭环(死循环)的详细原因(转)
为何出现死循环简要说明 HashMap是非线程安全的,在并发场景中如果不保持足够的同步,就有可能在执行HashMap.get时进入死循环,将CPU的消耗到100%. HashMap采用链表解决Hash ...
Miniconda虚拟环境管理工具命令方法
创建制定Python版本的虚拟环境 conda create --name 虚拟环境名称 Python=3.7.3(版本号) 进入指定虚拟环境 conda activate 虚拟环境名称退出虚拟环境 ...