C++编程笔记(GPU并行编程-2)

C++与CUDA

内存管理

封装

利用标准库容器实现对GPU的内存管理

#include <iostream>

#include <cuda_runtime.h>

#include <vector>

#include <cstddef>

template<class T>

struct CUDA_Allocator {

  using value_type = T;  //分配器必须要有的

  T *allocate(size_t size) {

    T *dataPtr = nullptr;

    cudaError_t err = cudaMallocManaged(&dataPtr, size * sizeof(T));

    if (err != cudaSuccess) {

      return nullptr;

    }

    return dataPtr;

  }

  void deallocate(T *ptr, size_t size = 0) {

    cudaError_t err = cudaFree(ptr);

  }

};

__global__ void kernel(int *arr, int arrLen) {

  for (int i = blockDim.x * blockIdx.x + threadIdx.x; i < arrLen; i += blockDim.x * gridDim.x) {

    arr[i] = i;

    //printf("i=%d\n", i);

  }

}

int main() {

  int size = 65523;

  std::vector<int, CUDA_Allocator<int>> arr(size);

  kernel<<<13, 28>>>(arr.data(), size);

  cudaError_t err = cudaDeviceSynchronize();

  if (err != cudaSuccess) {

    printf("Error:%s\n", cudaGetErrorName(err));

    return 0;

  }

  for (int i = 0; i < size; ++i) {

    printf("arr[%d]=%d\n", i, arr[i]);

  }

}

其中allocate和deallocate是必须实现的

这里不用默认的std::allocate,使用自己定义的分配器，使得内存分配在GPU上

vector是会自动初始化的，如果不想自动初始化的化，可以在分配器中自己写构造函数

关于分配器的更多介绍

函数调用

template<class Func>

__global__ void para_for(int n, Func func) {

  for (int i = blockDim.x * blockIdx.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) {

    func(i);

  }

}

//定义一个仿函数

struct MyFunctor {

  __device__ void operator()(int i) {

    printf("number %d\n", i);

  }

};

int main() {

  int size = 65513;

  para_for<<<13,33>>>(size,MyFunctor{});

  cudaError_t err = cudaDeviceSynchronize();

  if (err != cudaSuccess) {

    printf("Error:%s\n", cudaGetErrorName(err));

    return 0;

  }

}

同样的，lambda也是被支持的，但是要先在cmake中开启

target_compile_options(${PROJECT_NAME} PUBLIC $<$<COMPILE_LANGUAGE:CUDA>:--extended-lambda>)

lambda

lambda写法

  para_for<<<13, 33>>>(size, [] __device__(int i) { printf("number:%d\n", i); });

lambda捕获外部变量

一定要注意深拷贝和浅拷贝

如果这里直接捕获arr的话，是个深拷贝，这样是会出错的，因为拿到的arr是在CPU上的，而数据是在GPU上的，所以这里要浅拷贝指针，拿到指针的值，就是数据在GPU上的地址，这样就可以使用device函数对数据进行操作了

  std::vector<int, CUDA_Allocator<int>> arr(size);

  int*arr_ptr=arr.data();

  para_for<<<13, 33>>>(size, [=] __device__(int i) { arr_ptr[i] = i; });

  cudaError_t err = cudaDeviceSynchronize();

  if (err != cudaSuccess) {

    printf("Error:%s\n", cudaGetErrorName(err));

    return 0;

  }

  for (int i = 0; i < size; ++i) {

    printf("arr[%d]=%d\n", i, arr[i]);

  }

同时还可以这样捕获

  para_for<<<13, 33>>>(size, [arr=arr.data()] __device__(int i) { arr[i] = i; });

时间测试



#include <chrono>

#define TICK(x) auto bench_##x = std::chrono::steady_clock::now();

#define TOCK(x) std::cout << #x ": " << std::chrono::duration_cast<std::chrono::duration<double> >(std::chrono::steady_clock::now() - bench_##x).count() << "s" << std::endl;

int main(){

  int size = 65513;

  std::vector<float, CUDA_Allocator<float>> arr(size);

  std::vector<float> cpu(size);

  TICK(cpu_sinf)

  for (int i = 0; i < size; ++i) {

    cpu[i] = sinf(i);

  }

  TOCK(cpu_sinf)

  TICK(gpu_sinf)

  para_for<<<16, 64>>>(

      size, [arr = arr.data()] __device__(int i) { arr[i] = sinf(i); });

  cudaError_t err = cudaDeviceSynchronize();

  TOCK(gpu_sinf)

  if (err != cudaSuccess) {

    printf("Error:%s\n", cudaGetErrorName(err));

    return 0;

  }

}

结果:

可以看到，求正弦GPU是要快于CPU的，这里差距还不明显，一般来说速度是由数量级上的差距的

学习链接

C++编程笔记(GPU并行编程-2)的更多相关文章

五浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
第五篇：浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
三 GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别?本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流, ...
第三篇：GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别? 本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流 ...
四 GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
第四篇：GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
大数据学习笔记3 - 并行编程模型MapReduce
分布式并行编程用于解决大规模数据的高效处理问题.分布式程序运行在大规模计算机集群上,集群中计算机并行执行大规模数据处理任务,从而获得海量计算能力. MapReduce是一种并行编程模型,用于大规模数据 ...
C#并发编程之初识并行编程
写在前面之前微信公众号里有一位叫sara的朋友建议我写一下Parallel的相关内容,因为手中商城的重构工作量较大,一时之间无法抽出时间.近日,这套系统已有阶段性成果,所以准备写一下Parallel ...
GPU并行编程小结
http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...

随机推荐

k8s 如何关联pvc到特定的pv
可以使用对 pv 打 label 的方式,具体如下: 创建 pv,指定 label $ cat nfs-pv2.yaml apiVersion: v1 kind: PersistentVolume # ...
第六章：Django 综合篇 - 16：Authentication
Django自带一个用户认证系统,用于处理用户账户.群组.许可和基于cookie的用户会话. Django的认证系统包含了身份验证和权限管理两部分.简单地说,身份验证用于核实某个用户是否合法,权限管理 ...
第四章：Django表单 - 3：Django表单字段汇总
Field.clean(value)[source] 虽然表单字段的Field类主要使用在Form类中,但也可以直接实例化它们来使用,以便更好地了解它们是如何工作的.每个Field的实例都有一个cle ...
MySQL 自增字段取值
1 前言本文来自回答思否网友的一个问题,这个网友新建了一张表,auto_increment_increment设为10,AUTO_INCREMENT主键起始值设为9, 当他插入数据的时候,发现主键值 ...
python动态参数
Python的动态参数有两种,分别是*args和**kwargs,这里面的关键是一个和两个星号的区别,而不是args和kwargs在名字上的区别,实际上你可以使用*any或**whatever的方式. ...
Educational Codeforces Round 106 (Rated for Div. 2)
就ac了2题... A题一开始题意模模糊糊的似懂非懂,然后自己按样例推出了题意,简单题很容易ac了.还是自己的英语水平太菜了.... B题根据0和1的位置关系能看出来,因为0不能在1后面, 所以有00 ...
Jquery关于checkbox选中第二次失效的问题。
$(".selector input[type='checkbox']").attr("checked",true); $(".selector in ...
Mysql通过Canal同步Elasticsearch
目录版本管理 Mysql 设置在MySQL配置文件my.cnf设置: 检查是否开启增加新用户: 安装 Elasticsearch es 跨域问题目录挂载安装 Elasticsearch-He ...
Vue中、参数传递以及重定向
1.参数传递关键部分代码 1.参数传递 <router-link :to="{name:'information',params:{id:1}}">用户信息</ ...
python不确定性计算之粗糙集属性约简
粗糙集属性约简本实验同时采用区别矩阵和依赖度约简. 在依赖度约简中,设置依赖度计算函数和相对约简函数,对读取的数据进行处理,最后根据依赖度约简. 在读取数据后判断有无矛盾,若有则进行决策表分解,然后 ...