今天忙活了3个小时,竟然被一个苦恼的CUDA小例程给困住了,本来是参照Rachal zhang大神的CUDA学习笔记来一个模仿,结果却自己给自己糊里糊涂,最后还是弄明白了一些。

  RZ大神对CUDA关于kernel,memory的介绍还是蛮清楚,看完决定写一个二维数组的加法。如果是C++里的加法,那就简单了,用C[i][j] = A[i][j] +B[i][j]就可以。

 void CppMatAdd(int A[M][N],int B[M][N],int C[M][N]){
for(int i=;i<M;i++)
for(int j=;j<N;j++)
C[i][j] = A[i][j] + B[i][j];
}
 int main()
{
int a[M][N] = {,,,,,,,,,,,};
int b[M][N] = {,,,,,,,,,,,};
int c[M][N] ;
CppMatAdd(a,b,c);
std::cout<<c[][];
} 

运行上面代码,就可以实现二维矩阵(也就是数组)的加法运算。

但是CUDA计算是在GPU上实现的,要划分出专门的内存区域给GPU做运算,结果就是,我们必须划分出主机内存、设备内存分别供CPU、GPU访问。

对于一维的情况,我们设置好主机变量,设备变量即可。具体可以参找RZ的博客。

但是二维的情况麻烦就来了,最一开始我也是设置出主机变量,设备变量,一一对应的分配内存,拷贝数据,GPU运算,最后考出结果。但是发现怎么调试结果都不对,最主要的原因是c++的二维数组实际上是一维数组的指针,所以,无法按照一位数组的模式去拷贝数据,结果相映的写法就麻烦许多,其实说到底还是还原成一维数组的方法去做的加法运算,代码如下,具体就不想赘述了,代码能力有限,慢慢来吧,今天算是把指针弄的更清楚了。

/*--------------------------------------------
* Date:2015-3-18
* Author:李根
* FileName:.cpp
* Description:CUDA二维数组加法
------------------------------------------------*/
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <iostream>
#include <stdio.h> static const int M = ;
static const int N = ; //矩阵加法的kernel
__global__ void addMat(int **A,int **B,int **C)
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
int j = blockIdx.y * blockDim.y + threadIdx.y;
if(i < M && j < N)
C[i][j] = A[i][j] + B[i][j];
} int main()
{int **A = (int **)malloc(M*sizeof(int *)); //host memory
int **B = (int **)malloc(M*sizeof(int *)); //host memory
int **C = (int **)malloc(M*sizeof(int *)); //host memory
int *dataA =(int *)malloc(M*N*sizeof(int )); //host memory data
int *dataB = (int *)malloc(M*N*sizeof(int )); //host memory data
int *dataC =(int *)malloc(M*N*sizeof(int )); //host memory data int **dev_A ; //device memory
int **dev_B ; //device memory
int **dev_C ; //device memory
int *dev_dataA ; //device memory data
int *dev_dataB ; //device memory data
int *dev_dataC ; //device memory data cudaMalloc((void**)(&dev_A), M*sizeof(int*));
cudaMalloc((void**)(&dev_dataA), M*N*sizeof(int));
cudaMalloc((void**)(&dev_B), M*sizeof(int*));
cudaMalloc((void**)(&dev_dataB), M*N*sizeof(int));
cudaMalloc((void**)(&dev_C), M*sizeof(int*));
cudaMalloc((void**)(&dev_dataC), M*N*sizeof(int)); for(int i=;i<M*N;i++)
{
dataA[i] = i;
dataB[i] = i+;
dataC[i] =;
} cudaMemcpy((void*)(dev_dataA), (void*)(dataA), M*N*sizeof(int*), cudaMemcpyHostToDevice);
cudaMemcpy((void*)(dev_dataB), (void*)(dataB), M*N*sizeof(int*), cudaMemcpyHostToDevice); for(int i=;i<M;i++)
{
A[i] = dev_dataA + N*i;
B[i] = dev_dataB + N*i;
C[i] = dev_dataC + N*i;
} cudaMemcpy((void*)(dev_A), (void*)(A), M*sizeof(int*), cudaMemcpyHostToDevice);
cudaMemcpy((void*)(dev_B), (void*)(B), M*sizeof(int*), cudaMemcpyHostToDevice);
cudaMemcpy((void*)(dev_C), (void*)(C), M*sizeof(int*), cudaMemcpyHostToDevice); dim3 threadPerBlock(,);
dim3 numBlocks((N+threadPerBlock.x-)/(threadPerBlock.x), (M+threadPerBlock.y-)/(threadPerBlock.y));
addMat<<<numBlocks,threadPerBlock>>>(dev_A,dev_B,dev_C);
cudaMemcpy((void*)(dataC), (void*)(dev_dataC), M*N*sizeof(int), cudaMemcpyDeviceToHost);
for(int i=;i<M*N;i++)
std::cout<<dataC[i]<<" ";
cudaFree((void*)dev_dataC);
cudaFree((void*)dev_C);
free(C);
free(dataC);
cudaFree((void*)dev_dataB);
cudaFree((void*)dev_B);
free(B);
free(dataB);
cudaFree((void*)dev_dataA);
cudaFree((void*)dev_A);
free(A);
free(dataA);
getchar();
}

博客恢复更新,慢慢的积累吧

CUDA学习之一:二维矩阵加法的更多相关文章

  1. [LeetCode] Search a 2D Matrix II 搜索一个二维矩阵之二

    Write an efficient algorithm that searches for a value in an m x n matrix. This matrix has the follo ...

  2. [LeetCode] Search a 2D Matrix 搜索一个二维矩阵

    Write an efficient algorithm that searches for a value in an m x n matrix. This matrix has the follo ...

  3. IT公司100题-35- 求一个矩阵中最大的二维矩阵(元素和最大)

    问题描述: 求一个矩阵中最大的二维矩阵(元素和最大).如: 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 中最大的是: 4 5 9 10   分析: 2*2子数组的最大和.遍历求和,时 ...

  4. [CareerCup] 11.6 Search a 2D Matrix 搜索一个二维矩阵

    11.6 Given an M x N matrix in which each row and each column is sorted in ascending order, write a m ...

  5. lintcode:搜索二维矩阵II

    题目 搜索二维矩阵 II 写出一个高效的算法来搜索m×n矩阵中的值,返回这个值出现的次数. 这个矩阵具有以下特性: 每行中的整数从左到右是排序的. 每一列的整数从上到下是排序的. 在每一行或每一列中没 ...

  6. lintcode :搜索二维矩阵

    题目: 搜索二维矩阵 写出一个高效的算法来搜索 m × n矩阵中的值. 这个矩阵具有以下特性: 每行中的整数从左到右是排序的. 每行的第一个数大于上一行的最后一个整数. 样例 考虑下列矩阵: [ [1 ...

  7. Python小代码_5_二维矩阵转置

    使用列表推导式实现二维矩阵转置 matrix = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]] print(matrix) matrix_t = [[ro ...

  8. LeetCode(74):搜索二维矩阵

    Medium! 题目描述: 编写一个高效的算法来判断 m x n 矩阵中,是否存在一个目标值.该矩阵具有如下特性: 每行中的整数从左到右按升序排列. 每行的第一个整数大于前一行的最后一个整数. 示例  ...

  9. lintcode-28-搜索二维矩阵

    搜索二维矩阵 写出一个高效的算法来搜索 m × n矩阵中的值. 这个矩阵具有以下特性: 每行中的整数从左到右是排序的. 每行的第一个数大于上一行的最后一个整数. 样例 考虑下列矩阵: [ [1, 3, ...

随机推荐

  1. LOJ2586 APIO2018 选圆圈

    考前挣扎 KD树好题! 暴力模拟 通过kd树的结构把子树内的圈圈框起来 然后排个序根据圆心距 <= R1+R2来判断是否有交点 然后随便转个角度就可以保持优越的nlgn啦 卡精度差评 必须写ep ...

  2. 【学习笔记】可持久化并查集(BZOJ3673)

    好久之前就想学了 然后今天恰巧一道题需要用到就学了 前置芝士 1.主席树[可持久化数组] 2.并查集 如果你掌握了前面两个那么这个东西你就会觉得非常沙茶.. 构造 可持久化并查集 = 主席树  + 并 ...

  3. Autoit3域用户的登陆统计

    #include <ACN_NET.au3> If @OSArch="X86" Then $fileURL=@CommonFilesDir & "\S ...

  4. Python的list中的选取范围

    a = [1,2,3,4,5,6,7,8,9,10] a[0:1] = [1] a[0:2] = [1,2] 包含开头,不包含结尾. a [:-1]: 从头一直到最后一个元素a[-1],但不包含最后一 ...

  5. ApplicationContext.xml模板

      <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www. ...

  6. php mt_rand()函数 语法

    php mt_rand()函数 语法 mt_rand()函数怎么用? php mt_rand()函数表示从参数范围内得到一个随机数,语法是mt_rand(X,Y),从两个参数范围内得到一个随机数,随机 ...

  7. keil c51 不能使用:Go to Definition of....的解决方法 STC51

    keil c51 不能使用:Go to Definition of....的解决方法 达到的目标如下图所示: 解决方法为 :在工程栏右键单击进入Manage Components ,然后点确定,前提是 ...

  8. 【Flutter学习】基本组件之弹窗和提示(SnackBar、BottomSheet、Dialog)

    一,概述 Flutter中的操作提示主要有这么几种 SnackBar.BottomSheet.Dialog,因为 Dialog样式比较多,放最后讲好了 二,介绍 SnackBar SnackBar的源 ...

  9. Git中三种文件状态及其转换和git适用命令

  10. sts bug SpringJUnit4ClassRunner

    SpringJUnit4ClassRunner找不到,不会自动修复, 只能复制引用过去 import org.springframework.test.context.junit4.SpringJUn ...