程序代码及图解析: #include <iostream> #include "book.h" __global__ void add( int a, int b, int *c ) { *c = a + b; } int main( void ) { int c; int *dev_c; HANDLE_ERROR( cudaMalloc( (void**)&dev_c, sizeof(int) ) ); add<<<1,1>>>
矩阵相乘其实就是前一个矩阵的每一行乘以后一个矩阵的每一列,然后将乘后的每一个数字相加,得到结果矩阵的指定位置的数值.具体算法回顾一下线性代数即可.但是这种行列相乘其实都是独立的,如果是CPU计算必须串行算法,一行一列的乘,但是放到GPU里面则可以并行相乘,如果维数很大那就会大大节约时间. 具体代码如下: __kernel void simpleMultiply(__global float* outPutC, int widthA, int heightA, int widthB , int h
Tr A hdu1575 就是一个快速幂的应用: 只要知道怎么求矩阵相乘!!(比赛就知道会超时,就是没想到快速幂!!!) #include<iostream> #include<stdio.h> #include<string.h> #include<algorithm> using namespace std; ][],b[][],c[][]; int n; int main() { int t,i,j,m,k,d; __int64 sum; scanf(
/*编程求两个矩阵相乘的结果.输入第一行是整数m,n,表示第一个矩阵式m行n列的:然后是一个m * n的矩阵.再下一行的输入时整数p,q,表示下一个矩阵p行,q列的(n=p);然后就是一个p行q列的矩阵.要求输出两个矩阵相乘的结果矩阵(1<m.n.p.q<=8).P82页2014年10月3日21:32:23*/#include <iostream>using namespace std;const int size = 10;void init(int *, int *, int