#include<stdio.h> #include<stdlib.h> #include<time.h> #include<string.h> void main() { int a[4][4]; int b[4][4]; int c[4][4]; int i,j,k,s,t,m,n; srand(time(0)); for(i=0;i<=3;i++) for(j=0;j<=3;j
1.矩阵相加 两个同型矩阵做加法,就是对应的元素相加. #include<iostream> using namespace std; int main(){ int a[3][3]={{1,2,3},{6,5,4},{4,3,2}}; int b[3][3]={{4,3,2},{6,5,4},{1,2,3}}; int c[3][3]={0,0,0,0,0,0,0,0,0}; int i,j; cout<<"Array A:"<<endl; for
程序代码及图解析: #include <iostream> #include "book.h" __global__ void add( int a, int b, int *c ) { *c = a + b; } int main( void ) { int c; int *dev_c; HANDLE_ERROR( cudaMalloc( (void**)&dev_c, sizeof(int) ) ); add<<<1,1>>>
矩阵相乘其实就是前一个矩阵的每一行乘以后一个矩阵的每一列,然后将乘后的每一个数字相加,得到结果矩阵的指定位置的数值.具体算法回顾一下线性代数即可.但是这种行列相乘其实都是独立的,如果是CPU计算必须串行算法,一行一列的乘,但是放到GPU里面则可以并行相乘,如果维数很大那就会大大节约时间. 具体代码如下: __kernel void simpleMultiply(__global float* outPutC, int widthA, int heightA, int widthB , int h
Tr A hdu1575 就是一个快速幂的应用: 只要知道怎么求矩阵相乘!!(比赛就知道会超时,就是没想到快速幂!!!) #include<iostream> #include<stdio.h> #include<string.h> #include<algorithm> using namespace std; ][],b[][],c[][]; int n; int main() { int t,i,j,m,k,d; __int64 sum; scanf(