cuda中用cublas库做矩阵乘法

这里矩阵C=A*B，原始文档给的公式是C=alpha*A*B+beta*C，所以这里alpha=1，beta=0。

主要使用cublasSgemm这个函数，这个函数的第二个参数有三种类型，这里CUBLAS_OP_N求出来矩阵结果是按行排列，所以不需要转置了。

如果用CUBLAS_OP_T参数求得的结果是按列排列，做成C形式的矩阵应该还需要转置一下，并且后面跟的参数也不太一样，这个参数我就没再尝试了。

代码如下：

#include "cuda_runtime.h"

#include "cublas_v2.h"

#include <stdio.h>

#include <stdlib.h>

#include <iostream>

#include <ctime>

using namespace std;

int main()

{

    srand(time());

    int M = ;            //矩阵A的行，矩阵C的行

    int N = ;            //矩阵A的列，矩阵B的行

    int K = ;            //矩阵B的列，矩阵C的列

    float *h_A = (float*)malloc(sizeof(float)*M*N);

    float *h_B = (float*)malloc(sizeof(float)*N*K);

    float *h_C = (float*)malloc(sizeof(float)*M*K);

    for (int i = ; i < M*N; i++)

    {

        h_A[i] = rand() % ;

        cout << h_A[i] << "  ";

        if ((i + ) % N == )

            cout << endl;

    }

    cout << endl;

    for (int i = ; i < N*K; i++)

    {

        h_B[i] = rand() % ;

        cout << h_B[i] << "  ";

        if ((i + ) % K == )

            cout << endl;

    }

    cout << endl;

    float *d_A, *d_B, *d_C,*d_CT;

    cudaMalloc((void**)&d_A, sizeof(float)*M*N);

    cudaMalloc((void**)&d_B, sizeof(float)*N*K);

    cudaMalloc((void**)&d_C, sizeof(float)*M*K);

    cudaMemcpy(d_A, h_A, M*N * sizeof(float), cudaMemcpyHostToDevice);

    cudaMemcpy(d_B, h_B, N*K * sizeof(float), cudaMemcpyHostToDevice);

    float alpha = ;

    float beta = ;

    //C=A*B

    cublasHandle_t handle;

    cublasCreate(&handle);

    cublasSgemm(handle,

        CUBLAS_OP_N,

        CUBLAS_OP_N,

        K,                    //矩阵B的列数

        M,                    //矩阵A的行数

        N,                    //矩阵A的列数

        &alpha,

        d_B,

        K,

        d_A,

        N,

        &beta,

        d_C,

        K);

    cudaMemcpy(h_C, d_C, M*K * sizeof(float), cudaMemcpyDeviceToHost);

    for (int i = ; i < M*K; i++)

    {

        cout << h_C[i] << "  ";

        if ((i+)%K==)

            cout << endl;

    }

    cudaFree(d_A);

    cudaFree(d_B);

    cudaFree(d_C);

    free(h_A);

    free(h_B);

    free(h_C);

    return ;

}

结果：

cuda中用cublas库做矩阵乘法的更多相关文章

有关CUBLAS中的矩阵乘法函数
关于cuBLAS库中矩阵乘法相关的函数及其输入输出进行详细讨论. ▶ 涨姿势: ● cuBLAS中能用于运算矩阵乘法的函数有4个,分别是 cublasSgemm(单精度实数).cublasDgemm( ...
【神经网络与深度学习】【C/C++】使用blas做矩阵乘法
使用blas做矩阵乘法 #define min(x,y) (((x) < (y)) ? (x) : (y)) #include <stdio.h> #include <st ...
numpy.loadtxt() 出现codecError_____ Excel 做矩阵乘法
1) 用 numpy读入csv文件是报错 UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal m ...
使用blas做矩阵乘法
#define min(x,y) (((x) < (y)) ? (x) : (y)) #include <stdio.h> #include <stdlib.h> # ...
使用 CUBLAS 库给矩阵运算提速
前言编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时.那么有没有一些现成的 CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库. 本文将 ...
第四篇：使用 CUBLAS 库给矩阵运算提速
前言编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时.那么有没有一些现成的 CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库. 本文将 ...
POJ 2778 DNA Sequence (AC自动机,矩阵乘法)
题意:给定n个不能出现的模式串,给定一个长度m,要求长度为m的合法串有多少种. 思路:用AC自动机,利用AC自动机上的节点做矩阵乘法. #include<iostream> #includ ...
poj3233之经典矩阵乘法
Matrix Power Series Time Limit: 3000MS Memory Limit: 131072K Total Submissions: 12346 Accepted: ...
51nod 1462 树据结构 | 树链剖分矩阵乘法
题目链接 51nod 1462 题目描述给一颗以1为根的树. 每个点有两个权值:vi, ti,一开始全部是零. Q次操作: 读入o, u, d o = 1 对u到根上所有点的vi += d o = ...

随机推荐

Python：线程指南
1. 线程基础 1.1. 线程状态线程有5种状态,状态转换的过程如下图所示: 1.2. 线程同步(锁) 多线程的优势在于可以同时运行多个任务(至少感觉起来是这样).但是当线程需要共享数据时,可能存在 ...
Elasticsearch聚合 Date Histogram聚合
转 http://www.cnblogs.com/xing901022/p/4951603.html Elasticsearch的聚合主要分成两大类:metric和bucket,2.0中新增了pipe ...
【下载】分享一个ida脚本,非常方便
标题: [下载]分享一个ida脚本,非常方便作者: 梁萧时间: 2013-09-05,13:32:14链接: http://bbs.pediy.com/showthread.php?t=178 ...
Vue笔记：使用node开发vue入门实例
安装NPM 首先在命令终端输入 npm -v 检测是否安装 npm.如果没有,按照下面教程进行安装. 下载地址: nodejs中文网到官网下载自己系统对应的版本,这里我们下载Windows系统的64 ...
关于VS2017的安装和WDK的选择问题
首先就是关于VS2017的安装,我们可以通过微软的官网去寻找我们想要安装的VS版本我们可以随便选择一个我们需要的版本进行下载,任意版本的VS都可以. 然后下载安装的时候,要进行一下这个安装选项的选择 ...
vi/vim编辑器必知必会
一.我们为什么要学习vim编辑器? Linux的命令行界面下面有非常多的文本编辑器.比如经常听说的就有Emacs.pico.nano.joe与vim等.vim可以看做是vi的高级版.我们为什么一定要学 ...
第一次项目上Linux服务器（四：CentOS6下Mysql数据库的安装与配置（转））
一.mysql简介说到数据库,我们大多想到的是关系型数据库,比如mysql.oracle.sqlserver等等,这些数据库软件在windows上安装都非常的方便,在Linux上如果要安装数据库,咱 ...
Spring事务内方法调用自身事务增强的三种方式
ServiceA.java文件: 查看Spring Tx的相关日志: 可以看到只创建了一个事物ServiceA.service方法的事务,但是callSelf方法却没有被事务增强; 分析原因:Spr ...
javascript 易错点、难点笔记
本文主要记录在学习过程中遇到的JavaScript难点或者容易疏忽的细节,也方便自己日后翻阅学习. 1.arr.length === + arr.length arr.length === + arr ...
.1-浅析express源码之入口文件
鸽了鸽了,webpack源码大垃圾,看了那么久,感觉自己越来越渣……还是换个口味,node了解一下? 尝试从express框架源码入手,学习一下node的http模块相关的知识. 入口文件先从框架的 ...

cuda中用cublas库做矩阵乘法

cuda中用cublas库做矩阵乘法的更多相关文章

随机推荐

热门专题