Cublas矩阵加速运算

前言

　　编写 CUDA 程序真心不是个简单的事儿，调试也不方便，很费时。那么有没有一些现成的 CUDA 库来调用呢？

　　答案是有的，如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库。

　　本文将大致介绍如何使用 CUBLAS 库，同时演示一个使用 CUBLAS 库进行矩阵乘法的例子。

CUBLAS 内容

　　CUBLAS 是 CUDA 专门用来解决线性代数运算的库，它分为三个级别：

　　Lev1. 向量相乘

　　Lev2. 矩阵乘向量

　　Lev3. 矩阵乘矩阵

　　同时该库还包含状态结构和一些功能函数。

CUBLAS 用法

　　大体分成以下几个步骤：

　　1. 定义 CUBLAS 库对象

　　2. 在显存中为待运算的数据以及需要存放结果的变量开辟显存空间。( cudaMalloc 函数实现 )

　　3. 将待运算的数据传输进显存。( cudaMemcpy，cublasSetVector 等函数实现 )

　　3. 调用 CUBLAS 库函数 ( 根据 CUBLAS 手册调用需要的函数 )

　　4. 从显存中获取结果变量。( cudaMemcpy，cublasGetVector 等函数实现 )

　　5. 释放申请的显存空间以及 CUBLAS 库对象。( cudaFree 及 cublasDestroy 函数实现 )

代码示例

　　如下程序使用 CUBLAS 库进行矩阵乘法运算，请仔细阅读注释，尤其是 API 的参数说明：

  1 // CUDA runtime 库 + CUBLAS 库

  2 #include "cuda_runtime.h"

  3 #include "cublas_v2.h"

  4

  5 #include <time.h>

  6 #include <iostream>

  7

  8 using namespace std;

  9

 10 // 定义测试矩阵的维度

 11 int const M = 5;

 12 int const N = 10;

 13

 14 int main()

 15 {

 16     // 定义状态变量

 17     cublasStatus_t status;

 18

 19     // 在 内存 中为将要计算的矩阵开辟空间

 20     float *h_A = (float*)malloc (N*M*sizeof(float));

 21     float *h_B = (float*)malloc (N*M*sizeof(float));

 22

 23     // 在 内存 中为将要存放运算结果的矩阵开辟空间

 24     float *h_C = (float*)malloc (M*M*sizeof(float));

 25

 26     // 为待运算矩阵的元素赋予 0-10 范围内的随机数

 27     for (int i=0; i<N*M; i++) {

 28         h_A[i] = (float)(rand()%10+1);

 29         h_B[i] = (float)(rand()%10+1);

 30

 31     }

 32

 33     // 打印待测试的矩阵

 34     cout << "矩阵 A :" << endl;

 35     for (int i=0; i<N*M; i++){

 36         cout << h_A[i] << " ";

 37         if ((i+1)%N == 0) cout << endl;

 38     }

 39     cout << endl;

 40     cout << "矩阵 B :" << endl;

 41     for (int i=0; i<N*M; i++){

 42         cout << h_B[i] << " ";

 43         if ((i+1)%M == 0) cout << endl;

 44     }

 45     cout << endl;

 46

 47     /*

 48     ** GPU 计算矩阵相乘

 49     */

 50

 51     // 创建并初始化 CUBLAS 库对象

 52     cublasHandle_t handle;

 53     status = cublasCreate(&handle);

 54

 55     if (status != CUBLAS_STATUS_SUCCESS)

 56     {

 57         if (status == CUBLAS_STATUS_NOT_INITIALIZED) {

 58             cout << "CUBLAS 对象实例化出错" << endl;

 59         }

 60         getchar ();

 61         return EXIT_FAILURE;

 62     }

 63

 64     float *d_A, *d_B, *d_C;

 65     // 在 显存 中为将要计算的矩阵开辟空间

 66     cudaMalloc (

 67         (void**)&d_A,    // 指向开辟的空间的指针

 68         N*M * sizeof(float)    //　需要开辟空间的字节数

 69     );

 70     cudaMalloc (

 71         (void**)&d_B,

 72         N*M * sizeof(float)

 73     );

 74

 75     // 在 显存 中为将要存放运算结果的矩阵开辟空间

 76     cudaMalloc (

 77         (void**)&d_C,

 78         M*M * sizeof(float)

 79     );

 80

 81     // 将矩阵数据传递进 显存 中已经开辟好了的空间

 82     cublasSetVector (

 83         N*M,    // 要存入显存的元素个数

 84         sizeof(float),    // 每个元素大小

 85         h_A,    // 主机端起始地址

 86         1,    // 连续元素之间的存储间隔

 87         d_A,    // GPU 端起始地址

 88         1    // 连续元素之间的存储间隔

 89     );

 90     cublasSetVector (

 91         N*M,

 92         sizeof(float),

 93         h_B,

 94         1,

 95         d_B,

 96         1

 97     );

 98

 99     // 同步函数

100     cudaThreadSynchronize();

101

102     // 传递进矩阵相乘函数中的参数，具体含义请参考函数手册。

103     float a=1; float b=0;

104     // 矩阵相乘。该函数必然将数组解析成列优先数组

105     cublasSgemm (

106         handle,    // blas 库对象

107         CUBLAS_OP_T,    // 矩阵 A 属性参数

108         CUBLAS_OP_T,    // 矩阵 B 属性参数

109         M,    // A, C 的行数

110         M,    // B, C 的列数

111         N,    // A 的列数和 B 的行数

112         &a,    // 运算式的 α 值

113         d_A,    // A 在显存中的地址

114         N,    // lda

115         d_B,    // B 在显存中的地址

116         M,    // ldb

117         &b,    // 运算式的 β 值

118         d_C,    // C 在显存中的地址(结果矩阵)

119         M    // ldc

120     );

121

122     // 同步函数

123     cudaThreadSynchronize();

124

125     // 从 显存 中取出运算结果至 内存中去

126     cublasGetVector (

127         M*M,    //  要取出元素的个数

128         sizeof(float),    // 每个元素大小

129         d_C,    // GPU 端起始地址

130         1,    // 连续元素之间的存储间隔

131         h_C,    // 主机端起始地址

132         1    // 连续元素之间的存储间隔

133     );

134

135     // 打印运算结果

136     cout << "计算结果的转置 ( (A*B)的转置 )：" << endl;

137

138     for (int i=0;i<M*M; i++){

139             cout << h_C[i] << " ";

140             if ((i+1)%M == 0) cout << endl;

141     }

142

143     // 清理掉使用过的内存

144     free (h_A);

145     free (h_B);

146     free (h_C);

147     cudaFree (d_A);

148     cudaFree (d_B);

149     cudaFree (d_C);

150

151     // 释放 CUBLAS 库对象

152     cublasDestroy (handle);

153

154     getchar();

155

156     return 0;

157 }

运行测试

　　PS：矩阵元素是随机生成的

小结

　　1. 使用 CUDA 库固然方便，但也要仔细的参阅函数手册，其中每个参数的含义都要很清晰才不容易出错。

　　2. 如果程序仅使用 CUDA 库的话，用 .cpp 源码文件即可 (不用 .cu)

Cublas矩阵加速运算的更多相关文章

斐波那契数列F(n)【n超大时的（矩阵加速运算）模板】
hihocoder #1143 : 骨牌覆盖问题·一时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述骨牌,一种古老的玩具.今天我们要研究的是骨牌的覆盖问题: 我们有一个 ...
Luogu P3390 【模板】矩阵快速幂&&P1939 【模板】矩阵加速（数列）
补一补之前的坑因为上次关于矩阵的那篇blog写的内容太多太宽泛了,所以这次把一些板子和基本思路理一理先看这道模板题:P3390 [模板]矩阵快速幂首先我们知道矩阵乘法满足结合律而不满足交换律的一 ...
matlab 中使用 GPU 加速运算
为了提高大规模数据处理的能力,matlab 的 GPU 并行计算,本质上是在 cuda 的基础上开发的 wrapper,也就是说 matlab 目前只支持 NVIDIA 的显卡. 1. GPU 硬件支 ...
洛谷P3502 [POI2010]CHO-Hamsters感想及题解（图论+字符串+矩阵加速$dp\&Floyd$）
洛谷P3502 [POI2010]CHO-Hamsters感想及题解(图论+字符串+矩阵加速$dp\&Floyd$) 标签:题解阅读体验:https://zybuluo.com/Junl ...
快速电路仿真器（FastSPICE）中的高性能矩阵向量运算实现
今年10-11月份参加了EDA2020(第二届)集成电路EDA设计精英挑战赛,通过了初赛,并参加了总决赛,最后拿了一个三等奖,虽然成绩不是很好,但是想把自己做的分享一下,我所做的题目是概伦电子出的F题 ...
3D Cube计算引擎加速运算
3D Cube计算引擎加速运算华为达芬奇架构的AI芯片Ascend910,同时与之配套的新一代AI开源计算框架MindSpore. 为什么要做达芬奇架构? AI将作为一项通用技术极大地提高生产力,改 ...
C#的winform矩阵简单运算
C#的winform矩阵简单运算程序截图关键代码 using System; using System.Collections.Generic; using System.ComponentMod ...
HDU 5564 Clarke and digits 状压dp+矩阵加速
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5564 题意: 求长度在[L,R]范围,并且能整除7的整数的总数. 题解: 考虑最原始的想法: dp[ ...
【 CodeForces - 392C】 Yet Another Number Sequence （二项式展开+矩阵加速）
Yet Another Number Sequence Description Everyone knows what the Fibonacci sequence is. This sequence ...

随机推荐

配置多个数据源，spring profile 多环境配置管理
针对生产环境,测试环境,以及本地调试开发有时会配置多套数据库,在一个数据配置文件进行修改,往往有时发布到生成环境会忘记修改,或者本地调试时还是生产环境的库,会导致生产环境数据被污染. ps--刚开始配 ...
HDU 3761 炸碉堡【半平面交（nlogn）】+【二分】
<题目链接> < 转载于 > 题目大意: 给出一个凸多边形,顶点为一些防御塔,保护范围是凸多形内部,不包括边界,在多边形内部选择一点,使得对方至少需要摧毁的塔防数量最多 ...
移动端Tap与滑屏实战技巧总结以及Vue混合开发自定义指令
最近在忙混合开发,因交互相对复杂,所以也踩了很多坑.在此做一下总结. 1.tap事件的实际应用在使用tap事件时,老生常谈的肯定是点透问题,大多情况下,在有滑屏交互的页面时,我们会在根节点阻止默认行 ...
JavaFx 中常见的包和类（javafx笔记）
JavaFx 中常见的包和类(javafx笔记 ) 更多详细内容请参考<Pro JavaFX 8>. javafx.stage 包包含以下类: Stage 类 Stage 类是任何 J ...
IdentityServer4-端点
一.发现端点二.授权端点三.令牌端点四.UserInfo端点五.Introspection端点六.撤销端点七.结束会话端点一.发现端点发现端点可用于检索有关IdentityServer ...
django-访问控制
django自带的用户认证系统提供了访问控制的的功能. 1.只允许登录的用户登录 django的用户可分为两类,一是可认证的用户,也就是在django.contrib.auth.models. ...
轻松学C#----第一篇笔记
C#是微软公司推出的一种面向对象的开发语言,于2002年发布,经历了10年的发展,已经广泛应用于各种生产领域.以它为基础语言的ASP.NET已经称为主流网站开发技术.[入门] 共三章: 第一篇:C#概 ...
zookeepercli - Command Line Interface for ZooKeeper
简介 ZooKeeper命令行界面(CLI)用于与ZooKeeper进行交互以用于开发目的.它对于调试很有用. 要执行ZooKeeper CLI操作,首先打开你的ZooKeeper服务器(“bin / ...
C# 不同类型对象同名属性赋值
/// <summary> /// 不同类型对象同名属性赋值 /// </summary> /// <typeparam name="S">源类 ...
动态创建的 CEdit 被限制长度，增加 ES_AUTOHSCROLL 属性；被无法Tab激活焦点，增加 WS_TABSTOP 属性(转)
动态创建的 CEdit 被限制长度,增加 ES_AUTOHSCROLL 属性:被无法Tab激活焦点,增加 WS_TABSTOP 属性. CEdit m_editUrl; // ES_AUTOHSCRO ...

Cublas矩阵加速运算

Cublas矩阵加速运算的更多相关文章

随机推荐

热门专题