一.概述 最近在试图进行cuda并行编程,目标是编写一段矩阵计算代码,将计算结果存储进入GPU的缓冲区当中,并在达到某些要求后强制刷新缓冲区,取得计算结果. 但是考虑时间紧任务重的状况和实际的性能要求,决定使用cublas进行矩阵计算. 本篇文章试图记录我在进行cublas实验时得出的一些结论和一些心得. 二.具体内容 环境和配置 对于在win系统上进行cublas实验需要安装cuda.vs2013+版本.安装过程不再赘述,值得注意的在之后新建项目,引入的头文件应当是cublas_v2,在该头文…