CUDA学习(七)之使用CUDA内置API计时
问题:对于使用GPU计算时,都想知道kernel函数运行所耗费的时间,使用CUDA内置的API可以方便准确的获得kernel运行时间。
在CPU上,可以使用clock()函数和GetTickCount()函数计时。
clock_t start, end; start = clock();
//执行步骤;
...... end = clock();
printf(" time (CPU) : %f ms(毫秒) \n", end - start);
int startTime, endTime; // 开始时间
startTime = GetTickCount(); //执行步骤;
...... endTime = GetTickCount(); cout << " 总时间为 : " << (double)(endTime - startTime)<< " ms " << endl;
对于CUDA核函数计时使用clock()或GetTickCount()函数结果不准确,计算归约求和的例子如下:
//CPU计时
clock_t start, end;
start = clock(); d_SharedMemoryTest << < NThreadX, ThreadX >> > (S_Para, MX); //调用核函数(M个包含N个线程的线程块) cudaDeviceSynchronize();
end = clock(); clock_t time = end - start;
printf(" time (GPU) : %f ms \n", time);
结果为0.000000 ms(明显结果错误):
而使用CUDA内置API(cudaEvent_t)计时,主要代码如下
//GPU计时
cudaEvent_t startTime, endTime;
cudaEventCreate(&startTime);
cudaEventCreate(&endTime);
cudaEventRecord(startTime, ); d_SharedMemoryTest << < NThreadX, ThreadX >> > (S_Para, MX); //调用核函数(M个包含N个线程的线程块) cudaEventRecord(endTime, );
cudaEventSynchronize(startTime);
cudaEventSynchronize(endTime); float time;
cudaEventElapsedTime(&time, startTime, endTime);
printf(" time (GPU) : %f ms \n", time); cudaEventDestroy(startTime);
cudaEventDestroy(endTime);
结果为39.848801 ms:
最后附上全部代码:
#pragma once
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include "device_functions.h" #include <iostream> using namespace std;
const int NX = ; //数组长度
const int ThreadX = ; //线程块大小 //使用shared memory和多个线程块
__global__ void d_SharedMemoryTest(double *para, int MX)
{
int i = threadIdx.x; //该线程块中线程索引
int tid = blockIdx.x * blockDim.x + threadIdx.x; //M个包含N个线程的线程块中相对应全局内存数组的索引(全局线程) __shared__ double s_Para[ThreadX]; //定义固定长度(线程块长度)的共享内存数组
if (tid < MX) //判断全局线程小于整个数组长度NX,防止数组越界
s_Para[i] = para[tid]; //将对应全局内存数组中一段元素的值赋给共享内存数组
__syncthreads(); //(红色下波浪线提示由于VS不识别,不影响运行)同步,等待所有线程把自己负责的元素载入到共享内存再执行下面代码 if (tid < MX)
{
for (int index = ; index < blockDim.x; index *= ) //归约求和 (对应256=4*4*4*4线程数)
{
__syncthreads();
if (i % ( * index) == )
{
s_Para[i] += s_Para[i + index] + s_Para[i + *index] + s_Para[i + *index];
}
}
} if (i == ) //求和完成,总和保存在共享内存数组的0号元素中
para[blockIdx.x * blockDim.x + i] = s_Para[i]; //在每个线程块中,将共享内存数组的0号元素赋给全局内存数组的对应元素,即线程块索引*线程块维度+i(blockIdx.x * blockDim.x + i) } //使用shared memory和多个线程块
void s_ParallelTest()
{
double *Para;
cudaMallocManaged((void **)&Para, sizeof(double) * NX); //统一内存寻址,CPU和GPU都可以使用 double ParaSum = ;
for (int i = ; i<NX; i++)
{
Para[i] = ; //数组赋值
ParaSum += Para[i]; //CPU端数组累加
} cout << " CPU result = " << ParaSum << endl; //显示CPU端结果
double d_ParaSum; int Blocks = ((NX + ThreadX - ) / ThreadX);
cout << " 线程块大小 :" << ThreadX << " 线程块数量 :" << Blocks << endl; double *S_Para;
int MX = ThreadX * Blocks;
cudaMallocManaged(&S_Para, sizeof(double) * MX);
for (int i=; i<MX; i++)
{
if (i < NX)
S_Para[i] = Para[i];
} ////CPU计时
//clock_t start, end;
//start = clock(); //d_SharedMemoryTest << < Blocks, ThreadX >> > (S_Para, MX); //调用核函数(M个包含N个线程的线程块)
//
//cudaDeviceSynchronize();
//end = clock(); //clock_t time = end - start;
//printf(" time (GPU) : %f ms \n", time); //GPU计时
cudaEvent_t startTime, endTime;
cudaEventCreate(&startTime);
cudaEventCreate(&endTime);
cudaEventRecord(startTime, ); d_SharedMemoryTest << < Blocks, ThreadX >> > (S_Para, MX); //调用核函数(M个包含N个线程的线程块) cudaEventRecord(endTime, );
cudaEventSynchronize(startTime);
cudaEventSynchronize(endTime); float time;
cudaEventElapsedTime(&time, startTime, endTime);
printf(" time (GPU) : %f ms \n", time); cudaEventDestroy(startTime);
cudaEventDestroy(endTime); for (int i=; i<Blocks; i++)
{
d_ParaSum += S_Para[i*ThreadX]; //将每个线程块相加求的和(保存在对应全局内存数组中)相加求和
} cout << " GPU result = " << d_ParaSum << endl; //显示GPU端结果 } int main() { s_ParallelTest(); system("pause");
return ;
}
CUDA学习(七)之使用CUDA内置API计时的更多相关文章
- Python基础学习参考(三):内置函数
一:内置函数 在第一篇文章中,我们简单的认识了一下print()函数和input()函数,也就是输入和输出,这些函数我们可以直接的调用,不要自己定义或者引入什么,对吧?想这样的函数就叫做内置函数.这里 ...
- 前端MVC学习总结(三)——AngularJS服务、路由、内置API、jQueryLite
一.服务 AngularJS功能最基本的组件之一是服务(Service).服务为你的应用提供基于任务的功能.服务可以被视为重复使用的执行一个或多个相关任务的代码块. AngularJS服务是单例对象, ...
- 前端MVC学习笔记(三)——AngularJS服务、路由、内置API、jQueryLite
一.服务 AngularJS功能最基本的组件之一是服务(Service).服务为你的应用提供基于任务的功能.服务可以被视为重复使用的执行一个或多个相关任务的代码块. AngularJS服务是单例对象, ...
- 学习angularjs的内置API函数
angularjs的内置API函数有很多,如isString()判断给定的对象是否为字符串,如果是返回 true,反之返回false:isNumber()判断给定的对象是否为数字,如果是返回 true ...
- ruby -- 基础学习(七)时间的内置函数和格式说明
Rails -- 时间的内置函数和格式说明 FROM:http://www.douban.com/note/99064603/ time = Time.now #获得当前时间 time.gmt ...
- Python基础学习笔记(七)常用元组内置函数
参考资料: 1. <Python基础教程> 2. http://www.runoob.com/python/python-tuples.html 3. http://www.liaoxue ...
- Python学习day07 - Python进阶(1) 内置方法
figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...
- AngularJS学习笔记(四)内置指令
说说指令 不得不赞叹,指令是ng最为强大的功能之一,好吧,也可以去掉之一,是最强大的功能.ng内置了许多自定义的指令,这避免了我们自己去造轮子.同时,ng也提供了自定义指令的功能,可以让我们的页面元素 ...
- Python学习(五)函数 —— 内置函数 lambda filter map reduce
Python 内置函数 lambda.filter.map.reduce Python 内置了一些比较特殊且实用的函数,使用这些能使你的代码简洁而易读. 下面对 Python 的 lambda.fil ...
随机推荐
- mysql主从之基于mycat实现读写分离
一 环境 1.1 结构 192.168.132.125 mycat 192.168.132.121 master 192.168.132.122 slave 主从已经配置完成 1.2 安装myca ...
- MyBatis使用mapper动态代理实现DAO接口
工具: mysql 5.5.62 IDEA 参考自:https://www.cnblogs.com/best/p/5688040.html 遇到的问题: 无法读取src/main/java下配置文 ...
- Spring Boot (5) 整合 RabbitMQ
一.前言 RabbitMQ是实现了AMQP(高级消息队列协议)的开源消息中间件,RabbitMQ服务器是用Erlang(面向并发的编程语言)编写的. RabbitMQ官网下载地址:https://ww ...
- 洛谷$P4768\ [NOI2018]$归程 $kruscal$重构树
正解:$kruscal$重构树 解题报告: 传送门$QwQ$ 语文不好选手没有人权$TT$连题目都看不懂真的要哭了$kk$ 所以先放个题目大意?就说给定一个$n$个点,$m$条边的图,每条边有长度和海 ...
- 调试排错 - Java问题排查:Linux命令
本文原创,更多内容可以参考: Java 全栈知识体系.如需转载请说明原处. Java 在线问题排查主要分两篇:本文是第一篇,通过linux常用命令排查.@pdai 文本操作 文本查找 - grep g ...
- java序列化(一)
今天我们来探讨一下java的序列化与反序列化.之前对此一直有概念,但是并没有真正的去测试.大家都知道,所谓的序列化就是把java代码读取到一个文件中,反序列化就是从文件中读取出对象.在网络传输过程中, ...
- vim添加多行注释的几种方式
最近需要在阿里云上部署项目,不可避免地会遇到vim这个工具,查了一些资料,总结了一下使用vim多行注释的方法 块操作 多行注释: 首先按esc进入命令行模式下,按下Ctrl + v,进入列(也叫区块) ...
- python中super()
super() : 获取当前类的父类 效果图: 代码: class Animal: def __init__(self,name): self._name = name @property def n ...
- mysql 多主一从
一.主服务器准备 1.1.环境准备 两台主机器ip分别为 100.100.100.105 (主1) 100.100.100.106(主2) 安装 mysql [root@centos ~]# yum ...
- Unity事件系统EventSystem简析
相关组件和类 EventSystem 1.负责InputModule的切换(因为现在游戏大部分都只有一个StanaloneInputModule,所以切换这部分可以先不考虑). 2.负责InputMo ...