GPU和CPU耗时统计方法

GPU端耗时统计

     cudaEvent_t start, stop;

     checkCudaErrors(cudaEventCreate(&start));

     checkCudaErrors(cudaEventCreate(&stop));

     checkCudaErrors(cudaDeviceSynchronize());

     float gpu_time = 0.0f;

     cudaEventRecord(start, );//cuda context中的操作完毕事件被记录

     //分配设备端内存

     float *d_idata;

     checkCudaErrors(cudaMalloc((void **) &d_idata, mem_size));

     //将主机端数据拷贝到设备端内存

     checkCudaErrors(cudaMemcpy(d_idata, h_idata, mem_size,  cudaMemcpyHostToDevice));

     //设备端为结果分配内存

     float *d_odata;

     checkCudaErrors(cudaMalloc((void **) &d_odata, mem_size));

     //设置执行参数

     dim3  grid(, , );

     dim3  threads(num_threads, , );

     //执行内核，参数含义：grid是网格的纬度，threads是块的纬度，mem_size最多能动态分配的共享内存大小

     testKernel<<< grid, threads, mem_size >>>(d_idata, d_odata);

     //检查内核执行状态

     getLastCudaError("Kernel execution failed");

     //在主机端为结果分配内存

     float *h_odata = (float *) malloc(mem_size);

     //从设备端拷贝结果到主机端

     checkCudaErrors(cudaMemcpy(h_odata, d_odata, sizeof(float) * num_threads,

                                cudaMemcpyDeviceToHost));

     cudaEventRecord(stop, );

     unsigned long int counter = ;

     while (cudaEventQuery(stop) == cudaErrorNotReady)

     {

         counter++;

     }

     checkCudaErrors(cudaEventElapsedTime(&gpu_time, start, stop));

     printf("GPU执行耗时: %.2f (ms)\n", gpu_time);

     printf("CPU executed %lu iterations while waiting for GPU to finish\n", counter);

CPU端耗时统计

     StopWatchInterface *timer = ;

     sdkCreateTimer(&timer);

     sdkResetTimer(&timer);

     sdkStartTimer(&timer);

     //计算参考方案

     float *reference = (float *) malloc(mem_size);

     computeGold(reference, h_idata, num_threads);

     sdkStopTimer(&timer);

     printf("串行耗时：%f (ms)\n", sdkGetTimerValue(&timer));

GPU和CPU耗时统计方法的更多相关文章

Android Activity启动耗时统计方案
作者:林基宗 Activity的启动速度是很多开发者关心的问题,当页面跳转耗时过长时,App就会给人一种非常笨重的感觉.在遇到某个页面启动过慢的时候,开发的第一直觉一般是onCreate执行速度太慢了 ...
[深度学习] Pytorch学习（二）—— torch.nn 实践：训练分类器（含多GPU训练CPU加载预测的使用方法）
Learn From: Pytroch 官方Tutorials Pytorch 官方文档环境:python3.6 CUDA10 pytorch1.3 vscode+jupyter扩展 #%% #%% ...
springMVC Aspect AOP 接口耗时统计
在接口开发中,我们通常需要统计接口耗时,为后续接口性能做统计.在springMVC中可以用它的aop来记录日志. 1.在spring配置文件中开启AOP <!--*************** ...
【转】GPU 与CPU的作用协调，工作流程、GPU整合到CPU得好处
在不少人的心目中,显卡最大的用途可能就只有两点--玩游戏.看电影,除此之外,GPU并没有其他的作用了.但是随着微软IE9的正式发布,不少人突然发现,微软一直提到一个名词:GPU硬件加速,从而也让不少人 ...
GPU 与CPU的作用协调，工作流程、GPU整合到CPU得好处
http://blog.csdn.net/maopig/article/details/6803141 在不少人的心目中,显卡最大的用途可能就只有两点——玩游戏.看电影,除此之外,GPU并没有其他的作 ...
YOLO---Darknet下的 GPU vs CPU 速度
YOLO---Darknet下的 GPU vs CPU 速度目录一.基础环境二.安装Darknet-yolo v3 三.CPU下测试四.GPU下测试五.测试速度对比结论正文一.基础环境 ...
Java虚拟机性能管理神器 - VisualVM（8）查找JAVA应用程序耗时的方法函数【转】
Java虚拟机性能管理神器 - VisualVM(8) 查找JAVA应用程序耗时的方法函数[转] 标签: javajvm监控工具性能优化 2015-04-07 16:47 1846人阅读评论(0) ...
[深度学习] Pytorch（三）—— 多/单GPU、CPU，训练保存、加载模型参数问题
[深度学习] Pytorch(三)-- 多/单GPU.CPU,训练保存.加载预测模型问题上一篇实践学习中,遇到了在多/单个GPU.GPU与CPU的不同环境下训练保存.加载使用使用模型的问题,如果保存 ...
使用PCAST检测散度以比较GPU和CPU结果
使用PCAST检测散度以比较GPU和CPU结果并行编译器辅助软件测试(PCAST)是英伟达HPC FORTRAN.C++和C编译器中的一个特性.PCAST有两个用例.一个新的处理器或新的编译程序的部 ...

随机推荐

Select语句完整的执行顺序
Select语句完整的执行顺序:1.from子句组装来自不同数据源的数据:2.where子句基于指定的条件对记录行进行筛选:3.group by子句将数据划分为多个分组:4.使用聚集函数进行计算:5. ...
Kafka monitoring监控
一.Metrics kafka有两个metrics包,在看源码的时候很容易混淆 package kafka.metrics package org.apache.kafka.common.metric ...
linux 安装dubbo+zookeeper
dubbo+zookeeper 启动成功注意:dubbo-admin-2.5.4 不支持java8
使用vue Devtools
第一步: 在谷歌应用商店中查找 vue Devtools 并安装.安装之后,即使我们打开了vue项目发现vue标识是灰色的,说明并没有成功启动vue. 第二步: 默认安装的情况下,找到C:\Users ...
贪心：钱币找零问题(C++)
贪心是一种算法范例,它一点一点地构建解决方案,总是选择下一个提供最明显和最直接好处的部分.因此,选择局部最优也会导致全局解的问题最适合贪心问题. 例如,考虑分数背包问题.局部最优策略是选择权重比最大的 ...
S3C2440 中断相关寄存器小探
========================================== 转载时请注明出处和作者联系方式文章出处:http://blog.csdn.net/longintchar 作者联 ...
React.js 小书 Lesson2 - 前端组件化（一）：从一个简单的例子讲起
作者:胡子大哈原文链接:http://huziketang.com/books/react/lesson2 转载请注明出处,保留原文链接和作者信息. 很多课程一上来就给大家如何配置环境.怎么写 Re ...
Linux 下 zip 文件解压乱码解决方案,ubuntu16.10亲测可用
文章来源: https://www.zhihu.com/question/20523036 今天邮件中收到了一个压缩文件,解压后却是乱码,从网上也找了几个方法,目前这个方法还是比较可靠的,如下所示: ...
学习JVM-GC原理
1. 前言 Java和C++之间显著的一个区别就是对内存的管理.和C++把内存管理的权利赋予给开发人员的方式不同,Java拥有一套自动的内存回收系统(Garbage Collection,GC)简称G ...
css 引入方式以及css的选择器
一.css的引入方式: 1.行内样式 <div> <p style="color: red">我是一个段落</p> </div> 2 ...

GPU和CPU耗时统计方法

GPU和CPU耗时统计方法的更多相关文章

随机推荐

热门专题