可分离滤波器设计高斯滤波 CUDA程序优化, 实验记录
环境:RTX2060 ,1920X1080p ,循环10次, kernal_size=8
一 、测试前128个线程拷贝到dst数据的性能 ,只测试行卷积, block=(128+2r)X1
1. 使用中间128个线程拷贝 : (36.37+37.11+36.32)/3 = 36.6 GB
2. 改为前128个线程拷贝出数据: (38.89+39.53+39.74)/3 = 39.39GB
实验结果:使用前128个线程拷贝会快10.7%
二 、 测试const 变量对性能的影响 ,只测试行卷积 block =(128+2r)X1
1. radius 为局部变量(函数传入) 40.1 GB
2. radius 为__constant__ 变量 , 40.2GB
实验结果 __constant__ 和 局部变量 的性能实际上差不多
三、 测试block 线程数对性能的影响, 只测试行卷积
1. block = (64+2r)X1 37.10GB
2. block = (128+2r)X1 40.33GB
3. block = (256+2r)X1 37.75GB
4. block = (512+2r)X1 28.31GB
5. block = (128)X1 37.3GB
6. block=(320+2r)X1 34.26GB
7. block=320X1 39GB
8.block=160X1 38.57GB
9.block=(160+2r)X1 39.04GB
10 block=(640+2r)X1 30.34GB
11 block=640X1 27.96GB
实验结果 : block并不是越大越好, 选择 block = (128+2r)X1 可能好一点吧~
四、列卷积时候, 测试连续copy 和 跳步copy性能,只测试列卷积,行卷积注释掉
1. 跳步copy :45.11GB
2. 行连续copy:36.98GB
3 列连续copy:47.31GB
下图分别是1,2,3的拷贝过程示意图
实验结果: 使用第三种拷贝方式会加速4.9%
五、 使用单列拷贝 ,只测试列卷积
1. block=(128+2r)X1 18.89GB
实验结果: 使用单列进行计算会很慢
六 、 测试IMUL对性能的影响
1. 无IMUL 28.30GB
2. IMUL 28.38GB
实验结果 IMUL对实验结果无影响
七 、测试float4 对性能的影响,只测试行卷积
1. 无float4
2. float4
八 、列卷积时候, 测试连续计算 和 跳步计算性能,行卷积没有注释
连续计算 23.7GB
跳步计算 28.7 GB
实验结果: 跳步计算要快一些
可分离滤波器设计高斯滤波 CUDA程序优化, 实验记录的更多相关文章
- opencv 源码分析 CUDA可分离滤波器设计 ( 发现OpenCV的cuda真TM慢 )
1. 主函数 void SeparableLinearFilter::apply(InputArray _src, OutputArray _dst, Stream& _stream) { G ...
- 学习 opencv---(7) 线性邻域滤波专场:方框滤波,均值滤波,高斯滤波
本篇文章中,我们一起仔细探讨了OpenCV图像处理技术中比较热门的图像滤波操作.图像滤波系列文章浅墨准备花两次更新的时间来讲,此为上篇,为大家剖析了"方框滤波","均值滤 ...
- 滤波器——BoxBlur均值滤波及其快速实现
个人博客地址:滤波器--BoxBlur均值滤波及其快速实现 动机:卷积核.滤波器.卷积.相关 在数字图像处理的语境里,图像一般是二维或三维的矩阵,卷积核(kernel)和滤波器(filter)通常指代 ...
- matlab做gaussian高斯滤波
原文链接:https://blog.csdn.net/humanking7/article/details/46826105 核心提示 在Matlab中高斯滤波非常方便,主要涉及到下面两个函数: 函数 ...
- CUDA性能优化----warp深度解析
本文转自:http://blog.163.com/wujiaxing009@126/blog/static/71988399201701224540201/ 1.引言 CUDA性能优化----sp, ...
- SIFT四部曲之——高斯滤波
本文为原创作品,未经本人同意,禁止转载 欢迎关注我的博客:http://blog.csdn.net/hit2015spring和http://www.cnblogs.com/xujianqing/ 或 ...
- 一步步做程序优化-讲一个用于OpenACC优化的程序(转载)
一步步做程序优化[1]讲一个用于OpenACC优化的程序 分析下A,B,C为三个矩阵,A为m*n维,B为n*k维,C为m*k维,用A和B来计算C,计算方法是:C = alpha*A*B + beta* ...
- Java 程序优化 (读书笔记)
--From : JAVA程序性能优化 (葛一鸣,清华大学出版社,2012/10第一版) 1. java性能调优概述 1.1 性能概述 程序性能: 执行速度,内存分配,启动时间, 负载承受能力. 性能 ...
- Atitit 图像处理 平滑 也称 模糊, 归一化块滤波、高斯滤波、中值滤波、双边滤波)
Atitit 图像处理 平滑 也称 模糊, 归一化块滤波.高斯滤波.中值滤波.双边滤波) 是一项简单且使用频率很高的图像处理方法 用途 去噪 去雾 各种线性滤波器对图像进行平滑处理,相关OpenC ...
随机推荐
- redis状态详解
redis查看状态信息 info all|default Info 指定项 server服务器信息 redis_version : Redis 服务器版本 redis_git_sha1 : Git S ...
- 从0开始部署GPU集群-0:基本情况
配置信息(多台服务器) 1 硬件:CPU和GPU*可选 2 操作系统:centos7 3 驱动:nvidia显卡驱动 *可选 4 容器运行时:docker 和 nvidia container ru ...
- 刷题记录:2018HCTF&admin
目录 刷题记录:2018HCTF&admin 一.前言 二.正文 1.解题过程 2.解题方法 刷题记录:2018HCTF&admin 一.前言 经过一个暑假的学习,算是正经一条web狗 ...
- IDEA版本控制忽略文件或目录
写在前面 废话不多说了, 新创建了个helloworld, 见图: 这谁受得了啊 修改配置 在上图红框内部的后面添加: *.iml;*.idea;*.gitignore;*.sh;*.classpat ...
- 分布式事务之最终一致性BASE理论
一.事务 事务提供一种机制将一个活动涉及的所有操作纳入到一个不可分割的执行单元,组成事务的所有操作只有在所有操作均能正常执行的情况下方能提交,只要其中任一操作执行失败,都将导致整个事务的回滚.简单地说 ...
- 使用yarn代替npm作为node.js的模块管理器
使用yarn代替npm作为node.js的模块管理器 转 https://www.jianshu.com/p/bfe96f89da0e Fast, reliable, and secure d ...
- python笔记之按文件名搜索指定路径下的文件
1.搜索文件名中以指定的字符串开头(如搜索dll,结果中含有dll a,dll abc等) 我的目录下有dll a.txt和dll.txt文件 其中a文件夹下还有这两个文件 我希望通过python选择 ...
- IDEA 开发javafx: error: java:package javafx.application does not exist
1)jdk使用1.8, 1.7中未包含javafx相关内容. 2)确保classpath中加入了javafx包路径. 在“file” --> "project structure&qu ...
- [LeetCode] 136. Single Number 单独数
Given a non-empty array of integers, every element appears twice except for one. Find that single on ...
- Postman系列三:Postman中post接口实战(上传文件、json请求)
一:接口测试过程中GET请求与POST请求的主要区别 从开发角度我们看get与post的主要区别是:1.Get是用来从服务器上获得数据,而Post是用来向服务器上传递数据:2.Get安全性比Post低 ...