CUDA cufftPlanMany的用法_31通道32*8像素的FFT
#include <cufft.h>
#include <iostream>
#include <cuda_runtime.h>
#include <helper_cuda.h>
#include <stdio.h>
using namespace std;
#define CHANNEL_NUM 31 //通道数、FFT次数
const int dataH = 32; //图像高度
const int dataW = 8; //图像宽度
cufftHandle fftplanfwd;//创建句柄
int main(void){
/* 开辟主机端的内存空间 */
printf("文件名planmany_cuda31.cu...\n");
printf("分配CPU内存空间...\n");
cufftComplex *h_Data = (cufftComplex*)malloc(dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex));//可用cudaMallocHost设置
cufftComplex *h_resultFFT = (cufftComplex*)malloc(dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex));
/* 开辟设备端的内存空间 */
printf("分配GPU内存空间...\n");
/* 定义设备端的内存空间 */
cufftComplex *d_Data;//device表示GPU内存,存储从cpu拷贝到GPU的数据
cufftComplex *fd_Data;//device表示GPU内存,R2C后存入cufftComplex类型数据
checkCudaErrors(cudaMalloc((void**)&d_Data, dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex)));
checkCudaErrors(cudaMemset(d_Data, 0, dataH*CHANNEL_NUM * dataW* sizeof(cufftComplex))); // 初始为0
checkCudaErrors(cudaMalloc((void**)&fd_Data, dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex))); // 开辟R2C后的设备内存
checkCudaErrors(cudaMemset(fd_Data, 0, dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex))); // 初始为0
//随机初始化测试数据
printf("初始化测试数据...\n");
for (int i = 0; i < dataH*CHANNEL_NUM; i++){
for (int j = 0; j < dataW; j++){
h_Data[i*dataW + j].x = float(rand()%255);
h_Data[i*dataW + j].y = float(rand()%255);
}
}
//使用event计算时间
float time_elapsed = 0;
cudaEvent_t start, stop;
cudaEventCreate(&start); //创建Event
cudaEventCreate(&stop);
const int rank = 2;//维数
int n[rank] = { 32, 8 };//n*m
int*inembed = n;//输入的数组size
int istride = 1;//数组内数据连续,为1
int idist = n[0] * n[1];//1个数组的内存大小
int*onembed = n;//输出是一个数组的size
int ostride = 1;//每点DFT后数据连续则为1
int odist = n[0] * n[1];//输出第一个数组与第二个数组的距离,即两个数组的首元素的距离
int batch = CHANNEL_NUM;//批量处理的批数
//采用cufftPlanMany方法
checkCudaErrors(
cufftPlanMany(&fftplanfwd, rank, n, inembed, istride, idist, onembed, ostride, odist, CUFFT_C2C, batch));//针对多信号同时进行FFT
//printf("拷贝CPU数据到GPU中...\n");
checkCudaErrors(
cudaMemcpy(d_Data, h_Data, dataW * dataH*CHANNEL_NUM * sizeof(cufftComplex), cudaMemcpyHostToDevice));
//printf("执行R2C-FFT...\n");
printf("开始计时...\n");
cudaEventRecord(start, 0); //记录当前时间
checkCudaErrors(
cufftExecC2C(fftplanfwd, d_Data, fd_Data, CUFFT_FORWARD));
cudaEventRecord(stop, 0); //记录当前时间
cudaEventSynchronize(start); //Waits for an event to complete.
cudaEventSynchronize(stop); //Waits for an event to complete.Record之前的任务
cudaEventElapsedTime(&time_elapsed, start, stop); //计算时间差
//cudaDeviceSynchronize();
//printf("拷贝GPU数据返回到CPU中...\n");
checkCudaErrors(
cudaMemcpy(h_resultFFT, fd_Data, dataW *dataH*CHANNEL_NUM * sizeof(cufftComplex), cudaMemcpyDeviceToHost));//将fft后的数据拷贝回主机
//printf("显示返回到CPU中的数据...\n");
//for (int i = 0; i < dataH*CHANNEL_NUM*dataW; i++){
// cout << "h_resultFFT[" << i << "]=" << h_resultFFT[i].x << " + " << h_resultFFT[i].y << " i" << endl;
//}
cudaEventDestroy(start); //destory the event
cudaEventDestroy(stop);
printf("执行时间:%f(ms)\n", time_elapsed);
/* 销毁句柄 */
checkCudaErrors(cufftDestroy(fftplanfwd));
/* 释放设备空间 */
checkCudaErrors(cudaFree(d_Data));
checkCudaErrors(cudaFree(fd_Data));
free(h_Data);
free(h_resultFFT);
return 0;
}
CUDA8.0版本+VS2013的编译环境
再谈FFT:
1、库利-图基提出的基于蝶形算法的FFT,当变换的序列数量是2^n个那么变换速度很快;所以再用FFT是经常需要判断需要变换点的数量,不是2^n个则需要补0凑齐。
2、做FFt分析时,幅值的大小与FFT选择的点数相关,但不影响分析的结果,在IFFT时已经做了处理,要得到真实的振幅大小,只要将得到的变换结果乘以2除以N即可。
3、一维FFT与二维FFT原理不一样,二维如果用一维fft函数变换,可以分按行向量傅里叶变换、或按列向量傅里叶变换,二维数组整体对应的傅里叶变换函数维fft2();cufft中对应cufftplan2D();多维对应cufftplanmany();
4、cufftplanmany()数据的接口是一个数组首地址。用法详解:比如你有n通道的j*k维二维数组,那么可以将n个j*k数组的数组存到一个(j*n)*k的二维数组中,然后给赋予函数这个二维数组的首地址,然后设置好原来是j*k维的二维数组,一共有n个这样的数组,且它们是连续存在的(可以看上面代码来理解)。
5、傅里叶变换的作用在于将时域的信号转化到频域来处理,对于两个时域上函数的卷积运算可以转化到频域的乘积上来处理.
CUDA cufftPlanMany的用法_31通道32*8像素的FFT的更多相关文章
- cuda中时间用法
转载:http://blog.csdn.net/jdhanhua/article/details/4843653 在CUDA中统计运算时间,大致有三种方法: <1>使用cutil.h中的函 ...
- 并行计算提升32K*32K点(32位浮点数) FFT计算速度(4核八线程E3处理器)
对32K*32K的随机数矩阵进行FFT变换,数的格式是32位浮点数.将产生的数据存放在堆上,对每一行数据进行N=32K的FFT,记录32K次fft的时间. 比较串行for循环和并行for循环的运行时间 ...
- 两通道实信号使用一个FFT同时计算算法
前言 在工程的实际应用场景中,往往是需要最省资源量.而DSP资源和BRAM资源对FPGA来说弥足珍贵. 对于同时存在多个通道的实信号需要做FFT而言,常规做法是每个通道用一个FFT IP,FFT IP ...
- Java NIO 文件通道 FileChannel 用法
FileChannel 提供了一种通过通道来访问文件的方式,它可以通过带参数 position(int) 方法定位到文件的任意位置开始进行操作,还能够将文件映射到直接内存,提高大文件的访问效率.本文将 ...
- CUDA 笔记
名词解释 SM :Streaming Multiprocessor 而 Block 大致就是对应到 SM 所有的blocks 按照流水线被送到6个SM中进行计算 在 Compute Ca ...
- 【CUDA学习】GPU硬件结构
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...
- C++ IO 详细用法
http://www.cnblogs.com/keam37/ keam所有 转载请注明出处 本文将分别从<iostream>,<sstream>,<fstream> ...
- CUDA学习ing..
0.引言 本文记载了CUDA的学习过程~刚开始接触GPU相关的东西,包括图形.计算.并行处理模式等,先从概念性的东西入手,然后结合实践开始学习.CUDA感觉没有一种权威性的书籍,开发工具变动也比较快, ...
- CUDA零内存拷贝 疑问考证
今天思考了一下CUDA零内存拷贝的问题,感觉在即将设计的程序中会派上用场,于是就查了一下相关信息. 以下是一些有帮助的链接: cuda中的零拷贝用法--针对二维指针 cuda中的零拷贝用法--针对一维 ...
随机推荐
- export export defalut
require/exports 和 import/export 形式不一样 require/exports 的用法只有以下三种简单的写法: const fs = require('fs') expor ...
- Luogu 2059 [JLOI2013]卡牌游戏 - 概率DP
Solution 设状态 $F[i][j] $为 还剩余 $i$ 个人时, 第 $j$ 个人 的胜率. 边界: $F[1][1] = 1$(只剩下一个人了). 这样设置状态就能使 $i-1$ 个人的答 ...
- JianShu_failban2实现动态屏蔽的功能
一,首先是服务安装 #vim /etc/yum.repos.d/Centos-Base.repo 在最新新增 [atrpms] name=Red Hat Enterprise Linux $relea ...
- Java中终止线程的三种方法
终止线程一般建议采用的方法是让线程自行结束,进入Dead(死亡)状态,就是执行完run()方法.即如果想要停止一个线程的执行,就要提供某种方式让线程能够自动结束run()方法的执行.比如设置一个标志来 ...
- macOS X Mount NFS Share / Set an NFS Client
last updated November 3, 2018 in CategoriesLinux, Mac OS X, UNIX How do I access my enterprise NAS s ...
- MVVM模式理解
MVVM 是Model-View-ViewModel 的缩写,它是一种基于前端开发的架构模式,其核心是提供对View 和 ViewModel 的双向数据绑定,这使得ViewModel 的状态改变可以自 ...
- liunx基础命令
linux的简单介绍 linux是一款免费使用和自由传播的内似于unix的操作系统软件,是一个基于POSI和unix的多用户,多任务,支持多线程和多CPU的一种操作系统.主要用于服务器,特别是网络服务 ...
- 2019.02.07 bzoj4316: 小C的独立集(仙人掌+树形dp)
传送门 题意:给出一个仙人掌森林求其最大独立集. 思路:如果没有环可以用经典的树形dpdpdp解决. fi,0/1f_{i,0/1}fi,0/1表示第iii个点不选/选的最大独立集. 然后fi,0+ ...
- 指令发布中如何实现new新消息的提醒?
设计思路:反馈后,最急需了解反馈结果的是申请人,故给每一条反馈信息添加一个查看状态的字段,如CK_STATUS,并为这个状态设计为char(1)类型,java bean中使用integer可以实现默认 ...
- Echarts饼图显示模板
图表类型,必要参数!如为空或不支持类型,则该系列数据不被显示.可选为: 'line'(折线图) | 'bar'(柱状图) | 'scatter'(散点图) | 'k'(K线图) 'pie'(饼图) | ...