一、介绍

CUDA是Nvidia推出的一个通用GPU计算平台，对于提升并行任务的效率非常有帮助。本人主管的项目中采用了OpenGL做图像渲染，但是在数据处理方面比较慢，导致帧率一直上不来。于是就尝试把计算工作分解成小的任务，使用核函数在CUDA中加速计算。对于CUDA和OpenGL如何交互以前从来没有接触过，这次在实施时趟了不少的坑。在这里记录下OpenGL与CUDA的互操作的两种方式。

二、基本操作流程

OpenGL与CUDA互操作可以分成两种，一种是OpenGL将Buffer对象注册到CUDA中去，供CUDA读写操作，然后再在OpenGL中使用。一般这种情况下注册的是VBO和PBO，VBO一般用于存储顶点坐标、索引等数据；PBO则一般用于存储图像数据，因此称作Pixel Buffer Object。另一种是OpenGL将Texture对象注册到CUDA中去，经CUDA处理后得到纹理内容，然后在OpenGL中渲染出来。不过不管是哪一种互操作类型，其操作流程是一致的：

在OpenGL里面初始化Buffer Object
在CUDA中注册OpenGL中的Buffer Object
CUDA锁定资源，获取操作资源的指针，在CUDA核函数中进行处理
CUDA释放资源，在OpenGL中使用Buffer Object

下面就以代码为例，讲讲两种方式的异同：

（1）OpenGL PBO/VBO在CUDA中的使用

// 初始化Buffer Object

//vertex array object

glGenVertexArrays(, &this->VAO);

//Create vertex buffer object

glGenBuffers(, this->VBO);

//Create Element Buffer Objects

glGenBuffers(, &this->EBO);

//Bind the Vertex Array Object first, then bind and set vertex buffer(s) and attribute pointer(s).

glBindVertexArray(this->VAO);

// 绑定VBO后即在CUDA中注册Buffer Object

glBindBuffer(GL_ARRAY_BUFFER, this->VBO[]);

glBufferData(GL_ARRAY_BUFFER, sizeof(*this->malla)*this->numPoints, this->malla, GL_DYNAMIC_COPY);

cudaGraphicsGLRegisterBuffer(&this->cudaResourceBuf[], this->VBO[], cudaGraphicsRegisterFlagsNone);

glBindBuffer(GL_ARRAY_BUFFER, this->VBO[]);

glBufferData(GL_ARRAY_BUFFER, sizeof(*this->malla)*this->numPoints, this->malla, GL_DYNAMIC_COPY);

cudaGraphicsGLRegisterBuffer(&this->cudaResourceBuf[], this->VBO[], cudaGraphicsRegisterFlagsNone);

// 在CUDA中映射资源，锁定资源

cudaGraphicsMapResources(, &this->cudaResourceBuf[], );

cudaGraphicsMapResources(, &this->cudaResourceBuf[], );

point *devicePoints1;

point *devicePoints2;

size_t size = sizeof(*this->malla)*this->numPoints;

// 获取操作资源的指针，以便在CUDA核函数中使用

cudaGraphicsResourceGetMappedPointer((void **)&devicePoints1, &size, this->cudaResourceBuf[]);

cudaGraphicsResourceGetMappedPointer((void **)&devicePoints2, &size, this->cudaResourceBuf[]);

// execute kernel

dim3 dimGrid(, , );

dim3 dimBlock(this->X/dimGrid.x, this->Y/dimGrid.y, );

modifyVertices<<<dimGrid, dimBlock>>>(devicePoints1, devicePoints2,this->X, this->Y);

modifyVertices<<<dimGrid, dimBlock>>>(devicePoints2, devicePoints1,this->X, this->Y);

// 处理完了即可解除资源锁定，OpenGL可以开始利用处理结果了。

// 注意在CUDA处理过程中，OpenGL如果访问这些锁定的资源会出错。

cudaGraphicsUnmapResources(, &this->cudaResourceBuf[], );

cudaGraphicsUnmapResources(, &this->cudaResourceBuf[], );

值得注意的是，由于这里绑定的是VBO，属于Buffer对象，因此调用的CUDA API是这两个：

cudaGraphicsGLRegisterBuffer();

cudaGraphicsResourceGetMappedPointer();

（2）OpenGL Texture在CUDA中的使用

// 初始化两个Texture并绑定

cudaGraphicsResource_t cudaResources[];

GLuint textureID[];

glEnable(GL_TEXTURE_2D);

glGenTextures(, textureID);

glBindTexture(GL_TEXTURE_2D, textureID[]);

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST);

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST);

glTexImage2D(GL_TEXTURE_2D, , GL_RGBA, , , , GL_RGBA, GL_UNSIGNED_BYTE, NULL);

glBindTexture(GL_TEXTURE_2D, textureID[]);

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST);

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST);

glTexImage2D(GL_TEXTURE_2D, , GL_RGBA, , , , GL_RGBA, GL_UNSIGNED_BYTE, NULL);

// 在CUDA中注册这两个Texture

cudaError_t err = cudaGraphicsGLRegisterImage(&cudaResources[], textureID[], GL_TEXTURE_2D, cudaGraphicsRegisterFlagsWriteDiscard);

if (err != cudaSuccess)

{

    std::cout << "cudaGraphicsGLRegisterImage: " << err << "Line: " << __LINE__;

    return -;

}

err = cudaGraphicsGLRegisterImage(&cudaResources[], textureID[], GL_TEXTURE_2D, cudaGraphicsRegisterFlagsWriteDiscard);

if (err != cudaSuccess)

{

    std::cout << "cudaGraphicsGLRegisterImage: " << err << "Line: " << __LINE__;

    return -;

}

// 在CUDA中锁定资源，获得操作Texture的指针，这里是CudaArray*类型

cudaError_t err = cudaGraphicsMapResources(, cudaResource, );

err = cudaGraphicsSubResourceGetMappedArray(&this->cuArrayL, cudaResource[], , );

err = cudaGraphicsSubResourceGetMappedArray(&this->cuArrayR, cudaResource[], , );

// 数据拷贝至CudaArray。这里因为得到的是CudaArray，处理时不方便操作，于是先在设备内存中

// 分配缓冲区处理，处理完后再把结果存到CudaArray中，仅仅是GPU内存中的操作。

cudaMemcpyToArray(cuArrayL, , , pHostDataL, imgWidth*imgHeight * sizeof(uchar4), cudaMemcpyDeviceToDevice);

cudaMemcpyToArray(cuArrayR, , , pHostDataR, imgWidth*imgHeight * sizeof(uchar4), cudaMemcpyDeviceToDevice);

// 处理完后即解除资源锁定，OpenGL可以利用得到的Texture对象进行纹理贴图操作了。

cudaGraphicsUnmapResources(, &cudaResource[], );

cudaGraphicsUnmapResources(, &cudaResource[], );

注意这里因为使用的是Texture对象，因此使用了不同的API：

cudaGraphicsGLRegisterImage();

cudaGraphicsSubResourceGetMappedArray();

VBO/PBO是属于OpenGL Buffer对象，而OpenGL Texture则是另一种对象。因此，两种类型的处理需要区别对待。在这个地方耽搁了很久，就是因为没有看文档说明。下面一段话正是对这种情况的说明：

From the CUDA Reference Guide entry for `cudaGraphicsResourceGetMappedPointer()`:

> If resource is not a buffer then it cannot be accessed via a pointer and cudaErrorUnknown is returned.

From the CUDA Reference Guide entry for `cudaGraphicsSubResourceGetMappedArray()`:

> If resource is not a texture then it cannot be accessed via an array and cudaErrorUnknown is returned.

In other words, use **GetMappedPointer** for mapped buffer objects. Use **GetMappedArray** for mapped texture objects.

三、参考链接

原文链接：OpenGL与CUDA互操作方式总结

[转]OpenGL与CUDA互操作方式总结的更多相关文章

OpenGL与CUDA互操作方式总结
一.介绍 CUDA是Nvidia推出的一个通用GPU计算平台,对于提升并行任务的效率非常有帮助.本人主管的项目中采用了OpenGL做图像渲染,但是在数据处理方面比较慢,导致帧率一直上不来.于是就尝试把 ...
OpenGL中的渲染方式—— GL_TRIANGLE_STRIP
OpenGL值绘制三角形的方式常用的有三种,分别是GL_TRIANGLES.GL_TRIANGLE_STRIP.GL_TRIANGLE_FAN,其效果如依次是: 从左起:第一个方式是GL_TRIANG ...
CUDA和OpenGL互操作经典博文赏析和学习
1.使用cuda+opengl图形互操作性实现MPR.原学位论文学习:实时交互的医学图像可视化.在该论文的第5.1.1节. 2.cuda与opengl互操作之PBO 3.cuda与opengl互操作之 ...
[转]CUDA和OpenGL互操作的实现及分析
CUDA和OpenGL互操作的实现及分析刘进锋．郭雷(西北工业大学自动化学院,陕西西安710129) 1 CUDA与OpenGL概述 OpenGL是图形硬件的软件接口,它是在SGI等多家世界著名的计 ...
CUDA编程
目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...
CUDA与OpenGL互操作
当处理较大数据量的时候,往往会用GPU进行运算,比如OpenGL或者CUDA.在实际的操作中,往往CUDA实现并行计算会比OpenGL更加方便,而OpenGL在进行后期渲染更具有优势.由于CUDA中的 ...
CUDA与OpenGL互操作实例
本文要解决的问题是如何实现CUDA和OpenGL的互操作,使得GPU能够将通用计算的运算结果交给OpenGL进行绘制. 本文的应用程序主要包括两个方面: 1. 使用CUDA核函数生成图像数据 ...
OpenGL进行简单的通用计算实例
博主作为OpenGL新手,最近要用OpenGL进行并行的数据计算,突然发现这样的资料还是很少的,大部分资料和参考书都是讲用OpenGL进行渲染的.好不容易找到一本书<GPGPU编程技术,从Ope ...
ubuntu安装nvidia驱动以及cuda教程
最近尝试在ubuntu中安装nvidia的显卡驱动以及cuda.花了近三天时间,真的如网上所说错误百出,期间甚至重装了一次ubuntu系统,搞到怀疑人生,整个都是泪- -.最终经过百般“磨难”总算安装 ...

随机推荐

groovy和java的主要区别
1.Default imports,默认情况下,导入下面的包: java.io. * java.lang.* java.math.BigDecimal中 java.math.BigInteger中 j ...
【SSH网上商城项目实战14】商城首页UI的设计
转自:https://blog.csdn.net/eson_15/article/details/51373403 前面我们利用EasyUI和SSH搭建好了后台的基本框架,做好了后台的基本功能,包括对 ...
一个简单IOC与DI示例
1.通过bean工厂实现读取xml文件,并实例化对象,实现自动注入. package com.pri.test; import com.pri.factory.BeanFactory; import ...
python学习之老男孩python全栈第九期_day028知识点总结——面向对象进阶、hashlib
一. 面向对象进阶与实例 dic = {'k': 'v' } 对象:存储属性和调用方法 dic['k'] = 'v' class Foo: def __init__(self, name, ag ...
转：问题解决:The project cannot be built until build path errors are resolved
转自:http://blog.csdn.net/marty_zhu/article/details/2566299 今天在eclipse里遇到这个问题,之前也遇到过,不过,通过clean一下项目,或者 ...
获取所有后缀DDE打开命令
概述: 由于需要使用DDE方式打开文件,所以把支持DDE方式打开文件的参数都导出来到文件,方便查找. 并且提供运行DDE命令的工具,可以用于测试DDE功能. 1.运行脚步GetDDE.vbs可以获取系 ...
自学git心得-4
本节介绍分支的一些具体应用实例. 1.Bug分支设想我们正在分支dev上工作,突然接到一个修复bug的命令,我们需要创建分支issue-101来修复它,在此之前我们肯定需要先保存我们当前未完成的工作 ...
CPU纯软件全虚拟化技术
我们在前面的文章中提到了虚拟化技术的大致分类情况,即分为全虚拟化.半虚拟化和硬件辅助虚拟化3大类.而我们虚拟化技术最主要的虚拟主体就是我们的硬件CPU.内存和IO,那么我们的CPU在全虚拟化模式下如何 ...
spring boot(6)-JdbcTemplate访问数据库
pom.xml 添加jdbc模块和mysql依赖 <dependency> <groupId>org.springframework.boot</groupId&g ...
c# 设计模式之：简单工厂、工厂方法、抽象工厂之小结、区别
很多时候,我发现这三种设计模式难以区分,常常会张冠李戴闹了笑话.很有必要深入总结一下三种设计模式的特点.相同之处和不同之处. 1 本质三个设计模式名字中都含有“工厂”二字,其含义是使用工厂(一个或一 ...

[转]OpenGL与CUDA互操作方式总结