基于GPU的算法并行化

GPU计算的目的即是计算加速。相比于CPU，其具有以下三个方面的优势：

l 并行度高：GPU的Core数远远多于CPU（如G100 GPU有240个Cores），从而GPU的任务并发度也远高于CPU；

l 内存带宽高：GPU的内存系统带宽几十倍高于CPU，如CPU （DDR-400）带宽是3.2GB/秒，而GPU内存系统带宽可达147.1GB/秒；

l 运行速度快：GPU在浮点运算速度上较之CPU也具有绝对优势，如对于一般的硬件，CPU（Intel Core 2 Quad Q8200）是 37 GFLOPS，而GPU（nVIDIA Geforce 8800 Ultra（G80-450 GPU））则可达393.6 GFLOPS。

另一方面，GPU采用的SIMD（Single Instruction Multiple Data）架构，这决定了其对执行的任务具有特定的要求（如不适合判断逻辑过多的任务，数据大小不可控的任务等）。而且，应用程序在GPU上也需有特定的实现，包括算法的GPU并行化，程序的定制等。因此，针对GPU并行处理的研究成为一大研究热点。

目前，CUDA和OpenCL是GPU的两种最为流行的编程语言。它们在程序逻辑方面相似，主要直观的区别在于：

l OpenCL比CUDA灵活度高：CUDA只支持NVIDIA的设备，而OpenCL支持各种类型的协处理器，包括GPU，FPGA等；

l CUDA较之OpenCL用户友好性高：CUDA是一个更为高级的抽象，其提供的API更易于使用，而无需编程者对底层设备过多了解；

现有GPU采用SIMD方式执行，即所有线程块在同一时刻执行相同的程序，从而若这些线程块处理的数据量相差大，或计算量分布不均，便会带来线程块的负载不均，进而影响整个任务执行效率。这类问题实则常见的Skew Handling或Load Inbalance问题。

应用算法的GPU并行化之所以成为一个研究问题而不仅仅是工程问题，这其中的主要的问题在于

1）GPU不支持内存的动态分配，从而对于输出结果大小不确定的任务是一个极大的挑战；

2）GPU的SIMD特性使得很多算法不易很好实现，即如何充分利用GPU线程块的并行度；

3）共享数据的竞争读写，共享数据的锁机制带来大量的等待时间消耗。

GPU作为一种协处理器，其的执行受CPU调度。在实际应用中，GPU更多的也是配合CPU工作，从而基于CPU/GPU异构系统的统一任务调度更具实用意义，也是有关GPU的重要研究方面。

GPU采用SIMD架构，各线程块在同一时刻执行相同的Instruction，但对应的是不同的数据。但事实上，GPU线程块具有如下特征：

n 每个线程块只对应于一个的流处理器（SM），即其只能被该对应的SM执行，而一个SM可以对应多个线程块；SM在执行线程块时，线程块中的线程以Warp（每32个线程）为单位调度及并行执行；

n 线程块内的线程可同步，而不同线程块的同步则只能由CPU调用同步命令完成；

n 不同线程块的运行相互独立。

因此，为不同的线程块分配不同的任务，使得GPU做到任务并行，最大化GPU的利用成为可能并具有重要的研究意义。

基于GPU的算法并行化的更多相关文章

[译]基于GPU的体渲染高级技术之raycasting算法
[译]基于GPU的体渲染高级技术之raycasting算法 PS:我决定翻译一下<Advanced Illumination Techniques for GPU-Based Volume Ra ...
2维FFT算法实现——基于GPU的基2快速二维傅里叶变换
上篇讲述了一维FFT的GPU实现(FFT算法实现——基于GPU的基2快速傅里叶变换),后来我又由于需要做了一下二维FFT,大概思路如下. 首先看的肯定是公式: 如上面公式所描述的,2维FFT只需要拆分 ...
FFT算法实现——基于GPU的基2快速傅里叶变换
最近做一个东西,要用到快速傅里叶变换,抱着蛋疼的心态,自己尝试写了一下,遇到一些问题. 首先看一下什么叫做快速傅里叶变换(FFT)(来自Wiki): 快速傅里叶变换(英语:Fast Fourier T ...
[信安Presentation]一种基于GPU并行计算的MD5密码解密方法
-------------------paper--------------------- 一种基于GPU并行计算的MD5密码解密方法 0.abstract1.md5算法概述2.md5安全性分析3.基 ...
基于GPU加速的三维空间分析【转】
基于GPU加速的三维空间分析标签:supermap地理信息系统gisit 文:李凯随着三维GIS 的快速发展和应用普及,三维空间分析技术以其应用中的实用性成为当前GIS技术研究的热点领域.面对日益 ...
基于GPU的高分一号影像正射校正的设计与实现
一 RPC正射校正的原理影像正射校正的方法有很多,主要包含两大类:一类是严格的几何纠正模型,另一类是近似几何纠正模型.当遥感影像的成像模型和有关参数已知时,可以根据严格的成像模型来校正图像,这种方法 ...
QT：用QSet储存自定义结构体的问题——QSet和STL的set是有本质区别的，QSet是基于哈希算法的，要求提供自定义==和qHash函数
前几天要用QSet作为储存一个自定义的结构体(就像下面这个程序一样),结果死活不成功... 后来还跑到论坛上问人了,丢脸丢大了... 事先说明:以下这个例子是错误的 #include <QtCo ...
基于多重信号分类算法的DOA估计
原创博文,转载请注明出处下面的论文是我的雷达处理的作业,拿来共享,不喜勿喷.由于公式编辑器的原因,无法复制公式,全部内容请点击. 基于多重信号分类算法的DOA估计 1引言多重信号分类(MUSIC) ...
基于令牌桶算法实现的SpringBoot分布式无锁限流插件
本文档不会是最新的,最新的请看Github! 1.简介基于令牌桶算法和漏桶算法实现的纳秒级分布式无锁限流插件,完美嵌入SpringBoot.SpringCloud应用,支持接口限流.方法限流.系统限 ...

随机推荐

MonkeyDev安装--逆向开发
MonkeyDev是原有iOS OpenDev的升级,非越狱插件的开发集成神器! 可以使用Xcode开发CaptainHook Tweak.Logos Tweak 和 Command-line Too ...
【mybatis】标签条件中判断入参属性值是否包含子字符串
可以直接使用 contains判断 <foreach collection="list" item="item" index="index&qu ...
jQuery实现C#CheckBoxList模糊搜索
前言最近开发的一套系统中需要对商品进行管理,在选择商品时,要分别从品牌.型号.商品三个类别分别选择对应的选项才能找到需要的商品,三者的关系为:品牌包含型号,型号包含商品,因此使用了三个不同的 asp ...
redis持久化rdb和aof之间的优势劣势
1.RDB(Redis Database) a.基本概念概念: 在指定的时间间隔内将内存中的数据集快照写入磁盘, 也就是行话讲的Snapshot快照,它恢复时是将快照文件直接读到内存里. Redis ...
WebSocket实现Web端即时通信
前言 WebSocket 是HTML5开始提供的一种在浏览器和服务器间进行全双工通信的协议.目前很多没有使用WebSocket进行客户端服务端实时通信的web应用,大多使用设置规则时间的轮询,或者使用 ...
Box2d刚体轨迹预测
前言在游戏开发中经常会接触到各种物理引擎,虽然开源的引擎各种各样,但是基本原理是相通的.实质上物理引擎只是以时间为单位的刷新物理世界中的刚体的位置(其中运用了大量物理公式和知识),然后刷新刚体关联的 ...
[转]QT中的D指针与Q指针
Qt为了使其动态库最大程度上实现二进制兼容,引入了d指针的概念. 那么为什么d指针能实现二进制兼容呢? 为了回答这个问题,首先弄清楚什么是二进制兼容? 所谓二进制兼容动态库,指的是一个在老版本库下运行 ...
中国工业的下一个十年在哪里？APS系统或将引领智能化转型
为什么众多的ERP软件公司没有推出相关产品,当然可以肯定的是并非客户没有此观念,如果一定要说,也只能说目前的需求还不是非常强烈,从ERP厂商非常急切的与APS公司合作,甚至有高价购买APS公司代码的情 ...
配置WDA程序到NWBC
NWBC是通过角色来做的权限管理,包括菜单项. 如果用户没有分配对应的,登陆后看到的东西很少,或者空白. 这里需要先将BC的个性化参数全部配齐,方便使用.BC最左上角,点击,设置,个性化设置. 如下几 ...
剑指：包含min函数的栈(min栈)
题目描述设计一个支持 push,pop,top 等操作并且可以在 O(1) 时间内检索出最小元素的堆栈. push(x)–将元素x插入栈中 pop()–移除栈顶元素 top()–得到栈顶元素 get ...

基于GPU的算法并行化

基于GPU的算法并行化的更多相关文章

随机推荐

热门专题