三 GPU 并行编程的运算架构

前言

　　GPU 是如何实现并行的？它实现的方式较之 CPU 的多线程又有什么分别？本文将做一个较为细致的分析。

GPU 并行计算架构

　　GPU 并行编程的核心在于线程，一个线程就是程序中的一个单一指令流，一个个线程组合在一起就构成了并行计算网格，成为了并行的程序，下图展示了多核 CPU 与 GPU 的计算网格：

　　二者的区别将在后面探讨。

　　下图展示了一个更为细致的 GPU 并行计算架构:

　　该图表示，计算网格由多个流处理器构成，每个流处理器又包含 n 多块。

　　下面对 GPU 计算网格中的一些概念做细致分析。

概念一：线程

　　线程是 GPU 运算中的最小执行单元，线程能够完成一个最小的逻辑意义操作。

概念二：线程束

　　线程束是 GPU 中的基本执行单元。GPU 是一组 SIMD 处理器的集合，因此每个线程束中的线程是同时执行的。这个概念是为了隐藏对显存进行读写带来的延迟所引入的。

　　目前英伟达公司的显卡此值为 32，不可改动，也不应该对其进行改动。

概念三：线程块

　　一个线程块包含多个线程束，在一个线程块内的所有线程，都可以使用共享内存来进行通信，同步。但一个线程块能拥有的最大线程/线程束，和显卡型号有关。

概念四：流多处理器

　　流多处理器就相当于 CPU 中的核，负责线程束的执行。同一时刻只能有一个线程束执行。

概念五：流处理器

　　流处理器只负责执行线程，结构相对简单。

GPU 和 CPU 在并行计算方面的不同

　　1. 任务数量

　　　　CPU 适合比较少量的任务，而 GPU 则适合做大量的任务。

　　2. 任务复杂度

　　　　CPU 适合逻辑比较复杂的任务，而 GPU 则适合处理逻辑上相对简单的任务 (可用比较少的语句描述)。

　　3. 线程支持方式

　　　　由于 CPU 中线程的寄存器组是公用的，因此CPU 在切换线程的时候，会将线程的寄存器内容保存在 RAM 中，当线程再次启动的时候则会从 RAM 中恢复数据到寄存器。

　　　　而 GPU 中的各个线程则各自拥有其自身的寄存器组，因此其切换速度会快上不少。

　　　　当然，对于单个的线程处理能力来说，CPU 更强。

　　4. 处理器分配原则

　　　　CPU 一般是基于时间片轮转调度原则，每个线程固定地执行单个时间片；而 GPU 的策略则是在线程阻塞的时候迅速换入换出。

　　5. 数据吞吐量

　　　　GPU 中的每个流处理器就相当于一个 CPU 核，一个 GPU 一般具有 16 个流处理器，而且每个流处理器一次能计算 32 个数。

总结

　　1. 了解 CUDA 的线程模型是 GPU 并行编程的基础

　　2. 根据待处理数据类型来组织线程结构是非常非常重要的，而这并不轻松，尤其是当出现了需要共享的数据时。

三 GPU 并行编程的运算架构的更多相关文章

第三篇：GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别? 本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流 ...
四 GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
第四篇：GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
五浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
第五篇：浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
转载三、并行编程 - Task同步机制。TreadLocal类、Lock、Interlocked、Synchronization、ConcurrentQueue以及Barrier等
随笔 - 353, 文章 - 1, 评论 - 5, 引用 - 0 三.并行编程 - Task同步机制.TreadLocal类.Lock.Interlocked.Synchronization.Conc ...
三、并行编程 - Task同步机制。TreadLocal类、Lock、Interlocked、Synchronization、ConcurrentQueue以及Barrier等
在并行计算中,不可避免的会碰到多个任务共享变量,实例,集合.虽然task自带了两个方法:task.ContinueWith()和Task.Factory.ContinueWhenAll()来实现任务串 ...
【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
GPU并行编程小结
http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...

随机推荐

Split的应用
public string qu(string ss) { string s1 = "" ; string[] s = ss.Split(); for (int i = 0; i ...
本地调试WordPress计划终告失败
小猪本来想把博客的网站数据迁移到自己的电脑上面,mysql数据库还是放在主机供应商,这样就能缓解一下每次写博客时访问速度捉急的状况. 计划是美满的,但是只到实施的时候才发现各种问题.先是直接运行程序时 ...
ID3
# -*- coding: utf-8 -*- import copy from numpy import * import math class ID3DTree(object): def __in ...
Mongodb Management Studio
1.服务器管理功能添加服务器,删除服务器 2.服务器,数据库,表,列,索引,树形显示和状态信息查看 3.查询分析器功能.支持select,insert,Delete,update支持自定义分页函数 $ ...
2.4.2电子书fb.c文件
显示层面头文件定义结构体,为显示统一标准 int (*DeviceInit)(void); 显示类驱动初始化 int (*ShowPixel)(int iPenX, int iPenY, unsig ...
KStar ----BPM应用框架，K2 的新星
“KStar”是基于K2 BPM搭建的应用框架产品,将K2最佳实践方案以产品的形式呈现给用户,该框架面向SOA服务,便于二次开发和扩展,流程设计.用户组织.业务表单.流程管理.系统集成等开发工作,都按 ...
毕向东day23--java基础-网络总结
传输层:TCP/UDP UDP例如:qq聊天,录屏软件,桌面共享 TCP建立链接:三次握手,例如,我叫你一声老王(一次),老王回答说:到.(二次),我对老王说,我知道你到了.(三次握手)! ...
URAL 1306 Sequence Median（优先队列）
题意:求一串数字里的中位数.内存为1M.每个数范围是0到2的31次方-1. 思路:很容易想到把数字全部读入,然后排序,但是会超内存.用计数排序但是数又太大.由于我们只需要第n/2.n/2+1大(n为偶 ...
VS调试Ajax
VS调试Ajax: 1.ashx在后台处理程序中设定断点 2.触发AJAX 3.F12打开浏览器调试,搜索找到ajax调用的JS,设置断点,在浏览器中单步调试,会自动进入后台处理程序,然后就可以调试后 ...
copy和assign的使用和区别
1.使用copy和assign都可以进行修饰属性或者变量. 2.区别: (1)copy的使用:使用这个进行修饰的属性,当已经进行初始化之后,就无法再改变属性的数据. 如: @property (cop ...

三 GPU 并行编程的运算架构

三 GPU 并行编程的运算架构的更多相关文章

随机推荐

热门专题