编写CUDA内核
编写CUDA内核
介绍
与用于CPU编程的传统顺序模型不同,CUDA具有执行模型。在CUDA中,编写的代码将同时由多个线程(通常成百上千个)执行。解决方案将通过定义网格,块和线程层次结构进行建模。
Numba的CUDA支持提供了用于声明和管理此线程层次结构的工具。这些功能与NVidia的CUDA C语言开放的功能非常相似。
Numba还开放了三种GPU内存:全局设备内存(连接到GPU本身的大型,相对较慢的片外内存),片上 共享内存和本地内存。对于除最简单算法以外的所有算法,务必仔细考虑如何使用和访问内存,以最大程度地减少带宽需求和争用,这一点很重要。
内核声明
一个核心功能是指从CPU代码(*)称为GPU功能。它具有两个基本特征:
- 内核无法显式返回值;所有结果数据都必须写入传递给函数的数组中(如果计算标量,则可能传递一个单元素数组);
- 内核在调用时显式声明其线程层次结构:即线程块数和每个块的线程数(请注意,虽然内核仅编译一次,但可以使用不同的块大小或网格大小多次调用)。
用Numba编写CUDA内核看起来非常像为CPU编写JIT函数:
@cuda.jit
def increment_by_one(an_array):
"""
Increment all array elements by one.
"""
# code elided here; read further for different implementations
(*)注意:较新的CUDA支持设备端内核启动;此功能称为动态并行性,但Numba当前不支持它)
内核调用
通常以以下方式启动内核:
threadsperblock = 32
blockspergrid = (an_array.size + (threadsperblock - 1)) // threadsperblock
increment_by_one[blockspergrid, threadsperblock](an_array)
注意到两个步骤:
- 通过指定多个块(或“每个网格的块”)和每个块的线程数来实例化内核。两者的乘积将给出启动的线程总数。内核实例化是通过采用已编译的内核函数(在此处increment_by_one)并用整数元组对其进行索引来完成的。
- 通过将输入数组(如果需要,以及任何单独的输出数组)传递给内核来运行内核。内核异步运行:启动将其在设备上的执行排队,然后立即返回。可以 cuda.synchronize()用来等待所有先前的内核启动完成执行。
注意
传递驻留在主机内存中的数组,将隐式地导致将副本复制回主机,这将是同步的。在这种情况下,直到将数据复制回内核启动才会返回,因此似乎是同步执行的。
选择块大小
在声明内核所需的线程数时,具有两级层次结构似乎很奇怪。块大小(即每个块的线程数)通常很关键:
- 在软件方面,块大小确定多少线程共享内存的给定区域。
- 在硬件方面,块的大小必须足够大以完全占用执行单元。建议可在 CUDA C编程指南中找到。
多维块和网格
为了帮助处理多维数组,CUDA允许指定多维块和网格。在上面的示例中,可以使blockspergridandthreadsperblock元组为一个,两个或三个整数。与等效大小的一维声明相比,这不会改变所生成代码的效率或行为,但可以帮助以更自然的方式编写算法。
Thread线程定位
运行内核时,内核函数的代码由每个线程执行一次。因此,它必须知道它在哪个线程中,以便知道它负责哪个数组元素(复杂算法可以定义更复杂的职责,但是基本原理是相同的)。
一种方法是让线程确定其在网格和块中的位置,然后手动计算相应的数组位置:
@cuda.jit
def increment_by_one(an_array):
# Thread id in a 1D block
tx = cuda.threadIdx.x
# Block id in a 1D grid
ty = cuda.blockIdx.x
# Block width, i.e. number of threads per block
bw = cuda.blockDim.x
# Compute flattened index inside the array
pos = tx + ty * bw
if pos < an_array.size: # Check array boundaries
an_array[pos] += 1
注意
除非确定块大小和网格大小是阵列大小的除数,否则必须如上所述检查边界。
threadIdx,blockIdx,blockDim和gridDim 是由CUDA后端为知道Thread线程层次结构的几何形状和当前线程的该几何形状内的位置,唯一目的提供特殊对象。
这些对象可以是1D,2D或3D,具体取决于调用内核的方式 。在每个维度访问该值,可使用x,y并z分别这些对象的属性。
numba.cuda.threadIdx
当前线程块中的线程索引。对于1D块,索引(由x属性赋予)是一个整数,范围从0(包括)到numba.cuda.blockDim排除(exclusive)。当使用多个维度时,每个维度都存在类似的规则。
numba.cuda.blockDim
实例化内核时声明的线程块的形状。对于给定内核中的所有线程,即使属于不同的块(即,每个块“已满”),该值也相同。
numba.cuda.blockIdx
线程网格中的块索引启动了内核。对于一维网格,索引(由x属性赋予)是一个整数,范围从0(含)到numba.cuda.gridDim不包含(exclusive)。当使用多个维度时,每个维度都存在类似的规则。
numba.cuda.gridDim
实例化内核时,声明的块网格形状,即此内核调用启动的块总数。
绝对位置
简单的算法将倾向于总是以与上例相同的方式使用线程索引。Numba提供了其它工具来自动执行此类计算:
numba.cuda.grid(ndim )
返回当前线程在整个块网格中的绝对位置。 ndim应该与实例化内核时声明的维数相对应。如果ndim为1,则返回一个整数。如果ndim为2或3,则返回给定整数的元组。
numba.cuda.gridsize(ndim )
返回整个块网格中Thread线程的绝对尺寸(或形状)。 ndim与grid()上述含义相同。
使用这些功能,递增示例可以变成:
@cuda.jit
def increment_by_one(an_array):
pos = cuda.grid(1)
if pos < an_array.size:
an_array[pos] += 1
二维数组和线程网格的相同示例为:
@cuda.jit
def increment_a_2D_array(an_array):
x, y = cuda.grid(2)
if x < an_array.shape[0] and y < an_array.shape[1]:
an_array[x, y] += 1
注意,实例化内核时,网格计算仍必须手动完成,例如:
threadsperblock = (16, 16)
blockspergrid_x = math.ceil(an_array.shape[0] / threadsperblock[0])
blockspergrid_y = math.ceil(an_array.shape[1] / threadsperblock[1])
blockspergrid = (blockspergrid_x, blockspergrid_y)
increment_a_2D_array[blockspergrid, threadsperblock](an_array)
进一步阅读
请参阅《CUDA C编程指南》,以详细了解CUDA编程。
编写CUDA内核的更多相关文章
- 编写HSA内核
编写HSA内核 介绍 HSA提供类似于OpenCL的执行模型.指令由一组硬件线程并行执行.在某种程度上,这类似于 单指令多数据(SIMD)模型,但具有这样的便利:细粒度调度对于程序员而言是隐藏的,而不 ...
- 在Ubuntu上为Android系统编写Linux内核驱动程序(老罗学习笔记1)
这里,我们不会为真实的硬件设备编写内核驱动程序.为了方便描述为Android系统编写内核驱动程序的过程,我们使用一个虚拟的硬件设备,这个设备只有一个4字节的寄存器,它可读可写.想起我们第一次学习程序语 ...
- 在Ubuntu上为Android系统编写Linux内核驱动程序
文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6568411 在智能手机时代,每个品牌的手机都有 ...
- 使用FormatMessage函数编写一个内核错误码查看器
在编写驱动程序的时候,常用的一个结构是NTSTATUS,它来表示操作是否成功,但是对于失败的情况它的返回码过多,不可能记住所有的情况,应用层有一个GetLastError函数,根据这个函数的返回值可以 ...
- 如何在cuda内核函数中产生随机数(host端调用,device端产生)
最近,需要在kernel函数中调用浮点型的随机数.于是上网搜了下相关资料,一种方式是自己手动写一个随机数的__device__函数,然后在调用的时候调用这个函数.另一种,原来cuda在toolkit中 ...
- c++编写webui内核 .
http://blog.csdn.net/sx1989827/article/details/8068779 #pragma once #include <mshtmhst.h> #inc ...
- 用JAVA编写浏览器内核之实现javascript的document对象与内置方法
原创文章.转载请注明. 阅读本文之前,您须要对浏览器怎样载入javascript有一定了解. 当然,对java与javascript本身也须要了解. 本文首先介绍浏览器载入并执行javascript的 ...
- [翻译]Go与C#对比 第三篇:编译、运行时、类型系统、模块和其它的一切
Go vs C#, Part 3: Compiler, Runtime, Type System, Modules, and Everything Else | by Alex Yakunin | S ...
- 布客·ApacheCN 翻译/校对/笔记整理活动进度公告 2020.1
注意 请贡献者查看参与方式,然后直接在 ISSUE 中认领. 翻译/校对三个文档就可以申请当负责人,我们会把你拉进合伙人群.翻译/校对五个文档的贡献者,可以申请实习证明. 请私聊片刻(52981514 ...
随机推荐
- Python 巡检接入钉钉机器人
前段时间,为了快速实现巡检服务器设备的健康状态,我简单的写了一个巡检工具,该工具已经可以满足我的大部分需求了,不过,每次都要自己手动去点击巡检才能知道今天设备的状态,由于每天巡检严重影响我学习逆向技术 ...
- Poj 3522 最长边与最短边差值最小的生成树
题意: 让你求一颗生成树,使得最长边和最短边长度差值最小. 思路: 额!!!感觉这个思路会超时,但是ac了,暂时没什么别的好思路,那么就先说下这个思路,大牛要是有好的思路希望能在 ...
- POJ2688状态压缩(可以+DFS剪枝)
题意: 给你一个n*m的格子,然后给你一个起点,让你遍历所有的垃圾,就是终点不唯一,问你最小路径是多少? 思路: 水题,方法比较多,最省事的就是直接就一个BFS状态压缩暴搜就行 ...
- Windows核心编程 第四章 进程(中)
4.2 CreateProcess函数 可以用C r e a t e P r o c e s s函数创建一个进程: BOOL CreateProcessW( _In_opt_ LPCWSTR lpAp ...
- Day003 巧妙验证短路运算
&&的短路运算 条件1&&条件2...&&条件n,程序会先判断条件1,如果条件1为false,则不判断后面的条件,直接返回false 怎么判断程序到底有 ...
- intellij idea的Maven项目运行报程序包找不到的错误
概括一句话:IDEA的Terminal命令行输入mvn idea:idea或者mvn idea:module , 即可解决 重做过开发环境后在intellij idea中载入java工程,通过mave ...
- Tomcat启动乱码解决
问题如下图: 解决方案 找到Tomcat目录下conf文件夹中的logging.properties文件 打开logging.properties文件,找到文件中的java.util.logging. ...
- 多线程-3.sleep() yield() join()
1.sleep()方法 jdk文档描述:Causes the currently executing thread to sleep (temporarily cease execution) for ...
- js EventSource 长链接
有这么一个场景:服务端处理数据,响应比较慢,为了不让用户体会到网页没有反应,服务端需要把处理的每一步操作返回给前端,前端实时进行打印. 1.ajax 轮询 <script> setInte ...
- str.isdigit()可以判断变量是否为数字
字符串.isdigit()可以判断变量是否为数字 是则输出True 不是则输出False 好像只能字符串