CUDA C++ Extensions
敲代码的时候总是会去CUDA官方文档中找找思路,感觉每次看英文文档都要耗费一点时间来翻译,干脆自己翻译一下便于以后查阅。官方文档:cuda-c-language-extensions
函数修饰符
CUDA函数修饰符主要包括__global__
、__device__
和__host__
,每个修饰符指定不同的作用域。其中,__global__
不能与另外两个修饰符共用,但后两者可以。
__global__
__global__
修饰符说明该函数为一个kernel,既该函数在设备端执行、在主机端调用(3.2及之后版本也可在设备端调用),在被调用时必须通过<<<>>>
或cudaLaunchDevice
等方式指定执行配置。
__global__
函数返回类型必须为void,且不能是一个类的成员。
__global__
函数是一个异步函数。
__device__
__device__
修饰符说明该函数在设备端执行且只能在设备端调用。
__host__
__host__
修饰符说明该函数在主机端执行且只能在主机端调用。
当__device__
和__host__
共用时,该函数会为该函数编译主机端和设备端两个版本,为防止主机端错误编译执行设备端的代码或在低版本设备中使用高版本特性,开发者可以通过__CUDA_ARCH__
宏在编期确定代码。如:
__host__ __device__ func()
{
#if __CUDA_ARCH__ >= 700
// Device code path for compute capability 7.x
#elif __CUDA_ARCH__ >= 600
// Device code path for compute capability 6.x
#elif __CUDA_ARCH__ >= 500
// Device code path for compute capability 5.x
#elif __CUDA_ARCH__ >= 300
// Device code path for compute capability 3.x
#elif !defined(__CUDA_ARCH__)
// Host code path
#endif
}
inline
CUDA还提供了内联相关修饰符__noinline__
和__forceinline__
。默认情况下,编译器会在合适的时候将任意__device__
函数内联,__noinline__
提示(非强制)编译器尽可能不将该函数内联,而__forceinline__
则强制编译器内联该函数。两修饰符不能共用。
变量内存修饰符
CUDA变量内存修饰符主要包括__device__
、__shared__
和__constant__
,这些修饰符用于指定变量内存所在。在没有修饰符的情况下,编译器会将变量存储在寄存器中(或通过register
修饰符,非CUDA语法)。
__device__
__device__
修饰符声明该变量位于设备端内存区域,若变量仅由__device__
修饰符修饰,则表明该变量:
- 位于全局内存区域
- 生命周期与CUDA上下文相同
- 在每个设备中各自拥有一个不同的对象
- 该变量可以被网格中的所有线程访问,或通过运行时函数(
cudaGetSymbolAddress
、cudaGetSymbolSize
、cudaMemcpyToSymbol
、cudaMemcpyFromSymbol
)在主机端访问。
__constant__
__constant__
修饰符可与__device__
共用,修饰符说明该变量:
- 位于常量内存区域
- 生命周期与CUDA上下文相同
- 在每个设备中各自拥有一个不同的对象
- 该变量可以被网格中的所有线程访问,或通过运行时函数(
cudaGetSymbolAddress
、cudaGetSymbolSize
、cudaMemcpyToSymbol
、cudaMemcpyFromSymbol
)在主机端访问。
__shared__
__shared__
修饰符可与__device__
共用,修饰符说明该变量:
- 位于每个block的共享内存区域
- 生命周期与block相同
- 每个block各自拥有一个不同的对象
- 只能被该block所属的所有线程访问
- 变量地址非常量
__shared__
可用于静态声明共享内存,也可动态声明共享内存,其中动态声明通过extern __shared__ float shared[];
方式声明且在一个kernel中只能声明一次,并通过执行配置指定共享内存大小。
需要注意的是,通过动态声明共享内存的变量从内存的相同地址处开始,因此若变量类型不同,需要特别明确它们的偏移,例如如果开发者需要如下几个数组:
short array0[128];
float array1[64];
int array2[256];
则需要开发者通过如下方式使用动态声明的共享内存:
extern __shared__ float array[];
__device__ void func() // __device__ or __global__ function
{
short* array0 = (short*)array;
float* array1 = (float*)&array0[128]; //float类型需要4字节对齐
int* array2 = (int*)&array1[64]; //int类型也需要4字节对齐
}
注意指针一定要根据类型对齐,否则程序将无法正常执行。
__managed__
__managed__
修饰符可与__device__
共用,修饰符说明该变量:
- 可在主机端和设备端直接引用,这也就意味着该变量可直接在主机端函数和设备端函数中进行读写。
- 生命周期与应用相同
__restrict__
CUDA中的__restrict__
修饰符作用与C语言中restrict
限定符作用相同,既它只可以用于限定和约束指针,并表明指针是访问一个数据对象的唯一且初始的方式,即它告诉编译器,所有修改该指针所指向内存中内容的操作都必须通过该指针来修改,而不能通过其它途径(其它变量或指针)来修改。
__restrict__
修饰符能帮助编译器更好的优化代码,生成更有效率的汇编代码。如 int * __restrict__ ptr
,ptr
指向的内存单元只能被 ptr
访问到,任何同样指向这个内存单元的其他指针都是未定义的,直白点就是无效指针。因此编译器可以通过重排序和通用子表达式消除等方式减少内存访问和数据计算的次数,但副作用是使用的寄存器数目会增加。
内置变量
kernel内置变量主要有gridDim
(dim3
类型)、blockIdx
(uint3
类型)、blockDim
(dim3
类型)、threadIdx
(uint3
类型)和warpSize
(int
类型)。其中dim3
类型实际上也是uint3
类型,不过在定义时xyz
会初始化为1。
内置向量类型
uint3
实际是一个地址对齐的结构体,包含x
、y
、z
三个元素。除uint3
外常用的还包括float4
(包含x
、y
、z
、w
四个元素)。详情见https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#vector-types
内存屏障函数
CUDA假设设备为弱内存模型(weakly-ordered memory model),既GPU线程在向内存写数据时的顺序并不一定是GPU线程或主机线程观察到的顺序。
程序顺序:程序给出的指令的执行顺序,这代表程序员的意欲。
观察顺序:这是各个CPU看到的在内存中发生的顺序,注意这不是内存真的写入数据的顺序,而是所有的“观察者”看到的内存中发生更改的顺序。
举例来说,假如有两线程,它们分别执行如下函数:
__device__ volatile int X = 1, Y = 2;
__device__ void writeXY()
{
X = 10;
Y = 20;
}
__device__ void readXY()
{
int A = X;
int B = Y;
}
其中,线程1执行writeXY
函数,线程2执行readXY
函数,在强内存模式中,执行过后变量A、B的值只可能是如下3种情况:A=1且B=2,A=10且B=2,A=10且B=20,既A的赋值一定在B之前完成。而在弱内存模式中,变量A和B的赋值顺序不定,由设备决定,但若我们在两函数之间插入内存屏障函数,则一定能够保证A=10且B=20。
内存屏障函数可以保证设备在内存访问时的顺序,CUDA中主要有__threadfence_block
、__threadfence
和__threadfence_system
三个函数,它们的主要区别在于作用范围不同。
void __threadfence_block();
__threadfence_block
函数保证:
- 该线程在
__threadfence_block
调用前发生的所有写操作对于调用后的该block中的所有线程而言是可见的。 - 该线程在
__threadfence_block
调用前发生的所有读操作对于调用后的该线程而言是有序的。
注:为防止编译器优化,应该对操作指针使用volatile关键字。
void __threadfence();
__threadfence
函数作用与__threadfence_block
相同,但它作用于该设备中的所有线程。
void __threadfence_system();
__threadfence_system
函数同样,但它作用于该程序下的所有设备(计算能力2.x及以上)、主机中的所有线程。
注意,内存屏障函数仅能保证该本线程下的内存访问是有序的,并不能保证对于其他线程是可见的(这由__syncthreads
等同步函数保证)。
如下示例说明了如何在求长度为N的数组的和中利用内存屏障函数:
__device__ unsigned int count = 0;
__shared__ bool isLastBlockDone;
//为防止编译器将结果存储在cache中,result指针应使用volatile关键字
__global__ void sum(const float* array, unsigned int N,
volatile float* result)
{
// 每个block计算数组的一部分,具体实现不列出
float partialSum = calculatePartialSum(array, N);
if (threadIdx.x == 0) {
//每个block的0号线程将结果存储在result中
result[blockIdx.x] = partialSum;
//内存屏障函数保证接下来的原子操作一定在赋值操作之后发生
__threadfence();
//本block的结果确认已存储到result中,count自增1
//atomicInc执行((count >= gridDim.x) ? 0 : (count+1))操作
unsigned int value = atomicInc(&count, gridDim.x);
//判断是否是最后一个block
isLastBlockDone = (value == (gridDim.x - 1));
}
//同步确保所有线程都已正确得到自己的isLastBlockDone值
__syncthreads();
if (isLastBlockDone) {
//最后一个block计算总和
float totalSum = calculateTotalSum(result);
if (threadIdx.x == 0) {
//将总和存储在result中
result[0] = totalSum;
count = 0;
}
}
}
同步函数
CUDA中的同步函数主要包括__syncthreads
、__syncthreads_count
、__syncthreads_and
、__syncthreads_or
、__syncwarp
。
void __syncthreads();
__syncthreads
函数要求该block中的线程等待直到该block中的所有线程都到达该检查点且调用前的所有共享内存访问都已完成。__syncthreads
函数主要用于同一block所有线程间的协同通信。__syncthreads
支持条件语句但要求对于该block中的所有线程而言条件都为真或都为假,换句话说,__syncthreads
要求该block中的所有线程都能执行到该位置。
int __syncthreads_count(int predicate);
__syncthreads_count
函数会判断该block所有线程的predicate的值并返回predicate值非0的线程的数目。
int __syncthreads_and(int predicate);
__syncthreads_and
函数当且仅当该block所有线程的predicate值非0时返回一个非0值。
int __syncthreads_or(int predicate);
__syncthreads_or
函数当且仅当该block中任意一个线程的predicate值非0时返回一个非0值。
void __syncwarp(unsigned mask=0xffffffff);
__syncwarp
函数同步mask中的所有线程,默认为同一warp中的所有线程。若需要同步warp中的第i个线程,则将mask的第i位设置为1。同样的,__syncwarp
函数的所有参与线程都必须能执行到该位置,且所有参与线程的mask值必须相同。
其它函数
__ldg、clock、__isGlobal
__ldg
函数
T __ldg(const T* address);
__ldg
函数从address中加载数据到只读cache中并返回该值。
- 时钟函数
clock
函数(clock_t clock()
)和clock64
函数(long long int clock64()
)返回设备的clock值。
- 地址判断函数
判断指针指向数据位于设备那个区域:
unsigned int __isGlobal(const void *ptr)
unsigned int __isShared(const void *ptr)
unsigned int __isConstant(const void *ptr)
unsigned int __isLocal(const void *ptr)
洗牌指令
__shfl_sync
系列指令(俗称洗牌指令)用于在线程束中获取指定线程的变量值,该操作会在mask(一般取0xffffffff,每个bit位代表一个线程id)指定的那些线程中同时执行(同一mask中的线程必须执行相同指令),每次移动4字节或8字节的数据,但若指定线程为非活跃线程,则结果未知。具体功能如下:
T __shfl_sync(unsigned mask, T var, int srcLane, int width=warpSize);
__shfl_sync
指令返回索引为srcLane线程的var变量值,其中srcLane大小为[0,width),类似的,width的值必须是2的幂数且不大于32。
T __shfl_up_sync(unsigned mask, T var, unsigned int delta, int width=warpSize);
__shfl_up_sync
指令返回索引为当前线程索引减去delta的值的线程的var值,若减去后的值小于0则不做任何操作(保持不变)。
T __shfl_down_sync(unsigned mask, T var, unsigned int delta, int width=warpSize);
__shfl_down_sync
指令返回索引为当前线程索引加上delta的值的线程的var值,若加后的值大于width则不做任何操作(保持不变)。
T __shfl_xor_sync(unsigned mask, T var, int laneMask, int width=warpSize);
__shfl_xor_sync
指令返回索引为当前线程索引按位异或laneMask后的值的线程的var值。注意若width值小于warpSize值,此时后面的线程可以访问前面的线程组的值(获取成功),但前面的线程不能访问后面线程组的值(保持不变)。
投票指令
__any_sync
系列指令(俗称投票指令)对线程束中的参与线程(同样由mask指定)比较预测值predicate是否非零,并向所有参与的活跃线程广播比较结果:
int __all_sync(unsigned mask, int predicate);
当线程束中所有参与线程的预测值predicate非零时返回一个非零值。
int __any_sync(unsigned mask, int predicate);
当线程束中存在任意一个参与线程的预测值predicate非零时返回一个非零值。
unsigned __ballot_sync(unsigned mask, int predicate);
若线程束中的第N个线程活跃且其预测值predicate非零时,设定返回值的第N个bit为1,否则为0。
unsigned __activemask();
返回线程束内活跃线程组成的掩码。若线程束中的第N个线程为活跃线程,则设定第N个bit为1,否则为0(注意已退出线程也是非活跃线程)。该指令不执行同步。
匹配指令
__match_any_sync
系列指令(俗称匹配指令)对线程束的参与线程(同样由mask指定)比较value值,并向所有参与线程广播比较结果:
unsigned int __match_any_sync(unsigned mask, T value);
返回value值相同的那些线程组成的掩码。
unsigned int __match_all_sync(unsigned mask, T value, int *pred);
返回mask值若所有参与线程的value值都相同,否则返回0。此外前者的预测值pred还将被设定为true,否则为false。
warp矩阵运算
warp矩阵运算(wmma)利用Tensor Cores来加速D=A*B+C
形式的矩阵乘加运算,在计算能力7.0及以上版本中,还支持混合精度运算(如int8、half等)。
wmma函数及类型都位于nvcuda::wmma
命名空间中,此外,还有一些额外的如亚字节(Sub-byte)类型等实验性功能则位于nvcuda::wmma::experimental
命名空间中,这些实验性功能不能保证会兼容后续版本。
正式性功能
template<typename Use, int m, int n, int k, typename T, typename Layout=void> class fragment;
void load_matrix_sync(fragment<...> &a, const T* mptr, unsigned ldm);
void load_matrix_sync(fragment<...> &a, const T* mptr, unsigned ldm, layout_t layout);
void store_matrix_sync(T* mptr, const fragment<...> &a, unsigned ldm, layout_t layout);
void fill_fragment(fragment<...> &a, const T& v);
void mma_sync(fragment<...> &d, const fragment<...> &a, const fragment<...> &b, const fragment<...> &c, bool satf=false);
以下是相关参数和函数解释:
fragment类
fragment
类型是一个重载类,该类将矩阵的一部分映射到warp的所有线程中。在不同架构下,将矩阵元素映射到fragment
内部存储空间的实现是有所不同的,因此,开发者应当在同一架构下编译链接warp矩阵运算相关代码,否则极有可能会出现莫名其妙的bug(而且这些bug很难在编译或运行期间追踪到)。
fragment
类第一个模版参数Use
用于指定该矩阵参与矩阵乘加运算D=A*B+C
的哪个位置,其中:
matrix_a
意味着该矩阵为矩阵A
matrix_b
意味着该矩阵为矩阵B
accumulator
意味着该矩阵为矩阵C
或D
(C
和D
可以是同一个)
fragment
类第二三四个数值型模版参数m,n,k
指定了每个warp参与计算的矩阵大小(warp-wide matrix tiles),其中矩阵A
的tiles大小为m * k
,矩阵B
的tiles大小为k * n
,矩阵C
和D
的tiles大小为m * n
。
fragment
类第五个类型参数T
目前支持矩阵A
和B
的类型为__half, char, unsigned char
,而矩阵C
和D
的类型支持__half, float, int
。
fragment
类第六个类型参数Layout
用于指定矩阵的布局方式(行主序或列主序),其中矩阵C
和D
的Layout
应该为默认值void
,在加载或存储时指定,矩阵A
和B
则根据实际情况选择行主序row_major
或者列主序col_major
。
fragment
类的模版参数并不能随意设置,具体可选择参数可以参考官方文档https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#wmma-type-sizes。
load_matrix_sync
load_matrix_sync
函数用于将内存中的矩阵加载到fragment
中,显而易见,该函数将先同步所有warp。
在调用load_matrix_sync
函数时,其参数必须得满足几个条件:
指针
mptr
必须得256bit对齐(既32字节对齐)步长
ldm
(对于行主序,取连续两行间的元素数目;对于列主序,取连续两列间的元素数目)必须得是16字节的倍数(既对于__half
类型至少为8,对于float
至少为4)由于矩阵
A
和B
的布局可以从fragment
参数中推断出,因此对于矩阵C
和D
,必须指定layout
参数为行主序mem_row_major
或列主序mem_col_major
该函数必须被warp中的所有线程调用,且函数参数和
fragment
模版参数必须一致。
store_matrix_sync
store_matrix_sync
函数用于将fragment
中的矩阵存储到内存中,显而易见,该函数将先同步所有warp。
类似的,在调用store_matrix_sync
函数时,其参数必须得满足几个条件:
- 指针
mptr
必须得256bit对齐(既32字节对齐) - 步长
ldm
必须得是16字节的倍数 - 对于阵
C
和D
必须指定layout
参数为mem_row_major
或mem_col_major
- 该函数必须被warp中的所有线程调用,且函数参数和
fragment
模版参数必须一致。
由于fragment
中矩阵元素的映射方式是未定的,因此开发者应该通过store_matrix_sync
将矩阵存储到内存后再对矩阵进行进一步处理。但若仅是需要对矩阵中的每个元素进行统一的处理,也可以通过fragment
直接访问,同样的,这种操作也需要warp中的所有线程参与且行为必须一致。
enum fragment<Use, m, n, k, T, Layout>::num_elements;
T fragment<Use, m, n, k, T, Layout>::x[num_elements];
wmma::fragment<wmma::accumulator, 16, 16, 16, float> frag;
float alpha = 0.5f; // Same value for all threads in warp
...
for(int t=0; t<frag.num_elements; t++)
frag.x[t] *= alpha;
fill_fragment
fill_fragment
函数将fragment
中的矩阵元素都填充为值v
,该函数必须被warp中的所有线程调用。
mma_sync
mma_sync
函数将执行warp级同步的矩阵乘加运算D=A*B+C
,显而易见,该函数将先同步所有warp。
mma_sync
支持C=A*B+C
,既矩阵C
和D
相同。
除了要求warp中所有线程都得调用,且函数参数和fragment
模版参数必须一致之外,调用mma_sync
还需要注意m,n,k
的值必须满足A=m*k,B=k*n,C=m*n,D=m*n
的要求。
satf
参数用于防止数值溢出,但注意该参数对于float
类型已废弃,因此对于float
类型satf
参数应设为flase。
实验性功能
wmma的实验性功能主要为低精度类型的子字节运算,这些函数和结构都位于nvcuda::wmma::experimental
命名空间中:
namespace experimental {
namespace precision {
struct u4; // 4-bit unsigned
struct s4; // 4-bit signed
struct b1; // 1-bit
}
enum bmmaBitOp { bmmaBitOpXOR = 1 };
enum bmmaAccumulateOp { bmmaAccumulateOpPOPC = 1 };
}
在fragment
中,这些低精度类型分别映射到如下类型:
experimental::precision::u4 -> unsigned (8 elements in 1 storage element)
experimental::precision::s4 -> int (8 elements in 1 storage element)
experimental::precision::b1 -> unsigned (32 elements in 1 storage element)
all other types T -> T
需要注意的是,在子字节运算中矩阵A
总是行主序的,而矩阵B
总是列主序的,既在 fragment
中,matrix_a
总是row_major
,matrix_b
总是col_major
。
bmma_sync
bmma_sync
函数将执行warp级同步的bit位矩阵元素计算D = (A op B) + C
,目前op
仅支持两类运算:首先是逻辑运算bmmaBitOp
,其次是累加运算bmmaAccumulateOp
,而逻辑运算又仅支持128bit的异或运算bmmaBitOpXOR
(矩阵A
的一行128bit元素异或矩阵B
的一列128bit元素),累加运算仅支持统计非0bit位的数目bmmaAccumulateOpPOPC
。
示例
#include <mma.h>
using namespace nvcuda;
__global__ void wmma_ker(half *a, half *b, float *c) {
// Declare the fragments
wmma::fragment<wmma::matrix_a, 16, 16, 16, half, wmma::col_major> a_frag;
wmma::fragment<wmma::matrix_b, 16, 16, 16, half, wmma::row_major> b_frag;
wmma::fragment<wmma::accumulator, 16, 16, 16, float> c_frag;
// Initialize the output to zero
wmma::fill_fragment(c_frag, 0.0f);
// Load the inputs
wmma::load_matrix_sync(a_frag, a, 16);
wmma::load_matrix_sync(b_frag, b, 16);
// Perform the matrix multiplication
wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);
// Store the output
wmma::store_matrix_sync(c, c_frag, 16, wmma::mem_row_major);
}
动态内存分配
在计算能力2.x及以上设备上,CUDA支持kernel内的动态内存分配,函数声明如下:
__host__ __device__ void* malloc(size_t size);
__device__ void *__nv_aligned_device_malloc(size_t size, size_t align);
__host__ __device__ void free(void* ptr);
_host__ __device__ void* memcpy(void* dest, const void* src, size_t size);
__host__ __device__ void* memset(void* ptr, int value, size_t size);
值得注意的是,malloc
分配的内存地址一定是16字节对齐的,但若你需要更多字节的对齐,可以利用__nv_aligned_device_malloc
函数,该函数保证分配的内存地址一定是align
的倍数,但要求align
必须得是2的幂数,且只允许在设备端调用。若分配失败,malloc
会返回NULL
,同时cudaGetLastError
会得到CUDA_ERROR_SHARED_OBJECT_INIT_FAILED
返回。
不同于cudaMalloc
分配的是全局内存空间,malloc
函数是分配的堆上的空间。设备端堆的默认大小为固定的8MB,但开发者可以通过cudaDeviceGetLimit
和cudaDeviceSetLimit
进行设置。需要注意的是,由于堆上的动态内存分配实际上是发生在模块被加载到上下文时,因此在模块被加载后,堆的大小不能修改且不会根据需要自动增加,换句话说,堆大小的改动必须在所有程序的malloc
函数发生之前。
与主机端类似,通过malloc
分配的内存拥有和上下文同样的生命周期,除非通过free
函数显式释放。这也就意味着通过kernel动态分配的内存同样可以被后续的所有kernel使用,除非显式free
。
free
函数可以接受NULL
指针但不允许重复释放同一内存。
通过malloc
分配的内存不可以通过CUDA运行时释放(比如cudaFree
),也不能用于任意一个CUDA运行时API或驱动API(如cudaMemcpy
)。同样的,通过CUDA运行时分配的内存(比如cudaMalloc
)同样不可以通过free
释放。
Launch Bounds
为了尽可能的提高性能,开发者往往希望在SM中能常驻尽可能多的block
和线程,默认情况下,编译器会通过减少寄存器和指令数目的方式来最小化寄存器的数目从而达到该目前,但开发者也可以通过在__global__
函数定义前加__launch_bounds__()
限定符的方式来为编译器优化提供更多的信息。
__global__ void
__launch_bounds__(maxThreadsPerBlock, minBlocksPerMultiprocessor)
MyKernel(...)
{
...
}
其中:
maxThreadsPerBlock
指定了程序在启动MyKernel
时每个block
的最大线程数,它被编译为.maxntid
PTX指令minBlocksPerMultiprocessor
是一个可选项,它指定了每个SM的最小常驻block
数目(desired,不一定能实现),它被编译为.minnctapersm
PTX指令
当开发者指定了launch bounds
时,编译器首先会计算出在满足每个block
有maxThreadsPerBlock
个线程且至少有minBlocksPerMultiprocessor
个block
常驻SM的情况下,每个kernel可使用的寄存器数目的上限值L
,接着编译器会进行如下操作:
- 若初始的寄存器数目高于
L
,则编译器将会通过各种方式减少寄存器数目直到小于等于L
,通常是通过使用本地内存或增加指令数目的方式 - 若初始寄存器数目小于
L
:- 若仅指定了
maxThreadsPerBlock
限定符,则编译器通过该值计算出寄存器数目的阈值:n个block
常驻SM需要的寄存器数目~n+1个block
常驻SM需要的寄存器数目,最后编译器继续使用无launch bounds
时的优化策略进行抉择 - 若两个限定符都指定了,则编译器会尽可能的提高寄存器的使用量以减少指令数,同时更好的隐藏单线程的指令延迟
- 若仅指定了
注意当每个block
的线程数大于maxThreadsPerBlock
时,kernel将会启动失败。另外,在不同的架构下,最优的launch bounds
往往是不同的,因此最好根据__CUDA_ARCH__
设置不同的值(注意host端编译时__CUDA_ARCH__
未定义)。
除了launch bounds
外,开发者还可以通过maxrregcount
编译选项来为所有__global__
函数指定寄存器使用量(指定了 launch bounds
时会被launch bounds
覆盖)。
CUDA C++ Extensions的更多相关文章
- CUDA安装及配置:Windows 7 64位环境
最近又有新的项目要做了,这次是关于CUDA---多核高性能计算的问题,所以最近一直在学习CUDA的编程问题,昨天安装软件完毕,运行第一个程序的时候还是遇到很多问题.所以这里给大家一起分享一下, 有和我 ...
- [转]CUDA在Windows下的软件开发环境搭建
引自:http://www.makaidong.com/yaoyuanzhi/archive/2010/11/13/1876215.html 本文我们以visual studio 2005 为例演示c ...
- 当我们在安装tensorflow时,我们在安装什么?- Intro to TF, Virtualenv, Docker, CUDA, cuDNN, NCCL, Bazel
(Mainly quoted from its official website) Summary: 1. TensorFlow™ is an open source software library ...
- CUDA:Supercomputing for the Masses (用于大量数据的超级计算)-第九节
原文链接 第九节:使用CUDA拓展高等级语言 Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员.他在多个国家级的 ...
- Windows平台CUDA开发之前的准备工作
CUDA是NVIDIA的GPU开发工具,眼下在大规模并行计算领域有着广泛应用. windows平台上面的CUDA开发之前.最好去NVIDIA官网查看说明,然后下载对应的driver. ToolKits ...
- Pytorch 使用不同版本的 cuda
由于课题的原因,笔者主要通过 Pytorch 框架进行深度学习相关的学习和实验.在运行和学习网络上的 Pytorch 应用代码的过程中,不少项目会标注作者在运行和实验时所使用的 Pytorch 和 c ...
- Install CUDA 6.0 on Ubuntu 14.04 LTS
Ubuntu 14.04 LTS is out, loads of new features have been added. Here are some procedures I followed ...
- An Easy Introduction to CUDA C and C++
An Easy Introduction to CUDA C and C++ This post is the first in a series on CUDA C and C++, which i ...
- CUDA C++编程手册(总论)
CUDA C++编程手册(总论) CUDA C++ Programming Guide The programming guide to the CUDA model and interface. C ...
随机推荐
- 采用Socket实现UDP
------------恢复内容开始------------ 1.1采用Socket实现UDP1.1.1简介 Socket实现UDP的基本步骤如下: (1)创建一个Socket对象 Socket my ...
- 微信小程序scroll-view
使用竖向滚动时,需要给<scroll-view/>一个固定高度,通过 WXSS 设置 height.以下列举一个示例: scroll-top的优先级要高于scroll-into-view的 ...
- python动态柱状图图表可视化:历年软科中国大学排行
本来想参照:https://mp.weixin.qq.com/s/e7Wd7aEatcLFGgJUDkg-EQ搞一个往年编程语言动态图的,奈何找不到数据,有数据来源的欢迎在评论区留言. 这里找到了一个 ...
- .Net Core Configuration源码探究
前言 上篇文章我们演示了为Configuration添加Etcd数据源,并且了解到为Configuration扩展自定义数据源还是非常简单的,核心就是把数据源的数据按照一定的规则读取到指定的字 ...
- 在maven项目中使用Junit进行单元测试(一)
https://blog.csdn.net/ai_xue_xi/article/details/51819729 这篇文章相当的经典,最好使用的maven生成单元测试报告,不要在使用ant脚本生成单元 ...
- js语法基础入门(4)
4.运算符 4.1.什么是运算符? 运算符就是用来表示具体运算规则的符号,例如数学计算中的加减乘除就是具体的运算规则,我们分别用"+ - * /"等符号来表示 4.2.运算符的分类 ...
- Dll的多字节和Unicode
Dll的多字节和Unicode 分类: MFC2013-10-17 13:00 28人阅读 评论(0) 收藏 举报 dll字符集字符集多字节Unicode 我们定义dll的时候会区分: 字符集:使用多 ...
- mfc 中unicode 字符和字符串的使用
在MFC或SDK程序中,不需要进行任何关于unicode的设置,记住下面两个宏,保你程序一路畅通: 用TCHAR/TCHAR*代替char/char* 及wchar/wchar*用TEXT(" ...
- 只需几行 JavaScript 代码,网页瞬间有气质了!
最近在网上闲逛,发现一个特别好玩的 JavaScript 库,叫 RoughNotation.干嘛用的呢?就是在网页上给文字加标注,比如下划线.方框.高亮文字背景等,不过是手写风格的!截图给大家感受下 ...
- 学习前端的时候,突然想起了Sharepoint母版页里的占位符,算知识的融会不?
今天看到这个段话,我就想起来当时学习Sharepoint的时候,总是搞不明白我们老师讲的那个母版页里的占位符到底是干啥的.现在看到了类似的东西,让我想起来了之前一直搞不懂的东西,很感慨. (完)