由于OpenCL是为各类处理器设备而打造的开发标准的计算语言.因此跟CUDA不太一样的是,其对设备特征查询的项更上层,而没有提供一些更为底层的特征查询.比如,你用OpenCL的设备查询API只能获取最大work group size,但无法获取到最小线程并行粒度. 但是,由于最小线程并行粒度对于OpenCL应用领域最广的GPU而言确实是一个比较重要的参数.如果你的work group的work item的个数是最小线程并行粒度的倍数,那么你的OpenCL kernel程序往往会达到很高的计算效率…