▶ 矩阵乘法,按照书里的内容进行了几方面的优化,包括局部内存,矢量数据类型,寄存器,流水线等. ● 最直接的乘法.调用时 main.c 中使用 size_t globalSize[] = { rowA, colB }, localSize[] = { , }; .rowA 蕴含在 get_global_id(0) 中了,不再出现在函数中,后面的几种方法也如此. // multiply.cl __kernel void multiply01(__global float *inputA, __gl