现在主要的并行计算设备有两种发展趋势: (1)多核CPU. 双核,四核,八核,...,72核,...,可以使用OpenMP编译处理方案,就是指导编译器编译为多核并行执行. (2)多线程设备(GP)GPU. 通用GPU,就是显卡,以nvidia公司的显卡为主.nvidia使用CUDA编程. 由于毕业的需要,现在开始学习CUDA编程.看了一段时间教程,目前环境已经配好,下面是一个简单的CUDA程序: 程序实现向量的加法操作,使用了一个block内部的512个线程. #include <stdio.h