CUDA提供了一种cudaEvent_t的类型,这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间 使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50% __constant__将把变量的访问限制为只读.在接受了这种限制后,可节约内存带宽的原因: (下面是贴了书上的内容) 对常量内存的单次操作可以广播到其他的临近线程,这将节约15次读取操作. 常量内存的数据将缓存起来,因此对相同地址的连续读操作将不会长生额外的内存通信量. 深层原因:当处理常量内存时,NVIDIA硬…