在cuDNN中简化Tensor Ops 在Tesla V100 GPU中引入神经网络模型以来,神经网络模型已迅速利用NVIDIA Tensor Cores进行深度学习.例如,基于Tensor Core的解决方案宣布了ResNet50训练的性能记录. NVIDIA的cuDNN库 使CUDA程序员能够优化循环神经网络和卷积神经网络,以实现GPU加速.概述了cuDNN用户使用Tensor Core 进行卷积的简便方法,并附有说明和示例代码.该文章为cuDNN应用提供了一些简单的规则:FP16数据规则,…