CUDA上深度学习模型量化的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参数都用诸如int8和float16低精度数据类型表示.降低的数据带宽减少了推理时间和存储器/存储要求,以及功耗.在适当的量化方案下,可以最小化量化模型的精度下降.因此,量化模型特别适合研究人员和开发人员,使大型模型适合在各种设备(例如GPU,CPU和移动设备)上部署. 通常通过手工微内核,针对不同的工…