本文将演示如何在TVM中编写高性能的卷积实现.以平方大小的输入张量和滤波器为例,并假设卷积的输入量很大.使用不同的布局来存储数据,以实现更好的数据局部性.缓冲区布局为HWCN,代表高度,宽度,通道,批次. 准备和算法 将固定大小用于256通道和14 x 14尺寸的输入张量.批处理大小为256.卷积过滤器包含512个大小为3 x 3的过滤器.对于卷积,使用步幅大小1和填充大小1.以下代码定义了TVM中的卷积算法. import numpy as np import tvm from tvm imp…