R-CNN需要大量的候选框,对每个候选框都提取特征,速度很慢,无法做到实时检测,无法做到端到端.ROI pooling层实现training和testing的显著加速,并提高检测accuracy. ROI pooling层能对不等尺寸的输入执行最大汇集以获得固定尺寸的特征映射,根据候选区域裁剪卷积特征图,然后用插值(通常是双线性的)将每个裁剪调整为固定大小(14×14×convdepth).裁剪之后,用 2x2 核大小的最大池化来获得每个建议最终的固定的 7×7×convdepth 特征图,然后