引言 先简单回顾一下R-CNN的问题,每张图片,通过 Selective Search 选择2000个建议框,通过变形,利用CNN提取特征,这是非常耗时的,而且,形变必然导致信息失真,最终影响模型的性能. 由此引出了一系列问题 问题1:形变耗时又损失信息,为什么要形变 很简单,因为CNN的输入必须是固定尺寸. 问题2:为什么CNN的输入必须固定尺寸 CNN主要由两部分组成,卷积层和全连接层,卷积层可以接受任意尺寸的图像,只是不同的输入卷积后的特征图尺寸不同,而全连接必须是固定的输入,所以任意尺寸