摘抄与某乎 anchor 让网络学习到的是一种推断的能力.网络不会认为它拿到的这一小块 feature map 具有七十二变的能力,能同时从 9 种不同的 anchor 区域得到.拥有 anchor 的 rpn 做的事情是它已知图像中的某一部分的 feature(也就是滑动窗口的输入),判断 anchor 是物体的概率.anchor 可能比感受野大,也可能比感受野小,如果 anchor 比感受野大,就相当于只看到了我关心的区域(anchor)的一部分(感受野),通过部分判断整体,如果比感受野小,…