其实现在用的最多的是faster rcnn,等下再弄项目~~~ 图像经过基础网络块,三个减半模块,每个减半模块由两个二维卷积层,加一个maxPool减半(通道数依次增加[16,32,64]) 然后是多个(3个)多尺度特征块.每个特征块依次都是一个减半模块,通道数固定128 最后一个全局最大池化层模块,高宽降到1 注意,每次添加一个模块,后面都有两个预测层,一个类比预测层,一个边框预测层.类别预测层是一个二维卷积层,卷积层通道数是 锚框*(类别+1) ,然后用不改变图像大小的卷积核3*3 ,pad…