rpn-data层输入的是data即整张图片,然后是根据映射生成roi框 rpn-loss-bbox输入的才是整个网络预测的roi框 bbox_transform在rpn-data层使用,把生成的achor,并不是把预测的roi框回归 rpn_loss_bbox,论文中定义输入是ti和ti*,ti和ti*是4维向量,但ti和ti*并不是预测框坐标和gt框坐标(即左上右下).ti应该是论文中的tx.ty.tw.th组成的向量,即(x-xa)/wa.(y-ya)/ha. log(w/wa). log…