基本思想V1: 将输入图像分成S*S个格子,每隔格子负责预测中心在此格子中的物体. 每个格子预测B个bounding box及其置信度(confidence score),以及C个类别概率. bbox信息(x,y,w,h)为物体的中心位置相对格子位置的偏移及宽度和高度,均被归一化. 置信度反映是否包含物体,以及包含物体情况下位置的准确性.定义为Pr(Object)×IoU,其中Pr(Object)∈{0,1} 改进的V2: YOLO v2主要改进是提高召回率和定位能力. Batch Normal