实际驾驶场景下部分目标对象存在因距离或物体遮挡、重合等因素被漏检或识别框定位不准确等情况,多尺度特征融合层可以有效地解决此类问题。浅层的特征提取包含更多的目标位置信息,深层的特征提取包含更多目标语义信息,用shortcut结构将深层残差块提取的特征图与浅层残差块提取的特征图进行融合(残差块结构如图3所示),实现目标语义信息增强。
YOLOv4采用三种不同尺度的特征融合结构对目标信息进行提取,为提高小目标或被遮挡目标的检测精度,本文提出一种采用四种检测尺度的特征融合结构。
改进后的YOLOv4网络结构简化图如图4所示,输入图像尺寸为608x608时,在CSPDarkNet-53网络的主体结构中进行五次下采样,同时使用四个上采样层作为FPN结构,使用三个PAN结构组成特征金字塔。FPN结构自下而上提取丰富的语义信息,PAN结构自上而下提取准确的位置信息,从而实现不同的主干层对不同的检测层的特征融合。网络检测尺度增加到四个后得到的152x152、76x76、38x38和19x19的特征图,能更有效地应不同大小的目标物体。