2.1 主干网络改进
主干网络的作用在于提取图像信息,图像信息包括结构和语义信息。研究者们发现CSPDarknet53在提取图像特征的过程中浅层网络获取图像语义信息较少,深层网络获取图像语义信息较多,而语义信息的多少代表对全局检测的好坏。YOLOv4中CSPDarknet53的CSPBlock排列数量为1、2、8、8、4,其中浅层特征提取网络包含3个CSPBlock,深层特征提取网络包含20个CSPBlock。
为了获取更多图像语义信息,本文在不减少浅层网络中CSPBlock部分的同时并对深层网络的CSPBlock部分进行拓展。改进之后深层网络中CSPBlock为10、10、5,如图2主干网络所示。与改进之前相比,改进之前网络在特征提取时会丢失一些图像的语义信息而导致网络预测效果欠佳,而本文增加的特征提取网络深度能够在特征提取运算时保留更多的语义信息,提升了网络性能。