语义特征与位置特征进行融合

1.1YOLOv5架构

YOLOv5由输入端，backbone，neck，head构成。 Yolov5的输入端主要使用Mosaic数据增强、自适应锚框计算、图片尺寸处理。

Backbone主要包括Focus和CSP^[16]模块作为特征提取网络。Focus模块不仅实现了下采样还减少了计算量，CSP模块作为加强特征提取的核心。

Neck中使用FPN^[¹⁷^]与PAN结合的结构，将FPN层与自底向上的特征金字塔进行结合，将所提取的语义特征与位置特征进行融合，同时将主干层与检测层进行特征融合，进一步提高了特征提取的能力。

Head输出包括目标的类概率、得分以及边界框的坐标。