基于YOLOX融合自注意力机制的FSA-FPN重构方法-AET-电子技术应用

基于YOLOX融合自注意力机制的FSA-FPN重构方法

电子技术应用 2023年3期

安鹤男1，管聪2，邓武才1，杨佳洲2，马超2

（1.深圳大学电子与信息工程学院，广东深圳 518000；2.深圳大学微纳光电子学研究院，广东深圳 518000）

摘要： 随着目前目标检测任务输入图像分辨率的不断增大，在特征提取网络的感受野不变的情况下，网络提取的特征信息会越来越局限，相邻特征点之间的信息重合度也会越来越高。提出一种FSA（Fusion Self-Attention）-FPN，设计SAU（Self-Attention Upsample）模块，SAU内部结构通过CNN与自注意力机制（Self-Attention）进行交叉计算以进一步进行特征融合，并通过重构FCU（Feature Coupling Unit）消除二者之间的特征错位，弥补语义差距。以YOLOX-Darknet53为主干网络，在Pascal VOC2007数据集上进行了对比实验。实验结果表明，对比原网络的FPN，替换FSA-FPN后的平均精度值mAP@［.5：.95］提升了1.5%，预测框的位置也更为精准，在需要更高精度的检测场景下有更为出色的使用价值。

关键词： FSA-FPN 特征融合 SAU 自注意力机制

中图分类号：TP391.4 文献标志码：A DOI: 10.16157/j.issn.0258-7998.223139
中文引用格式： 安鹤男，管聪，邓武才，等. 基于YOLOX融合自注意力机制的FSA-FPN重构方法[J]. 电子技术应用，2023，49(3)：61-66.
英文引用格式： An Henan，Guan Cong，Deng Wucai，et al. FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX[J]. Application of Electronic Technique，2023，49(3)：61-66.

FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX

An Henan1，Guan Cong2，Deng Wucai1，Yang Jiazhou2，Ma Chao2

(1.College of Electronics and Information Engineering，Shenzhen University，Shenzhen 518000，China； 2.Institute of Microscale Optoelectronics，Shenzhen University，Shenzhen 518000，China)

Abstract： Abstract： With the increasing resolution of the input image of the current target detection task，the feature information extracted from the feature extraction network will become more and more limited under the condition that the receptive field of the feature extraction network remains unchanged，and the information coincidence degree between adjacent feature points will also become higher and higher.This paper proposes an FSA(fusion self-attention)-FPN，and designs SAU(self-attention upsample) module.The internal structure of SAU performs cross calculation with self-attention mechanism and CNN to further Feature fusion，and reconstructs FCU(feature coupling unit) to eliminate feature dislocation between them and bridge semantic gap. In this paper，a comparative experiment is carried out on Pascal VOC2007 data set using YOLOX-Darknet 53 as the main dry network. The experimental results show that compared with the FPN of the original network，the average accuracy of MAP@ [.5:.95] after replacing FSA-FPN is improved by 1.5%，and the position of the prediction box is also more accurate.It has better application value in detection scenarios requiring higher accuracy.

Key words : FSA-feature pyramid networks；feature fusion；SAU；self-attention mechanism

0　引言

目标检测是致力于解决确定图像中所需物体类别并标识出物体具体位置的一类任务。自从以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习技术在多个领域取得突破性成功后，基于CNN的目标检测方法也凭着卷积运算的特性做到对图像特征信息的深层次提取，从而达到较为优秀的检测性能。目前主流目标检测任务大多还是分为两类，分别是以Faster-RCNN[1]为代表的双阶段检测与以YOLO和SSD为代表的单阶段检测算法，它们都以CNN作为特征提取核心。FPN(Feature Pyramid Network)是自顶向下的一种特征融合方式，通过将不同尺寸的特征信息进行融合，对不同尺寸的物体检测均有较为出色的适应性。整体来说，CNN受制于其卷积层的大小，感受野有限，所以更多地是对局部特征的提取。

Transformer开创了自注意力机制(Self-attention)的先河，在全局特征的提取上有着CNN无法比拟的优势。而现在的目标检测算法大部分还是以CNN为主要特征提取手段，虽然也有以ViT、Swin-Transformer等以Self-attention为特征提取核心的目标检测算法，但是其计算量巨大，且实际落地受到硬件设施、计算资源的限制，通用性不如Faster-RCNN和YOLOv3、SSD等以CNN为特征提取核心的目标检测算法。

本文对Conformer提出的一种CNN分支与Transformer分支互相弥补语义差距、消除特征错位的方法做出改进，并结合Darknet-53的结构，在其FPN的特征融合过程中引入自注意力机制，设计了SAU（Self-Attention Upsample）模块，通过对特征图进行重新编码以对齐自注意力输入的特征维度，同时设计多次的自注意力计算与上下层之间的联动结合，提出的FSA-FPN在融合不同尺寸物体的特征时同时也注重了自身全局信息的特征提取以提升其整体检测效果，在需要更高精度的检测场景下有更大的使用价值。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000005230

作者信息：

安鹤男1，管聪2，邓武才1，杨佳洲2，马超2

（1.深圳大学电子与信息工程学院，广东深圳 518000；2.深圳大学微纳光电子学研究院，广东深圳 518000）

微信图片_20210517164139.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容