基于多尺度特征融合和SAM引导的无人机小尺度目标检测-AET-电子技术应用

基于多尺度特征融合和SAM引导的无人机小尺度目标检测

网络安全与数据治理

钟嘉宇1，牛利玲2，任超1

1.四川大学电子信息学院； 2.四川航天电子设备研究所

摘要： 在无人机航拍中，因拍摄距离远、目标占比低，其线性尺度仅有十余像素且特征匮乏，导致检测性能显著下降。现有方法主要分为样本增强与多尺度感知，前者在航拍目标密集场景中易引入语义冲突，而后者在深层特征感知与全局建模上仍存在不足。为此，提出一种基于多尺度特征融合和SAM引导的小目标检测网络，通过设计包含小目标检测层的多尺度架构增强特征表达能力，融合空洞卷积与Transformer以扩大感受野并建模长程依赖，并引入SAM大模型的先验知识引导网络训练，从而提升对小目标特征的提取能力。实验表明，该方法在VisDroneDET2019上显著提升了小目标检测精度。

关键词： 目标检测特征提取深度学习

中图分类号：TP391.4文献标志码：ADOI:10.19358/j.issn.2097-1788.2026.03.004
中文引用格式：钟嘉宇，牛利玲，任超. 基于多尺度特征融合和SAM引导的无人机小尺度目标检测［J］.网络安全与数据治理，2026，45（3）：24-32.
英文引用格式：Zhong Jiayu，Niu Liling，Ren Chao. UAV small-scale object detection based on multiscale feature fusion and SAM guidance［J］.Cyber Security and Data Governance，2026，45（3）：24-32.

UAV small-scale object detection based on multi-scale feature fusion and SAM guidance

Zhong Jiayu1，Niu Liling2，Ren Chao 1

1. College of Electronics and Information Engineering, Sichuan University; 2. Sichuan Aerospace Electronic Equipment Research Institute

Abstract： In UAV aerial images, the target objects to be detected are often only dozens of pixels in size due to long shooting distances and low target occupancy ratios, resulting in severe feature scarcity and a significant degradation in small object detection performance. Existing approaches primarily fall into two categories: sample augmentation and multiscale perception. The former tends to introduce semantic conflicts in dense aerial scenarios, while the latter remains inadequate in deep feature perception and global modeling. To address these limitations, this paper proposes a small object detection network based on multiscale feature fusion and SAMguided learning. Specifically, we design a multiscale architecture incorporating dedicated detection layers for small objects to enhance feature representation; integrate dilated convolutions with Transformers to enlarge the receptive field and model longrange dependencies; and leverage the prior knowledge of the Segment Anything Model (SAM) foundation model to guide network training, thereby improving the extraction of discriminative features for small objects. Experimental results demonstrate that our method significantly improves small object detection accuracy on the VisDroneDET2019 benchmark.

Key words : object detection; feature extraction; deep learning

引言

近年来，深度学习技术的快速发展显著推动了计算机视觉与智能感知领域的进步，为遥感图像的自动化理解提供了强大的方法支撑。在此背景下，结合飞行控制与高分辨率成像技术的持续突破，无人机在遥感监测中的应用广度与深度不断拓展。依托其广域覆盖、灵活机动与近地观测等优势，无人机系统已广泛

服务于农作物长势动态监测［1］、车辆检测与轨迹分析［2］以及灾情快速勘察［3］等多样化场景，将逐步发展为多行业实现高效、实时区域感知的核心技术手段。然而，在实际应用中，尤其是在执行低空飞行任务时，无人机所获取的图像常面临显著的目标检测挑战：待识别目标(如行人、车辆等)在图像中通常呈现为小尺度目标，其边界框尺度往往仅为数十像素，导致目标特征信息不足、信噪比较低，显著增加了检测与识别的难度。针对这一挑战，研究者们从数据与模型两个核心维度展开了系统性探索，主要形成了两大技术路径：样本导向的方法与多尺度感知的方法。

基于小目标在图像中占比小、与锚点重叠度低的问题，研究者们探索样本导向的方法，即通过人工合成或变换，在现有图像中增加小目标实例，解决小目标稀缺问题。RRNet［4］引入自适应重采样数据增强策略，利用先验分割图来引导小目标粘贴位置。DSGAN［5］提出一种基于生成对抗网络的小目标检测数据增强方法，其通过大目标生成高质量合成小目标，并结合分割等方法合理选择位置粘贴。尽管上述样本导向的数据增强方法在小目标稀疏的训练数据中表现良好，但当原始训练集本身已包含密集分布的小目标时，其基于复制粘贴的增强机制易加剧样本中的目标重叠、尺度失配与背景语义冲突，不仅难以提升数据多样性，反而可能引入分布偏移与伪影干扰，导致模型训练不稳定。

同时，目标尺度的显著差异普遍存在：同一图像中常同时出现远距离的小尺度目标与近距离的大尺度目标。这一特性对检测模型的尺度适应性提出了挑战，促使多尺度感知能力成为现代目标检测系统的核心设计要素。其中， FPN［6］首次系统性地将高层语义特征通过上采样与低层高分辨率特征融合，在保持定位精度的同时增强特征语义信息，从而显著缓解尺度变化带来的性能下降问题，成为特征提取器的核心组件。随后，一大批优秀的多尺度特征融合方法涌现出来。PANet［7］在FPN 的自顶向下路径基础上增加了自底向上的路径，实现双向跨尺度特征融合。BiFPN［8］在PANet双向特征融合基础上，通过精简冗余连接和引入可学习的加权融合机制，实现了更低计算开销的特征融合。SSPNet［9］通过上下文注意力模块、尺度增强模块和尺度选择模块协同优化多尺度特征利用，并结合加权负采样策略，显著提升了微小行人检测性能。SCRDet［10］通过采样融合网络提升多尺度小目标感知能力，结合监督像素注意力与通道注意力机制抑制背景干扰、强化目标特征。FFCAYOLO［11］通过特征增强、多尺度融合与空间上下文感知三大模块，在显著提升遥感小目标检测精度与鲁棒性的同时兼顾实时性。上述研究表明，合理融合多层特征，可有效缓解尺度变化带来的性能下降。尽管如此，如何在多尺度分布下实现较好的检测性能，仍需要进一步探索。

近年来，以SAM［12］、DINO［13］为代表的视觉大模型，因其在海量数据上训练获得的强大通用视觉表征与零样本泛化能力，为解决上述问题提供了新的思路。其内在的丰富语义信息，可为提升目标检测，尤其是小目标的检测性能，提供宝贵的先验知识。为了进一步提升模型对小尺度目标的检测能力，更有效地应对航拍遥感图像中因成像距离远、目标占比低导致的特征弱化与易漏检问题，本文提出了一种基于多尺度特征融合与SAM视觉特征引导的小目标检测网络(MSGYOLO)，其主要贡献如下：

(1)针对小目标检测中多层次特征融合不足的问题，提出基于特征金字塔的多尺度检测架构，通过引入小目标检测层，强化多尺度特征表达能力。

(2)针对深层特征感受野受限和全局上下文建模不足的问题，融合空洞融合模块(Dilated Fuse Block， DFB)与Transformer模块(Transformer Block， TFB)，通过多分支空洞卷积扩大感受野，并利用自注意力机制捕获长程依赖，提升复杂场景下小目标的表征能力。

(3)针对网络对小目标特征提取不稳健的问题，引入SAM视觉大模型的视觉先验知识作为引导信息，指导检测网络的训练过程。

本文详细内容请下载：

http://www.chinaaet.com/resource/share/2000007023

作者信息：

钟嘉宇1，牛利玲2，任超1

(1.四川大学电子信息学院，四川成都610065；

2.四川航天电子设备研究所，四川成都610100)