乡村实景影像中动态目标智能剔除与修复研究-AET-电子技术应用

乡村实景影像中动态目标智能剔除与修复研究

电子技术应用

谭诗盈1，2，胡军国1

1.浙江农林大学数学与计算机科学学院；2.国家林草局林业感知技术与智能装备重点实验室

摘要： 实景三维建模是构建数字孪生与智慧乡村数字底座的核心技术。针对无人机倾斜摄影中动态目标导致模型几何畸变与纹理失真的问题，提出一种改进YOLO11s小目标检测与图像修复的协同框架。方法设计了融合空间注意力与金字塔下采样的卷积模块以增强小目标检测能力，并结合基于Transformer结构增强的增量式图像修复算法，对剔除区域进行语义一致与纹理连贯的高质量修复。实验表明，改进模型在VisDrone2019数据集上mAP@0.5达到46.4%，较基线提升8.0%，参数量仅为9.7M。该框架为实景三维建模中动态干扰物的自动化剔除提供了轻量化解决方案。

关键词： 智慧乡村小目标检测 YOLO11 图像修复注意力机制

中图分类号：TP319.9 文献标志码：A DOI: 10.16157/j.issn.0258-7998.267755
中文引用格式： 谭诗盈，胡军国. 乡村实景影像中动态目标智能剔除与修复研究[J]. 电子技术应用，2026，52(6)：41-48.
英文引用格式： Tan Shiying，Hu Junguo. Intelligent removal and inpainting of dynamic targets in rural scene images[J]. Application of Electronic Technique，2026，52(6)：41-48.

Intelligent removal and inpainting of dynamic targets in rural scene images

Tan Shiying1，2，Hu Junguo1

1.College of Mathematics and Computer Science， Zhejiang A & F University；2.Key Laboratory of Forestry Perception Technology and Intelligent Equipment of the State Forestry and Grassland Administration

Abstract： Real 3D modeling is essential for building digital twins and smart rural infrastructure. To tackle geometric distortions and texture artifacts from moving objects in UAV oblique photography, this study proposes a lightweight framework combining enhanced small object detection with image inpainting. An improved YOLO11s model with a spatial attention and pyramid downsampling module boosts detection accuracy, while a Transformer-augmented inpainting algorithm ensures semantic and texture consistency in removed areas. On the VisDrone2019 dataset, the model achieves 46.4% mAP@0.5, an 8.0% gain over the baseline, with only 9.7M parameters. This approach enables automated removal of dynamic objects in 3D modeling applications.

Key words : smart villages；small object detection；YOLO11；image inpainting；attention mechanism

引言

乡村是国家治理与乡村振兴的基本单元，其实景三维建模是实现数字化、精细化治理的关键支撑。无人机倾斜摄影技术以其高效、低成本的优势，成为构建乡村三维数字空间基底的重要手段。然而，在建模过程中，广泛存在的行人、车辆等非静态目标，常因影像特征差异导致模型出现类鬼影等扭曲错位问题，严重影响模型的精度与真实性。依赖人工修复的传统方式效率低、成本高。因此，实现非静态目标的自动识别与高质量修复，对提升建模自动化水平、降低建设成本、支撑智慧乡村精准应用具有重要现实意义。

在无人机影像目标检测领域，单阶段检测算法的优化主要围绕特征融合机制与计算效率的平衡展开。Yang等人[1]提出的QueryDet通过跨尺度稀疏查询机制实现1080 P分辨率下42 fps的检测速度，但其金字塔特征对齐策略导致小目标特征响应衰减。Lv等人[2]提出的 RT-DETR 通过混合编码器增强了全局上下文建模能力，在VisDrone数据集上表现优异；然而，其基于 Transformer 的架构在处理高分辨率图像时，相比轻量级 CNN 仍具有较高的计算复杂度和内存需求，增加了在资源受限边缘设备上的部署难度。本文选择YOLO11s作为基准模型，其同时具有较高的检测精度、较小的模型尺寸和较快的检测速度等优点。针对小目标检测中的特征损失问题，Sunkara等人[3]设计的SPD卷积采用空间到深度变换，将高分辨率特征图转换为通道维度，再通过1×1卷积进行特征映射。这种结构在避免池化操作造成信息丢失的同时，将标准卷积层的计算复杂度降低，特别适用于无人机影像等小目标密集场景。

图像修复技术从传统扩散模型到深度学习方法的演进过程中，Bertalmio等人[4]首次建立基于偏微分方程的修复框架，但仅适用于小区域纹理合成。Criminisi等人[5]提出的样例填充算法虽能处理大区域缺失，但难以保持结构连续性。近年来，Dong等人[6]提出的修复算法通过联合优化拓扑感知器与纹理生成器，构建了端到端的图像修复框架。其创新性在于将结构先验与生成对抗网络相结合，显著提升了复杂场景下的修复视觉保真度。针对非静态目标的建模干扰，传统方法主要依赖人工标注与MeshLab软件后处理，耗时较大。Schult等人[7]提出的Mask3D虽能实现较高自动分割精度，但需要LiDAR点云辅助训练。Cai等人[8]提出的NDR神经微分正则化器，将动态目标引起的重建误差降低至2.14 mm，但其计算复杂度达到O(n3)，难以适应大规模实景三维建模需求。

本文面向智慧乡村建设中的实景三维建模需求，提出一种针对乡村场景非静态目标的检测修复协同处理框架，通过改进的YOLO11完成小目标识别并为检测框部分添加掩膜后，利用一种基于Transformer结构增强的增量式图像修复算法实现小目标的消除，旨在通过智能化的影像处理技术，降低乡村三维建模中的人工干预成本，提升建模成果的可用性与应用价值，为数字乡村与智慧治理提供高质量的时空数据基底。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000007102

作者信息：

谭诗盈1，2，胡军国1

（1.浙江农林大学数学与计算机科学学院，浙江杭州 311300；

2.国家林草局林业感知技术与智能装备重点实验室，浙江杭州 311300）

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容