《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 大规模异构数据迁移的自适应清洗与智能转换框架
大规模异构数据迁移的自适应清洗与智能转换框架
网络安全与数据治理
许文静,安宁,于重,刘珠慧
国务院国有资产监督管理委员会干部教育培训中心
摘要: 在数字化转型背景下,传统集中式数据库向分布式架构迁移面临异构数据模型语义冲突、业务连续性要求、人工转换低效等核心挑战。提出智能转换框架AUTOMIG,其核心创新在于深度挖掘数据内在关联的智能决策机制与适应大规模异构环境的高效执行引擎。AUTOMIG创新性地利用图神经网络自动发现隐含于数据库模式中的复杂表间关联,并结合多目标优化模型智能决策最优存储方案,提升跨模型转换的自动化程度。同时,框架设计独特的双模式日志捕获与流批协同清洗管道,实现对海量历史数据与高频实时变更数据的低延迟、高可靠同步与清洗。该框架成功实现了在容器化平台上的部署并以大规模教育培训系统数据迁移为典型应用案例实践验证。结果表明其图神经网络驱动的关联发现显著提升了复杂查询性能,而双模式协同执行引擎则大幅缩短了迁移总耗时并优化了资源利用效率,为企业数字化转型提供了可靠的技术支撑和实践路径。
中图分类号:TP39文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.09.006
引用格式:许文静,安宁,于重,等. 大规模异构数据迁移的自适应清洗与智能转换框架[J].网络安全与数据治理,2025,44(9):35-45.
Adaptive cleaning and intelligent transformation framework for large-scale heterogeneous data migration
Xu Wenjing,An Ning,Yu Zhong,Liu Zhuhui
SASAC Education and Training Center
Abstract: In the context of digital transformation, migrating from traditional centralized databases to distributed architectures presents core challenges including semantic conflicts in heterogeneous data models, business continuity requirements, and inefficient manual conversion processes. This paper proposes an intelligent transformation framework named AUTO-MIG, whose core innovations lie in an intelligent decision-making mechanism that deeply mines intrinsic data relationships and a high-performance execution engine adapted to large-scale heterogeneous environments. AUTO-MIG innovatively employs graph neural networks(GNN) to automatically uncover complex inter-table relationships embedded within database schemas and combines a multi-objective optimization model to intelligently determine the optimal storage strategy, thereby enhancing the automation of cross-model data transformation. Furthermore, the framework incorporates a uniquely designed dual-mode log capture mechanism and a stream-batch hybrid cleaning pipeline to achieve low-latency, highly reliable synchronization and cleaning of massive historical data and high-frequency real-time changes. The framework has been successfully deployed on containerized platforms and validated through a large-scale educational training system data migration case. The results demonstrate that the GNN-driven relationship discovery significantly improves complex query performance, while the dual-mode collaborative execution engine considerably reduces total migration time and optimizes resource utilization efficiency. This provides reliable technical support and a practical pathway for enterprise digital transformation.
Key words : heterogeneous data;data migration;intelligent transformation framework;metadata awareness;graph neural network

引言

随着数字化转型进程的加速推进,企业信息系统正经历从传统集中式架构向分布式架构转型,传统集中式数据库系统正逐渐被新型混合存储架构所替代[1]。

新旧系统数据迁移工作面临规模性、异构性、时效性三个方面技术挑战[2]。规模性挑战体现在海量历史数据的迁移需求上。传统迁移方法需要较长停机时间,导致无法满足业务系统高可用性的要求。异构性挑战体现在不同数据库系统在数据模型和查询语义等方面的差异。这种差异导致自动化迁移过程中出现各种兼容性问题,特别是在业务逻辑转换方面。时效性挑战体现在迁移过程中的数据一致性保障。由于缺乏有效的增量同步机制会导致业务状态不一致,直接影响用户体验和系统可靠性。这些挑战共同形成数据迁移工作的主要难点是在有限的时间资源下,难以同时保证迁移效率、数据一致性和业务连续性。此外,现有解决方案在异构模型转换和智能化能力方面也存在明显不足,导致成本居高不下。

基于规则的数据转换方法、增量数据同步技术以及分布式事务管理方案为现有研究工作的主要技术方向。虽然这些方法在特定场景下取得了一定成效,但普遍存在明显局限。基于规则的方法需要大量人工干预,难以应对复杂的模型转换需求。基于语义映射的方法虽然提高了转换精度,但面临可扩展性问题。虽然机器学习方法为数据转换提供新的思路,但在实际应用中仍存在训练数据需求大、业务规则处理能力弱等缺陷[3]。

针对异构性、规模性和时效性三大核心挑战,本文提出智能转换框架 AUTOMIG。该框架的核心创新包括两方面:一是基于图神经网络(Graph Neural Network, GNN)的深度关联发现机制,可自动识别数据库中未明确定义的复杂表间关联,减少对人工规则的依赖,为跨模型映射提供支持;二是面向大规模异构迁移的双模式协同执行引擎,结合全量数据分块并行处理与增量日志流式捕获,在保障一致性的同时提升吞吐量、降低迁移时间。AUTOMIG 通过元数据驱动的动态适配、自解释模式转换与分布式执行策略等技术实现上述机制。为验证其有效性,本文选取具有海量历史数据、高频更新、复杂网状关联和强领域规则的大规模教育培训系统进行迁移测试,该场景能够充分体现框架的普适性与智能性。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006705


作者信息:

许文静,安宁,于重,刘珠慧

(国务院国有资产监督管理委员会干部教育培训中心,北京100053)


subscribe.jpg

此内容为AET网站原创,未经授权禁止转载。