《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 基于起源标注的数据中台原始库数据溯源研究
基于起源标注的数据中台原始库数据溯源研究
网络安全与数据治理
周学文,薛猛
中国人民解放军31306部队
摘要: 数据中台数据质量审验和问题诊断经常需要追溯指定数据的历史变化。着眼于追溯数据中台源信息系统元数据和数据记录变化,进行了数据表元数据起源标注和数据表数据记录起源标注设计,基于数据中台结构化数据在线抽取功能同步生成相应的数据起源标注,并针对数据表元数据版本变化历史追溯、数据表数据记录版本变化历史追溯和指定时间段树形表数据历史追溯等典型溯源需求给出了具体解决方案。本方案在某部数据中台系统中进行了具体实现,为数据中台数据生命周期溯源提供了重要支撑。
中图分类号:TP391.3文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.12.007引用格式:周学文,薛猛. 基于起源标注的数据中台原始库数据溯源研究[J].网络安全与数据治理,2025,44(12):48-54.
Research on data traceability of the original library in data middle platform based on origin annotation
Zhou Xuewen,Xue Meng
Unit 31306 of PLA
Abstract: Data quality inspection and problem diagnosis often require tracing historical changes in specified data. This paper focuses on the changes of metadata and data records of data source information system, designs the origin annotations of data table metadata and data table data records, generates corresponding data origin annotation based on the structured data online extraction function, and provides specific solutions for the typical traceability requirements of data table metadata version change history, data table data record version change history and data history tracing of tree table data at the specified time. This scheme is specifically implemented in a certain data middle platform system, which provides an important support for the data life cycle traceability of the data middle platform.
Key words : data origin; origin annotation; data middle platform; data version; full extraction; hash alignment

引言

由机构编制体制调整带来的机构树变化、由新装备入编或老装备退编所导致的装备分类树变化等基础数据调整是信息系统经常需面对的情况,如何查询历史数据以及追溯数据变化是一个比较难解决的问题。目前大部分管理信息系统只能通过手工还原历史数据库版本来满足历史数据查询要求,效率低下且难以满足历史数据自动追溯需求。数据中台建设可对解决此问题提供比较理想的解决方案,通过结构化数据在线抽取功能,数据中台支持对能够访问的本地关系型数据进行同构化抽取,并将数据存储在原始库。在数据抽取过程中,通过应用数据起源相关技术,可将所有曾经抽取过的历史数据存储在历史数据库中,从而能有效满足历史快照查询、树形表演化历史追踪等数据溯源需求。本文着眼于追溯数据中台源信息系统元数据和数据记录变化,分别进行了数据表元数据起源标注和数据表数据记录起源标注设计,并针对数据表元数据版本变化历史追溯、数据表数据记录版本变化历史追溯和指定时间段机构树演化历史追溯等典型溯源需求给出了具体解决方案。这种追溯类似于零部件拆卸所导致的装备BOM(Bill of Materials)历史变化溯源,文献[1-2]针对装备维修阶段的装备 BOM数据起源追踪,进行了起源标注的设计和形式化描述,并给出了装备 BOM数据起源追溯算法的形式化描述。文献[1-2]中的装备维修BOM类似于本文中的机构树,但其追溯只考虑了数据表数据记录变化,未考虑数据表元数据变化,且其主要针对起源标注设计和起源追溯进行了形式化表示,虽证明了基于起源标注的BOM数据起源追溯可行性,但基本未涉及工程实现细节;本文则提出了基于全量哈希比对的起源标注生成和存储机制,描述了具体工程实现。文献[3]提出了一种数据起源形式化表示模型,其重点是基于形式化表示模型,从多个层面解释全特性SQL和过程语言中的数据起源,主要适用于多表关联聚合情况下数据表元数据的起源追溯;本文重点则在于数据中台在线同构化抽取情况下单条数据表记录和树形表数据记录的起源追溯。文献[4]提出了一种基于时态关系的数据起源模型,利用时态表可以获取关系表在特定时间戳下的历史快照,由于快照会占用较多的存储资源,该文提出了快照的最优放置方案,即计算指定数量的时间戳,使得使用这些时间戳下的快照对查询的优化效果最好。其研究重点在于如何降低时态关系的数据冗余和提高历史快照查询效率,未涉及树形表溯源问题。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006899


作者信息:

周学文,薛猛

(中国人民解放军31306部队,四川成都610036)


官方订阅.jpg

此内容为AET网站原创,未经授权禁止转载。