引言
由机构编制体制调整带来的机构树变化、由新装备入编或老装备退编所导致的装备分类树变化等基础数据调整是信息系统经常需面对的情况,如何查询历史数据以及追溯数据变化是一个比较难解决的问题。目前大部分管理信息系统只能通过手工还原历史数据库版本来满足历史数据查询要求,效率低下且难以满足历史数据自动追溯需求。数据中台建设可对解决此问题提供比较理想的解决方案,通过结构化数据在线抽取功能,数据中台支持对能够访问的本地关系型数据进行同构化抽取,并将数据存储在原始库。在数据抽取过程中,通过应用数据起源相关技术,可将所有曾经抽取过的历史数据存储在历史数据库中,从而能有效满足历史快照查询、树形表演化历史追踪等数据溯源需求。本文着眼于追溯数据中台源信息系统元数据和数据记录变化,分别进行了数据表元数据起源标注和数据表数据记录起源标注设计,并针对数据表元数据版本变化历史追溯、数据表数据记录版本变化历史追溯和指定时间段机构树演化历史追溯等典型溯源需求给出了具体解决方案。这种追溯类似于零部件拆卸所导致的装备BOM(Bill of Materials)历史变化溯源,文献[1-2]针对装备维修阶段的装备 BOM数据起源追踪,进行了起源标注的设计和形式化描述,并给出了装备 BOM数据起源追溯算法的形式化描述。文献[1-2]中的装备维修BOM类似于本文中的机构树,但其追溯只考虑了数据表数据记录变化,未考虑数据表元数据变化,且其主要针对起源标注设计和起源追溯进行了形式化表示,虽证明了基于起源标注的BOM数据起源追溯可行性,但基本未涉及工程实现细节;本文则提出了基于全量哈希比对的起源标注生成和存储机制,描述了具体工程实现。文献[3]提出了一种数据起源形式化表示模型,其重点是基于形式化表示模型,从多个层面解释全特性SQL和过程语言中的数据起源,主要适用于多表关联聚合情况下数据表元数据的起源追溯;本文重点则在于数据中台在线同构化抽取情况下单条数据表记录和树形表数据记录的起源追溯。文献[4]提出了一种基于时态关系的数据起源模型,利用时态表可以获取关系表在特定时间戳下的历史快照,由于快照会占用较多的存储资源,该文提出了快照的最优放置方案,即计算指定数量的时间戳,使得使用这些时间戳下的快照对查询的优化效果最好。其研究重点在于如何降低时态关系的数据冗余和提高历史快照查询效率,未涉及树形表溯源问题。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006899
作者信息:
周学文,薛猛
(中国人民解放军31306部队,四川成都610036)

