《电子技术应用》
您所在的位置:首页 > 人工智能 > 设计应用 > 面向多源异构数据的知识图谱可视化融合方法
面向多源异构数据的知识图谱可视化融合方法
电子技术应用
梁浩1,付达2
1.深圳鹏锐信息技术股份有限公司;2.北京京能能源技术研究有限责任公司
摘要: 为解决数据冗余冲突与关联缺失问题,研究面向多源异构数据的知识图谱可视化融合方法,提升数据融合的可靠性。利用网络本体语言为多源异构数据建立对应的领域本体库与全局本体库,使得知识实体抽取和知识融合在同一框架下进行;通过长短期记忆网络-条件随机场模型,在本体库约束下,从多源异构数据中抽取符合领域定义的知识实体;利用基于层次过滤思想的知识融合模型,可视化融合抽取的知识实体,解决多源异构数据中冗余信息和不一致性问题,形成准确、完整、可靠的多源异构数据可视化融合知识图谱,有助于发现潜在的数据关联,补全数据关联缺失。实验结果表明:随着数据缺失比例的提升,尺度系数与属性覆盖度均开始下降,最低尺度系数与属性覆盖度是0.86与0.87,均显著高于对应的阈值;所提方法在处理四个数据源时,视觉清晰度达93%~97%,信息融合度达92%~96%,均优于对比方法。说明该方法可有效抽取多源异构数据知识实体,建立知识图谱,实现多源异构数据可视化融合;在不同数据缺失比例下,该方法多源异构数据可视化融合的尺度系数与属性覆盖度均较大,即数据可视化融合效果较优;同时有效提升了数据可视化效果和信息整合程度。
中图分类号:TP391 文献标志码:A DOI: 10.16157/j.issn.0258-7998.245966
中文引用格式: 梁浩,付达. 面向多源异构数据的知识图谱可视化融合方法[J]. 电子技术应用,2025,51(6):47-53.
英文引用格式: Liang Hao,Fu Da. Knowledge graph visualization fusion method for heterogeneous data from multiple sources[J]. Application of Electronic Technique,2025,51(6):47-53.
Knowledge graph visualization fusion method for heterogeneous data from multiple sources
Liang Hao1,Fu Da2
1.Plant Resource Technology Co., Ltd.; 2.Beijing Jingneng Energy Technology Reach Co., Ltd.
Abstract: In order to solve the problem of data redundancy conflict and lack of association, a knowledge graph visualization fusion method for multi-source heterogeneous data is studied to improve the reliability of data fusion. The domain ontology database and global ontology database corresponding to multi-source heterogeneous data are established by using Web Ontdogy Languge(OWL), so that knowledge entity extraction and knowledge fusion are carried out under the same framework. Based on the Long Short-Term Memory network(LSTM) and Conditional Random Field(CRF) model, knowledge entities conforming to domain definition are extracted from heterogeneous data from multiple sources under the constraint of ontology library. The knowledge fusion model based on hierarchical filtering is used to visualize the extracted knowledge entities, solve the redundant information and inconsistency problems in multi-source heterogeneous data, and form an accurate, complete and reliable multi-source heterogeneous data visualization fusion knowledge graph, which helps to find potential data associations and complete the missing data associations. The experimental results show that with the increase of the proportion of missing data, the scaling coefficient and attribute coverage begin to decrease, and the lowest scaling coefficient and attribute coverage are 0.86 and 0.87, which are significantly higher than the corresponding thresholds. When dealing with four data sources, the visual clarity of the proposed method is 93%~97%, and the information fusion is 92%~96%, which are better than the comparison methods. It shows that the method can effectively extract the knowledge entities of multi-source heterogeneous data, establish the knowledge graph, and realize the visualization fusion of multi-source
Key words : multi-source heterogeneous data;knowledge graph;visual ization fusion;ontology library;long short-term memory network;conditional random field

引言

在实际应用中,数据往往来源于多个不同的源头,具有异构性、多样性和复杂性等特点,这给数据的处理、分析和应用带来了巨大挑战[1]。多源异构数据融合方法应运而生,旨在通过先进的技术手段,将来自不同数据源、不同格式、不同结构的数据进行有效整合与展示,为用户提供直观、全面、深入的数据洞察[2]。

多源异构数据融合方法不仅有助于解决数据孤岛问题,实现数据的互联互通[3],还能够显著提升数据处理的效率和准确性,为决策支持、科学研究、产业创新等领域提供强有力的数据支撑。例如,莫慧凌等人利用联邦学习框架实现数据融合,各参与方均利用张量Tucker分解理论,提取数据特征;通过中央服务器收集并聚合来自各参与方的模型参数,形成全局模型;以多次迭代方式优化全局模型,完成数据融合[4]。在异构数据中,存在冗余或冲突的信息。Tucker分解和联邦学习框架在处理这些信息时无法完全避免冗余和冲突的影响,进而影响数据融合效果。王姝等人利用信息熵评估各证据源的相对重要性,并通过散度计算来获取证据可信度优化证据,得到差异信息量,确定各数据源的最终权重,进行数据融合[5]。信息熵方法主要关注于信息量的评估,而对于数据之间的冗余性缺乏直接的识别能力,导致数据融合过程中冗余数据仍然被保留,增加数据处理的复杂性和计算成本。匡广生等人利用图的聚类算法来识别数据中的相似性,进而将相似的数据项进行融合[6]。图的聚类算法主要依赖于数据间的相似关系进行聚类。然而,当数据集中存在关联缺失时,该算法无法准确地将这些数据项划分为同一聚类,导致数据融合结果无法完全反映数据间的真实关系。Gong等人提出了一种多粒度视觉引导的多模态异构图实体级融合命名实体识别方法,该方法通过在不同视觉粒度上整合文本与视觉的跨模态语义交互信息,构建全面的多模态表示[7]。利用多模态异构图精确描述实体级单词与视觉对象的语义关系,并借助异构图注意力网络实现细粒度跨模态语义交互,显著提升识别准确率,但实现过程复杂度较高,可能影响应用效率。

在多源数据融合过程中,数据冗余和冲突是常见问题。知识图谱通过去重、纠错等步骤,以及关系网络的构建,能够减少数据冗余和冲突,提高数据融合的准确性和可靠性。同时,知识图谱通过构建实体之间的关系网络,能够发现数据之间的潜在关联,从而补全数据关联缺失的问题。为此,研究面向多源异构数据的知识图谱可视化融合方法,充分利用各种数据资源,避免数据浪费,提高数据利用率。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006561


作者信息:

梁浩1,付达2

(1.深圳鹏锐信息技术股份有限公司,广东 深圳 518055;

2.北京京能能源技术研究有限责任公司,北京 100020)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。