《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 面向国产数据库的Text-to-SQL数据集设计
面向国产数据库的Text-to-SQL数据集设计
网络安全与数据治理
李国深1,刘莹君2,于莉娜2,纪涛2,张航1,吴继冰1
1.大数据与决策国家级重点实验室;2.智能空间信息国家级重点实验室
摘要: 随着智能技术的发展,数据库数量和规模激增,传统数据存取技术在应对海量数据处理需求时存在耗时长、效率低等问题,Text-to-SQL技术成为衔接用户需求和数据库存取的重要桥梁。然而,现有技术通常在开源非国产数据集上训练,在实际应用中存在数据库操作语言不一致、领域知识欠缺和可靠性差等问题。为此,结合数据库领域软硬件国产化趋势,设计面向国产数据库的Text-to-SQL数据集,采用基于合成数据方法的大语言模型两阶段训练技术,提出一种基于大语言模型的国产数据库Text-to-SQL方法,通过实验对方法的有效性进行了充分验证。
中图分类号:TP311.138文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.11.009引用格式:李国深,刘莹君,于莉娜,等. 面向国产数据库的Text-to-SQL数据集设计[J].网络安全与数据治理,2025,44(11):52-59.
The design of Text-to-SQL datasets for domestic databases
Li Guoshen1, Liu Yingjun2, Yu Lina 2, Ji Tao2, Zhang Hang1, Wu Jibing1
1. National Key Laboratory of Big Data and Decision; 2. National Key Laboratory of Intelligent Geospatial Information
Abstract: With the development of intelligent technology, the number and scale of databases have surged. Traditional data access technologies face problems such as long-time consumption and low efficiency when meeting the needs of massive data processing. Text-to-SQL technology has thus become an important bridge connecting user needs and database access. However, existing technologies are usually trained on open-source non-domestic datasets, and their application is plagued by issues like inconsistent database operation languages, lack of domain knowledge, and poor reliability. To address this, this paper, in line with the localization trend of software and hardware in the database field, designs a Text-to-SQL dataset for domestic databases, adopts a two-stage training technology for large language models based on synthetic data methods, proposes a Text-to-SQL method for domestic databases based on large language models, and fully verifies the effectiveness of the method through experiments.
Key words : fine-tuning of large language models; synthetic dataset; preference learning; domestic databas

引言

文本到结构化查询语言(Text-to-SQL,T2S)是自然语言问题和数据库工具结合的重要研究领域,具体是指将自然语言转化为计算机可执行的SQL查询语句的过程,它解决了从非结构化的自然语言和数据库模式到结构化SQL的转换等系列问题。T2S技术的核心在于从文本数据里自动识别专业术语、所属领域、关联关系及结构特征,进而构建相应映射体系。传统映射构建模式高度依赖领域专家的人工规范操作,这种方式在知识体系持续迭代更新,或者领域专家资源匮乏的场景下,往往会暴露出耗时久、成本高、易出错等诸多弊端。而随着自然语言处理技术的迅猛发展,大语言模型与T2S技术的融合应用已成为新的发展趋势。

传统的T2S方法是基于规则模式的语法解析和模板匹配,需要大量人工标注或手动构建规则[1]。而大语言模型具有强大的语言理解和生成能力[2],能够理解文本内容、提取关键信息、识别语义关系。利用大语言模型对大规模文本进行预训练,可从中自动学习实体和关系以及数据库模式,进而构建和更新从文本到SQL的映射关系,减轻领域专家在数据标注、规则构建阶段的工作量。然而,当前Text-to-SQL研究的进展仍受限于数据集的质量与规模[3]。现有主流数据集如Spider、WikiSQL、Bird虽在多领域覆盖与复杂查询标注上取得一定成果,但仍存在领域分布不均衡、真实业务场景模拟不足、标注成本高昂等问题[4],难以满足实际应用中多样化的SQL查询需求。与此同时,合成数据技术凭借其高效、低成本的优势展现出巨大潜力[5],特别是训练数据数量匮乏条件下,在数据增强与模型泛化能力提升方面表现突出。

综上,本文采用国产达梦数据库(DM)开展数据集设计,达梦数据库作为国产数据库系统之一,在军事、政务等关键领域逐步替代Oracle等国外数据库。本文针对“执勤”业务场景,设计国产数据库系统并构建专用数据集,该数据集包含300条高质量标注样本,主要针对军事典型业务查询场景。达梦数据库的模式权限设计参考《达梦数据库技术文档》[6]。同时,采用基于合成数据方法的大语言模型两阶段训练技术,通过对比实验评估合成数据与真实数据的分布一致性及对模型性能的提升效果,探索大语言模型在国产数据库环境下的适配方法,为数据保障业务提供技术支撑。实验结果表明,本数据集不仅能有效补充现有数据资源的不足,且通过合成数据验证的方式,为TexttoSQL数据集的构建与评估提供了新的技术路径。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006862


作者信息:

李国深1,刘莹君2,于莉娜2,纪涛2,张航1,吴继冰1

(1.大数据与决策国家级重点实验室,湖南长沙410073;

2.智能空间信息国家级重点实验室,北京100029)


subscribe.jpg

此内容为AET网站原创,未经授权禁止转载。