引言
文本到结构化查询语言(Text-to-SQL,T2S)是自然语言问题和数据库工具结合的重要研究领域,具体是指将自然语言转化为计算机可执行的SQL查询语句的过程,它解决了从非结构化的自然语言和数据库模式到结构化SQL的转换等系列问题。T2S技术的核心在于从文本数据里自动识别专业术语、所属领域、关联关系及结构特征,进而构建相应映射体系。传统映射构建模式高度依赖领域专家的人工规范操作,这种方式在知识体系持续迭代更新,或者领域专家资源匮乏的场景下,往往会暴露出耗时久、成本高、易出错等诸多弊端。而随着自然语言处理技术的迅猛发展,大语言模型与T2S技术的融合应用已成为新的发展趋势。
传统的T2S方法是基于规则模式的语法解析和模板匹配,需要大量人工标注或手动构建规则[1]。而大语言模型具有强大的语言理解和生成能力[2],能够理解文本内容、提取关键信息、识别语义关系。利用大语言模型对大规模文本进行预训练,可从中自动学习实体和关系以及数据库模式,进而构建和更新从文本到SQL的映射关系,减轻领域专家在数据标注、规则构建阶段的工作量。然而,当前Text-to-SQL研究的进展仍受限于数据集的质量与规模[3]。现有主流数据集如Spider、WikiSQL、Bird虽在多领域覆盖与复杂查询标注上取得一定成果,但仍存在领域分布不均衡、真实业务场景模拟不足、标注成本高昂等问题[4],难以满足实际应用中多样化的SQL查询需求。与此同时,合成数据技术凭借其高效、低成本的优势展现出巨大潜力[5],特别是训练数据数量匮乏条件下,在数据增强与模型泛化能力提升方面表现突出。
综上,本文采用国产达梦数据库(DM)开展数据集设计,达梦数据库作为国产数据库系统之一,在军事、政务等关键领域逐步替代Oracle等国外数据库。本文针对“执勤”业务场景,设计国产数据库系统并构建专用数据集,该数据集包含300条高质量标注样本,主要针对军事典型业务查询场景。达梦数据库的模式权限设计参考《达梦数据库技术文档》[6]。同时,采用基于合成数据方法的大语言模型两阶段训练技术,通过对比实验评估合成数据与真实数据的分布一致性及对模型性能的提升效果,探索大语言模型在国产数据库环境下的适配方法,为数据保障业务提供技术支撑。实验结果表明,本数据集不仅能有效补充现有数据资源的不足,且通过合成数据验证的方式,为TexttoSQL数据集的构建与评估提供了新的技术路径。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006862
作者信息:
李国深1,刘莹君2,于莉娜2,纪涛2,张航1,吴继冰1
(1.大数据与决策国家级重点实验室,湖南长沙410073;
2.智能空间信息国家级重点实验室,北京100029)

