1 / 4
文档名称:

基于知识库的Text-to-SQL准确性提升研究.pdf

格式:pdf   大小:1,810KB   页数:4
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于知识库的Text-to-SQL准确性提升研究.pdf

上传人:丰儿 2026/1/19 文件大小:1.77 MB

下载得到文件列表

基于知识库的Text-to-SQL准确性提升研究.pdf

文档介绍

文档介绍:该【基于知识库的Text-to-SQL准确性提升研究 】是由【丰儿】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【基于知识库的Text-to-SQL准确性提升研究 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。E-mail ******@
ISSN 1009-3044 :
http //
C第om21pu卷第ter Kn32owl期edg (e2025 and T年ech11nolo月gy) 电脑知识与技术 Computer Know:ledge and Technology电脑知识与技术
, , November 2025 Tel +86-551-65690963 65690964

基于知识库的Text-to-SQL 准确性提升研究
杨梅 1,王航 1,拜睿杰 2
(1. 401122 2. 100000)
中国民航信息网络股份有限公司重庆分公司,重庆 ; 中国民航信息网络股份有限公司,北京
(Text-to-SQL)
摘要:针对自然语言文本到结构化查询语言转换 在人工智能与大模型飞速发展的背景下取得显著进展,
SQL Text-to-
但在领域术语和复杂查询中 生成准确性仍有不足的问题,本研究提出一种基于知识库与嵌入模型微调的
SQL
改进方法。该方法聚焦于提升特定领域的泛化能力与知识检索效能,通过构建专有领域知识库,为大模型提供丰
富且精准的领域知识支撑,同时对嵌入模型实施针对性微调,以优化知识检索过程中的特征表示与匹配效果。实验表
SQL
明,该方法能够有效提升 生成的准确性,并减少领域术语查询和复杂语句生成时的错误率。
Text-to-SQL SQL
关键词: ;知识库;嵌入模型; 生成;自然语言处理
A
中图分类号: 文献标识码:
1009-3044(2025)32-0085-04 ( ) (OSID)
文章编号: 开放科学 资源服务 标识码 :
WikiSQL[3] Spider[4] Spider-DK Spider-SYN Text-to-
0 引言 SQL 、 、 、 等
(SQL) 数据集的相继发布,能够有效地捕捉自然语言查
结构化查询语言 作为与关系型数据库交互
询与数据库模式之间的关系。但是在应用领域,尤其
的标准语言,是软件数据处理不可或缺的一部分,但
SQL 是包含大量自定义术语和复杂关联的场景中,现有
编写 存在技术壁垒。随着人工智能技术的不断 Text-to-SQL
(Large Language Model, LLM) 方法仍有一定限制。
发展,大语言模型 能够深
领域知识库
入理解自然语言并生成高质量的文本输出,在此背景(Text-to-
下,自然语言文本到结构化查询语言转换
SQL) 领域知识库是对特定专业知识进行结构化管理LLM
的研究取得了一定进展,大大降低了数据库应用
的一种数据库或信息系统LLM ,可帮助 在外部数据上
的难度和门槛。 检索并回答问题。 的知识来源仅限于训练数据,
由于自然语言的多样性和数据库模式的复杂性LLM SQL , 对于训练数据之外的内容容易产生幻觉,然而训练成
通用 生成的 仍难满足准确性要求,主要表现 本高昂,且对专业数据集需求严苛。领域知识库针对
JOIN为匹配错误的表名、字段名,多表查询使用错误的 特定领域的知识进行结构化存储管理和集成化检索
条件,嵌套子查询生成错误的顺序,生成错误的 共享[5],实现对文本的数量化描述和特征提取[6],利用
语法等问题。
向量空间的性质更有效地捕捉数据之间的相似性2 ,提
为解决上述问题,本文提出一种基于知识库的
Text-to-SQL 高生成任务的准确性,成本优势显著。对于 2个向量,
准确性提升方法SQL,通过构建领域知识库 如果把它们的起点放到原点,那么原点和这 个向量
和微调嵌入模型,旨在提升 生成的准确性,使其 的终点将构成一个三角形,可以用余弦定理公式算出
能够在实际应用中更好地落地。
A两个向量的夹角(x ,y ) B(x ,y )θ。如果是在二维空间,有两个向量:
1 理论基础 1 1 与 2 2 ,余弦相似度的值可通过如下公式
计算: +
Text-to-SQL 技术演进 cos ( ) = x1 x2 y1 y2 (1)
Text-to-SQL θ
技术的核心是将用户输入的自然语 2 2 2 2
SQL x1 y1 x2 y2
言提问精准地转化为等价的 语句,经历了规则匹 N A(x ,x ,
LLM 同理,扩展到 维空间,有两个向量: 11 12
配、深度学习序列到序列模型、 等阶段。早期基 x ,...,x ) B(x ,x ,x ,...,x )
[1] 13 1n 与 21 22 23 2n ,余弦相似度的值可通过
于规则的方法需要大量人工来创建和维护规则 ,难 如下公式计算:
以应对现实世界的丰富表达;随着深度学习技术的发 ∑n
cos ( ) = = 1 x1 x2 (2)
展,基于序列到序列模型将自然语言提问通过模型编 θ k k k
2 2
n n
码成为固定长度的向量,利用此向量解码后将答案返 ∑ x1 ∑ x2
= 1 k = 1 k
[2] SQL k [−1,1k ]
回 ,学习自然语言与 之间的映射关系,提升了语 余弦相似度的取值范围为 ,余弦越大表示
义对齐能力;大语言模型阶段是最新发展阶段,随着 两个向量的夹角越小,语义越近;余弦越小表示两向
收稿日期:2025-04-10
作者简介:杨梅(1989—) ,女,四川达州人,软件设计师,本科,主要研究方向为DEVOPS、人工智能;王航(1982—) ,男,中级职称,硕士,主
要研究方向为软件工程、DEVOPS、人工智能;拜睿杰(1987—) ,男,中级,硕士,主要研究方向为航空管理、技术管理。
85
本栏目责任编辑:王 力 大数据与云计算技术
Computer Knowledge and Technology电脑知识与技术 第21卷第32期 (2025年11月)
3 1
量的夹角越大,语义越远。 构由应用层、服务层、数据层共 层组成,如图 所示。
嵌入模型
(text embedding)
文本嵌入 是一种将文本数据转
换为向量的技术,通过嵌入模型实现。嵌入模型是一
种将高维度数据映射到低维度嵌入向量的机器学习
模型,可将离散的文本数据转换为连续的向量表示[7]。
模型的嵌入维度决定了语义表达能力,维度越高,捕
获的语义信息更细腻,但计算和存储开销更大text2vec-base-chinese。不同
嵌入模型的特性有所不同, 专
门针对中文文本进行向量化处理bge-m3 ,适用于中文语义检
索; 集成了密集检索、多向量检索和稀疏检索m3e-large
功能,但未专门优化中文文本; 支持中英双
语的同质文本相似度计算和异质文本检索功能,适合
本项目需求。
2 Text-to-SQL 准确性挑战
SQL
相比一般的文本生成任务SQL , 的准确性要求更
高。 本身具有一定的复杂性,包含多种数据类
Text-to-SQL 图1 系统总体架构示意图
型、函数和操作符。在实际应用 过程中,
应用层提供直接与用户交互的页面。用户可以
仍存在以下挑战:
1) 管理配置数据源、数据库扩展信息;可以直接进行对
长上下文和数据库隐性关联,匹配目标表困
话交互;可以对结果进行反馈,反馈数据会作为样本
难。在实际应用中,数据库规模大,一次性接收过长
LLM 数据保存至知识库。
的上下文会导致 无法兼顾数据库模式的全部信
服务层负责处理核心业务逻辑,包括模型服务、
息;同时,数据库模式中存在的未明确定义的外键关
LLM 知识库服务、业务服务。模型服务分为嵌入模型服
系或业务逻辑约束会导致遗漏隐性关联,使 无法 LLM
务、通用 服务、模型接口管理系统:嵌入模型服务
正确匹配预期的目标表。
2) 通过私有化部署提供文本向量转换和相似度计算的
缺乏特定领域知识,领域术语查询产生幻觉。 SQL
LLM 接口;通用大模型通过私有化部署提供生成 的接
对于企业内部知识和特定领域知识无从学习,当
口;模型接口管理系统提供统一的模型接口分发管理
用户的提问使用特定领域专业术语时,无法映射到正
SQL 和权限控制功能。知识库服务分为信息保存、信息检
确的表和字段,甚至会编造信息。 语句的准确性
索:信息保存通过调用嵌入模型接口将表注释、字段
依赖表名和字段名在自然语言提问中的显式提及,但 SQL
注释、表间关联、 样本、领域特定知识进行结构化
在实际应用中,领域术语通常与表名和字段名不
存储;信息检索提供基于文本的向量检索功能。业务
一致。 SQL
3) 服务分为相似表搜索、提示词策略、 验证:相似表
多层嵌套和语法差异,复杂查询能力不足。
LLM 搜索通过相似度匹配获取与用户提问最相似的表;提
的输出能力依赖于训练的数据集,目前主流开源 SQL
Text-to-SQL 示词策略整合检索的关联扩展信息; 验证通过创
的 数据集主要集中在简单查询、英文查 SQL
建临时数据库容器环境执行生成的 ,执行异常会
询上,难以处理多层嵌套子查询、复杂逻辑组合,生成
SQL 作为负样本重新调用通用大模型服务生成结果。
的 准确率远低于单表查询。不同类型的数据库
数据层负责数据的存储与访问,分为关系数据库
在日期函数、分页处理、字符函数的语法上均存在差
SQL 和向量数据库。系统的数据源信息、对话信息等会保
异,生成的 存在语法混淆的情况。
存至关系数据库,用于点查和范围查的精确匹配。数
3 方案设计和实现 据库扩展信息保存至向量数据库,用于自然语言查询
设计思路 和近似语义搜索。
LLM 关键设计
针对前述挑战SQL ,本文提出以知识库检索辅助 2
生成 的整体架构,并通过对嵌入模型进行微调, 1关键设计如图) 所示,下面将对其进行详细说明。
进一步提高检索精度。通过嵌入模型构建领域知识 相似表搜索。使用嵌入模型服务将用户问题
库,根据用户提问查找最相似的表和最关联的信息LLM , 转换为问题向量,将数据库模式转换为表向量数组,
共同作为 的输入,查找最相似的表以缩小目标表LLM 通过余弦相似度匹配算法计算每张表与用户问题的K
范围,查找关联信息以缓解 幻觉;为提高文本匹 相似度得分K ,获取与用户问题相似度得分最高的 张
配的鲁棒性,构造领域数据集,对嵌入模型进行有监 LLM表,其中 值可根据系统需求配置,能够显著减少
督微调。 2输入规模) 。 Collection
总体架构 知识库检索Collection。在向量数据库中创建
来管理数据。 是一个二维表,具有固定的列
根据上述思路,设计了一套支撑系统,其总体架 和变化的行,每列代表一个字段,每行代表一个实体。
86
大数据与云计算技术 本栏目责任编辑:王 力
第21卷第32期 (2025年11月) Computer Knowledge and Technology电脑知识与技术
1
,数值越大,代表越相似。重点关注语义不匹配的情
况,比如字面有较多重合但语义不相似的负样本、字
面不重合但语义依然相似的正样本。
假设两个句子转换后的向量分别为cos( , ) x、y,余弦相
似度为t·(1−cosx(y, ,))基于余弦相似度设计的损失函数+(1−t)·(1+cos( , )) ,比
如: x y x y ,是让正样本对的
相似度尽可能大、负样本对的相似度尽可能小,但直
接优化这些目标的实验结果往往特别差,因为计算出
来的负样本对的相似度都过低,造成过度学习或者是CoSENT Loss
CoSENT优化过于困难。新损失函数使用的是cos ,
是苏剑林提出的一种优化 值的有监督句
向量方案,设计的目标是让任意正样本对的相似度都Circle Loss
大于负样本对的相似度,损失函数是由 公
式演化而来,损失函数公式是:
log (1 + ((cos ( , ) - (cos ( , ) ) ) (3)
∑ eλ k l i j
( , ) ∈ Ω ,( , ) ∈ Ω
i j 正样本 k l 正样本
4 实施和效果
3
系统在 个软件中进行了实施,实验针对