自然语言到 SQL 的曙光:我们准备好了吗?

news2024/11/20 19:28:09

发布于:2024 年 10 月 08 日

各位读者,国庆假期已过,我们打工人要开启奋斗新征程了,今天小编也是刚上班假期综合征还没过去,就被抓过来读论文,还好我在假期没闲着,整理了几篇关于 NL2SQL 的最新论文跟大家分享。
在当今数字化时代,将用户的自然语言问题转换为SQL查询(nl2sql)对于降低访问关系数据库的门槛具有重要意义。随着大型语言模型(LLM)的出现,nl2sql任务的性能得到了显著提升,但这也引发了一个关键问题:我们是否已经完全准备好在生产环境中部署nl2sql模型?

一、nl2sql的发展历程与研究背景

(一)nl2sql方法的演进

![](https://img-blog.csdnimg.cn/img_convert/3c5e6e7d305329e8b1407ab51a167439.png)

从图1和图2可以看出,nl2sql 方法在过去二十年中经历了从 基于规则 的方法、基于神经网络 的方法、基于可调节预训练语言模型(PLM)到基于大型语言模型(LLM)的演变。早期的基于规则的方法如 NaLIR,依赖于预定义规则或语义解析器,适应性、可扩展性和泛化能力有限。随着神经网络的发展,出现了像IRNet这样的序列到序列方法。2017年左右,Transformer和Spider数据集的引入推动了基于PLM的方法的兴起,例如BERT和T5等模型在基准数据集上取得了很好的结果。而近年来,ChatGPT和GPT - 4等大型语言模型的出现使基于LLM的方法占据了主导地位。

(二)现有研究的局限性

1. **忽视使用场景:**现有评估通常报告在整个基准数据集(如 Spider)上的总体结果,缺乏对特定数据子集的详细比较。例如,没有根据不同的 SQL 特性或数据库领域进行区分,无法深入了解不同 nl2sql 模型对于特定 SQL 查询类型或特定领域场景的相对有效性。 2. **缺乏直接和全面的比较:**许多基于 LLM 和 PLM 的 nl2sql 解决方案没有在成熟的基准和定制数据集上进行系统的比较。 3. **对 nl2sql 设计空间的探索有限:**当前的 nl2sql 研究和实践在使用 LLM 和 PLM 模块探索 nl2sql 框架的设计空间方面存在局限,限制了我们对如何协同整合不同架构和功能模块以增强 nl2sql 解决方案的理解。

二、NL2SQL360 评估框架

(一)框架概述

![](https://img-blog.csdnimg.cn/img_convert/3267fb2253f336c1ae6c43a32c12a730.png)

为了解决上述问题,本文提出了一个多角度的nl2sql评估框架NL2SQL360,其框架如图4所示,包含六个核心组件。

  1. 基准数据集(Benchmark Datasts)
    维护了广泛使用的基准数据集,如Spider、BIRD、Spider-Realistic、Dr.Spider、KaggleDBQA、WikiSQL 等。
  2. 模型库(Model Zoo)
    包含了在 Spider 和 BIRD 排行榜上的一系列有竞争力的开源 nl2sql 模型,主要包括基于 LLM 和基于 PLM 的方法。
  3. 数据集过滤(Dataset Filter)

引入了数据集过滤机制,可根据不同标准将测试数据集分离为更有针对性的子集。例如:
- SQL 复杂性(SQL Complexity):从简单到复杂的查询进行分类,以评估nl2sql方法处理不同难度SQL的能力。
- SQL 特性(SQL Characteristics)
:针对主要使用特定功能(如JOIN操作、子查询或聚合函数)的SQL查询进行分类,评估系统处理不同SQL功能的能力。
- 数据领域(Data Domains):探索系统在不同数据领域(如金融、医疗保健和零售)的性能,评估领域特定的能力和潜在限制。
- 查询方差测试(Query Variance Testing)
:评估nl2sql系统在处理自然语言查询变化时的稳健性和灵活性。
4. 评估器(Evaluator)
利用日志数据自动生成定量评估,并以易于理解的表格或排行榜形式呈现。还提供可视化工具和仪表板进行交互式分析,方便用户比较不同维度的nl2sql解决方案。
5. 评估指标(Evaluation Metrics)
采用了一系列广泛接受的指标,包括执行准确率(Execution Accuracy,EX)和精确匹配准确率(Exact Match Accuracy,EM)来评估生成的 SQL 查询的有效性,使用有效效率得分(Valid Efficiency Score,VES)来衡量生成有效 SQL 查询的效率。此外,还提出了查询方差测试(Query Variance Testing)这一新指标,用于评估模型对不同形式的自然语言查询的适应能力。
6. 执行器和日志(Executor and Logs)
用户可以定制 nl2sq l模型的评估工作流程,设置超参数和指标等参数。测试床会自动在基准数据集和自定义子集上运行模型,并记录所有结果,这些日志为模型分析提供了详细的见解。

(二)实验设置与结果分析

1. **实验设置** 使用 Spider 和 BIRD 数据集的开发集作为实验数据集,包含1034和1534个(nl,sql)样本。评估了 13 种基于 LLM 和 7 种基于 PLM 的 nl2sql 方法,比较了不同方法在准确性、效率等方面的性能。 2. **准确性实验结果**![](https://img-blog.csdnimg.cn/img_convert/437c8b0797bb7f10f70f58135923a3d6.png)![](https://img-blog.csdnimg.cn/img_convert/fcab03e570607c57a0efcbe4896fe2dc.png) - **准确性与SQL复杂性** 从表3和表4可以看出,在不同难度的SQL子集上,基于LLM的方法在执行准确率(EX)指标上超过基于PLM的方法,而基于PLM的方法在精确匹配准确率(EM)指标上总体表现更好。这表明微调是提高性能的重要策略,基于LLM的方法微调后在EX指标上表现最佳,基于PLM的方法在EM指标上表现最佳。 - **准确性与SQL特性**![](https://img-blog.csdnimg.cn/img_convert/c509ecf946e082d75c5c8c2fa0736283.png) - ![](https://img-blog.csdnimg.cn/img_convert/c4a431531310095c017ec41c3803db23.png) * **子查询(Subquery)**:如图5、图6和图7所示,所有方法在处理子查询时表现最差,但基于LLM的方法在有子查询的场景中总体上优于基于PLM的方法,尤其是使用 GPT-4 的方法表现更好,这表明模型的内在推理能力对处理子查询至关重要。 * **逻辑连接器(Logical Connector)**:在需要逻辑连接器的场景中,基于LLM 的方法优于基于PLM的方法。 * **JOIN操作**:在涉及JOIN操作的场景中,基于LLM的方法也表现出优势,将NatSQL作为中间表示可以降低预测JOIN操作的复杂性并可能提高模型性能。 * **ORDER BY**:在有ORDER BY子句的场景中,基于PLM和LLM的方法在不同数据集上的性能有所不同,一般来说基于LLM的方法具有更强的泛化能力。 - **查询方差测试**:![](https://img-blog.csdnimg.cn/img_convert/1fcdab48a5bd623eb44578beea556065.png)从图8可以看出,在查询方差测试(QVT)指标上,基于LLM和基于PLM的方法没有明显的胜者,但微调后的LLM通常比提示的LLM具有更高的QVT,这可能是由于微调后模型输入与特定数据分布对齐,减少了自然语言变化对性能的影响。 - **数据库领域适应性**:![](https://img-blog.csdnimg.cn/img_convert/06ceee93625ea1c43fca79e2eff03a67.png)如图9所示,不同的 nl2sql 方法对不同领域表现出不同的偏向,基于LLM和基于PLM的方法之间没有明显的胜者。但微调后的方法在有更多训练数据库的领域表现更好,而提示的方法在训练数据库较少的领域表现出色,这表明微调过程中的领域内数据对特定领域的模型性能至关重要。 3. **效率实验结果** - **基于LLM的方法的经济性**:从表5可以看出,基于提示的LLM方法中,调用GPT-3.5-turbo的方法在执行准确率与平均成本的比率上更高,具有更高的成本效益。虽然 DAILSQL(SC)在执行准确率上有所提高,但成本也增加,降低了成本效益。 - **基于PLM的方法的效率**:从表6可以看出,随着模型大小的增加,GPU内存和延迟也会增加。不同的基于PLM的方法在执行准确率、延迟和GPU内存使用方面表现不同,模型选择应考虑延迟和硬件资源。

三、nl2sql设计空间探索与SuperSQL模型

(一)设计空间探索

1. **预处理(Pre - Processing)** 包括模式链接和数据库内容模块。模式链接将自然语言查询引用映射到数据库模式元素,增强跨领域通用性和复杂查询生成;数据库内容模块将查询条件与数据库内容对齐。 2. **提示策略(Prompting Strategy)** 分为 zero-shot和 few-shot策略。PLM-based方法通常使用 zero-shot,而 LLM-based 方法则有所不同,如C3SQL采用 zero-shot,DAILSQL和DINSQL使用 few-shot。 3. **SQL生成策略(SQL Generation Strategy)** 包括多步、解码策略和中间表示三个关键方面。不同的方法采用不同的策略,如PLM - based的RESDSQL采用“sql skeleton-sql”的多步策略,LLM-based的 DINSQL 采用“Subquery-sql”的多步策略;PLM-based 的 PICARD 采用强制 SQL 语法合规的解码策略,而 LLM-based 方法缺乏这种解码级别的限制;一些方法采用 NatSQL 作为中间表示来解决自然语言到 SQL 翻译的不匹配问题。 4. **后处理(Post - Processing)** 包括自我纠正、自我一致性、执行引导的SQL选择器和 N-best重排器等策略。

(二)NL2SQL360 - AAS 算法与 SuperSQL 模型

1. **NL2SQL360 - AAS 算法** 受到神经架构搜索(NAS)算法的启发,在 NL2SQL360 框架内设计了 nl2sql 自动化架构搜索算法(NL2SQL360 - AAS)。该算法包括初始化、个体选择、nl2sql 模块交换和 nl2sql 模块突变四个主要步骤,旨在自动探索 nl2sql 解决方案的预定义设计空间,以找到更好的 nl2sql 个体。 2. **SuperSQL模型** 通过 NL2SQL360 - AAS 算法在 Spider 开发集上搜索得到的 SuperSQL 模型,其组成如下: - **预处理**:采用 RESDSQL 的模式链接和 BRIDGE v2 的数据库内容模块。 - **提示**:使用 DAILSQL的 Few-shot模块按相似性选择上下文示例。 - **SQL生成**:采用OpenAI的贪婪解码策略,不使用多步或NatSQL。 - **后处理**:采用DAILSQL的自我一致性策略。 SuperSQL在Spider和BIRD测试集上分别取得了87.0%和62.66%的执行准确率,在执行准确率、效率和经济性等方面均表现出色,优于其设计空间内的所有基线模型。

四、研究机会与未来方向

(一)提高nl2sql方法的可信度

1. **处理模糊的自然语言查询** 可以探索查询重写器自动优化自然语言查询,以及查询自动完成帮助用户制定查询的策略。 2. **解释nl2sql解决方案** 开发nl2sql调试器检测错误的SQL查询,以及SQL和查询结果解释方法帮助用户评估结果是否符合要求。

(二)开发具有成本效益的nl2sql方法

基于LLM的nl2sql方法在令牌消耗方面成本较高,探索模块化nl2sql解决方案和多智能体框架,结合LLM优化准确性和效率是未来的研究方向。

(三)自适应训练数据生成

nl2sql方法的有效性很大程度上取决于训练数据的质量和覆盖范围,动态生成(nl,sql)对使用模型评估反馈是一个有前途的研究方向,可以解决领域适应问题并确保训练数据的多样性和高质量。

五、结论

本文提出了NL2SQL360评估框架,从多个角度对nl2sql方法进行了评估和分析。通过实验研究得出了一系列关于nl2sql方法性能的新发现,并利用NL2SQL360探索了nl2sql解决方案的设计空间,自动搜索得到了SuperSQL模型。SuperSQL模型在不同的数据集和测试指标上表现出色,为nl2sql任务提供了一种有效的解决方案。同时,本文还指出了未来nl2sql研究的几个方向,包括提高方法的可信度、开发成本效益高的方法和自适应训练数据生成等。这些研究成果为nl2sql领域的进一步发展提供了重要的参考和指导。

:::info
论文地址:https://arxiv.org/pdf/2406.01265

The Dawn of Natural Language to SQL: Are We Fully Ready?

代码地址:https://github.com/HKUSTDial/NL2SQL360

原文链接:https://mp.weixin.qq.com/s/BCxFZ2EV1xh-VlYYyR1FgQ

:::

希望这篇文章能让您对论文的核心内容有更深入的了解,如果您有任何问题或建议,欢迎在评论区留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2213887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

周易解读:两仪01

两 仪01 上一节里面,我们讲解了太极的知识。关于太极呢,它是可以有着多方面的含义。在这里呢,我们主要地,选取它的宇宙生成中的一种含义,认为太极是有所萌动,有所积累,但是呢,就是…

【YOLOv11】实战一:在LabVIEW 中使用OpenVINO实现YOLOv11

‍‍🏡博客主页: virobotics(仪酷智能):LabVIEW深度学习、人工智能博主 🎄所属专栏:『LabVIEW深度学习实战』 📑推荐文章:『LabVIEW人工智能深度学习指南』 🍻本文由virobotics(仪酷…

单体应用、SOA 和微服务架构的区别

在软件架构的发展历程中,单体应用、面向服务架构(SOA)和微服务架构都有着各自的特点和适用场景。了解它们之间的区别,有助于我们在不同的项目需求下做出更合适的架构选择。 一、单体应用 (一)定义与特点 …

DAY8 Final等

Final关键字 final修饰静态变量,这个变量今后被称为常量, 可以记住一个固定值,并且程序中不能修改了,通常这个值作为系统的配置信息。常量的名称,建议全部大写,多个单词用下划线连接。 public static final…

PaddleOCR的包装生产日期识别_随记1

一、前言 项目难点 没有训练数据图像质量层次不齐: 角度倾斜、图片模糊、光照不足、过曝等问题严重 二.、环境搭建 本任务基于Aistudio完成, 具体环境如下: 操作系统: LinuxPaddleOCR: PaddleOCR_2.7text_renderer: masterpaddlepaddle-gpu2.6.0cuda版本是11.8,…

量化投资学习

1:投资定义就是付出一定的代价,期望能够得到一定汇报,可能会出现没有回报 2:投资分析流派 2.1:宏观策略分析法:从宏观经济大方向入手,再应用到具体股票也叫自上而下的研究方法,需要理解这个趋势的核心驱动…

TS中的接口、泛型、自定义类型 与vue3的使用

泛型的使用场景: 当我们定义了一个对象时,在多次传值的过程中,其对象中的属性值被更改了,以至于后期拿不到我们需要的数据。 举个例子,当我们使用person.name时,是可以使用的。但是多次传递之后&#xff…

讯方·智汇云校华为ICT大赛赛前辅导直播安排

华为ICT大赛赛前辅导直播安排 网络赛道在“智汇云校”视频号上观看。 直播时间: 网络:2024.10.14-10.15-10.17-10.18-10.21-10.23-10.25-10.28-10.29-10.30-11.1-11.4-11.5-11.6,每晚19:30-22:00 安全:2024…

【Next.js 入门教程系列】05-数据库

原文链接 CSDN 的排版/样式可能有问题,去我的博客查看原文系列吧,觉得有用的话, 给我的库点个star,关注一下吧 上一篇【Next.js 入门教程系列】04-构造 API 数据库 本篇包括以下内容: Setting up PrismaDefining data modelsCreat…

pinia学习笔记(1.0)

首先贴出官网地址:开始 | Pinia pinia作为Vue3项目中常用的状态管理工具,正逐渐取代vuex,现从0到1自己搭建pinia仓库。 首先,安装pinia,使用包管理器工具(npm,pnpm,yarn,Bun等都可以) 安装成…

QGIS如何在正射影像中获得绘制线段的长度信息||QGIS如何获取绘制点的经纬度(如何生成WKT属性)并且导出为CSV文件

QGIS如何在正射影像中获得绘制线段的长度信息 前置条件: 导入正射影像和绘制完需要计算长度的绘制线段后 1.检查菜单栏是否有数据处理(processing)按键,如果没有的话请根据以下链接打开processing工具箱:https://bl…

微服务架构 --- Nacos的项目实战操作

目录 一.什么是Nacos? 二.什么是注册中心? 1.注册中心的定义: 2.为什么需要使用注册中心? 3.注册中心原理: 三.Nacos的使用: 1.安装与启动Nacos: 2.集成 Nacos 服务注册与发现&#xff…

邀你一起共建谷歌封号申诉共享库

大家好,我是牢鹅!相信很多老粉是通过谷歌封号的三篇文章《聊聊「谷歌8.3」账号封禁解析与应对思路 》和《聊聊谷歌「高风险」封号问题解析与应对思路》、《聊聊这半年来,谷歌为何频繁封号?》关注牢鹅的,在这将近半年的…

架构设计笔记-13-层次式架构设计理论与实践

目录 知识要点 综合知识 案例分析 1.SSM框架 2.MVC模式,XML 3.MVC架构脆弱性 4.容器技术的优势 5.对象关系映射ORM技术 知识要点 一般来说,架构可以分为表现层、中间层和持久层三个层次。 表现层:表现层主要负责接收用户的请求&…

【论文翻译】TITAN:用于交通流量预测的异构专家混合模型

题目A TIME SERIES IS WORTH FIVE EXPERTS: HETEROGENEOUS MIXTURE OF EXPERTS FOR TRAFFIC FLOW PREDICTION论文链接https://arxiv.org/pdf/2409.17440源码地址https://github.com/sqlcow/TITAN(作者说论文被接受后,代码将更新) 摘要 准确的…

API项目4:开发SDK

面临另一个问题 作为开发者,每次调用接口都需要自己生成时间戳,编写签名算法,生成随机数等等,这些都是相当繁琐的工作。 因此,要想办法让开发者能够以最简单的方式调用接口。开发者只需要关心传递哪些参数以及他们的…

如何通过计算巢在阿里云一键部署FlowiseAI

什么是FlowiseAI FlowiseAI 是一个开源的低代码开发工具,专为开发者构建定制的语言学习模型(LLM)应用而设计。 通过其拖放式界面,用户可以轻松创建和管理AI驱动的交互式应用,如聊天机器人和数据分析工具。 它基于Lang…

网站分享 | 六个插件搜索下载网站

网站分享: 今天分享几个搜索插件的网站。 🔧 Chrome Web Store —— 官方插件库,选择最多 谷歌官方的 Chrome 插件商店,拥有丰富的插件供你选择。无论你是办公党、学生党,还是娱乐爱好者,这里都能找到提…

第 4 章:Vue 中的 ajax

1. 解决开发环境 Ajax 跨域问题 vue脚手架配置代理 原理图: 1.1 方法一 在vue.config.js中添加如下配置: devServer:{proxy:"http://localhost:5000" // 这个5000 是请求目标的端口号 }说明: 优点:配置简单&…

杰理AC632N---发射功率问题

AC632N的发射功率SDK默认0dbm左右,在实际做产品时,如果使用SDK默认的发射功率,则测试到的发射功率达不到规格书上面的8dbm. 查看代码流程发现SDK中修改发射功率的文职如下: 修改到level 10 则是最大功率8dbm , 使用频谱仪可以测得…