text2sql方法:NatSQL和DIN-SQL

news2025/1/24 17:45:04

NatSQL

NatSQL出自2021年9月的论文《Natural SQL: Making SQL Easier to Infer from Natural Language Specifications》(github),它是一种SQL 中间表征(SQL intermediate representation(IR))方法。

NatSQL作者认为Text2SQL的关键挑战是自然语言描述和其对应的SQL查询之间存在不匹配(mismatch),比如论文图1的SQL语句中的GROUP BY 和JOIN ON在自然语言描述问题中没有被提到。因为SQL是被设计成高效地查询关系数据库的,不是用来表示自然语言问题的含义。对不匹配的解决办法是使用中间表征。

在这里插入图片描述

NatSQL的主要语法如论文表1,其设计原则是简化SQL的结构并使其语法与自然语言描述接近:

  • 它只保留SQL中的SELECT, WHERE, ORDER BY 子句。 去掉了GROUP BY,HAVING, FROM, JOIN ON,集合操作符(INTERSECT,UNION,EXCEPT),子查询。
  • 大写斜体字符为SQL和NatSQL关键词,其他大写字符表示特殊的含义:‘TABLE_NAME’, ‘COLUMN_NAME’ 为数据库而定义的, ‘NUMBER’, ‘STRING’ 表示数据类型。
  • 除了被删除的SQL子句外,NatSQL和SQL的差别在表1中用下划线表示。NatSQL将被删除的子句的功能通过添加新的关键字以及允许where条件之前出现conjunct来实现。

在这里插入图片描述

论文图1用一个例子示意了NatSQL与其他几种中间表征方法,NatSQL与SemQL最像,论文认为它在如下方面提升了SemQL:

  • 相比SemQL对SQL语句的兼容范围更大;
  • 简化了带集合操作符(INTERSECT,UNION,EXCEPT)的查询语句结构;
  • 去掉了嵌套子查询;
  • 减少了需要预测的schema元素的个数;
  • 使用与SQL一样的关键字和句法,比SemQL可读性更好且更易扩展。

论文后续部分更详细介绍了这些细节,本笔记主要对NatSQL作一个基本了解,就不详细记录了。

注:NatSQL的github没有包括将SQL转换成NatSQL的代码(有几个issue(1, 2)都提到了这个问题)

DIN-SQL

DIN-SQL出自2023年4月的论文《DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction》(github), 它将text2sql分解成多个子问题后,对每个子问题使用不同prompt让GPT-4生成最终的SQL语句。

论文先从Spider的训练数据集中采样了来自不同数据库的500个问题,分析使用few-shot prompt LLM生成的SQL与标准SQL不同的失败原因,并将失败原因分成如论文图1所示的6个类别。

在这里插入图片描述

在这里插入图片描述

鉴于用few-shot来prompt LLM进行text2sql时,LLM处理复杂查询时较容易出错。DIN-SQL将问题拆成更小的子问题。SQL查询是属于声明式的且可能的各个步骤及边界没有那么明显,所以直接使用很流行的COT方法来处理text2sql的效果没有像解决数学问题那么明显。但是写SQL查询的思考过程可以大致分为如下四步:

  1. 选择与查询相关的数据库表和数据列;
  2. 识别复杂查询的通用查询结构如group by, 嵌套语句, 多个join, set operations等;
  3. 如果有子组件可被识别的话,先定义这些子组件;
  4. 基于子问题的解决方法写出最后的查询。

基于上述思考过程,DIN-SQL将text2SQL任务分解成如论文图2所示的四个模块,并全部用prompt的方式来实现这四个模块,在prompt中使用的few-shot例子从基准数据集的训练集获得。

  1. schema linking;
  2. 问题分类和分解;
  3. SQL生成;
  4. 自我校正;

在这里插入图片描述

Schema Linking 模块:使用的prompt包括10个从Spider数据集随机选择的样例; 基于COT模板,prompt以"Let’s think step by step"开头。对于问题中与列名有关的mention,对应的列名和表名从给定的数据库schema中被提取出来;可能的实体或者数据取值也从问题中被提取出来,示意如论文图3a,完整prompt在附录(prompt里的描述为“# Find the schema_links for generating SQL queries for each question based on the database schema and Foreign keys.”,接着是数据表schema,再就是10个例子)。

问题分类和分解模块:将每一个问题分成三个类别:容易(easy),非嵌套复杂(non-nested complex),嵌套复杂(nested complex).

  • 容易类别:只涉及到单张表的查询,不需要join或嵌套;
  • 非嵌套复杂类别:包括join但不包括子查询的查询;
  • 嵌套复杂类别:包括join,子查询,集合操作(EXCEPT, UNION, INTERSECT)的查询

将每个问题分成不同的类别后,可以对不同的类别使用不同的prompt。论文图3b是一个示例,完整prompt在附录(prompt里的描述为“# For the given question, classify it as EASY, NON-NESTED, or NESTED based on nested queries and JOIN. if need nested queries: predict NESTED elif need JOIN and don’t need nested queries: predict NON-NESTED elif don’t need JOIN and don’t need nested queries: predict EASY”)

SQL生成模块:对第二步分类的三个类别使用不同的处理方式。

  • 容易类别:使用few-shot prompting, 每一个例子由 < Q j , S j , A j > <Q_j, S_j, A_j> <Qj,Sj,Aj>组成, Q j Q_j Qj是问题, S j S_j Sj是schema links, A j A_j Aj是SQL。

在这里插入图片描述

  • 非嵌套复杂类别:使用NatSQL作为中间表征(intermediate representation),few-shot prompting的每一个例子由 < Q j , S j , I j , A j > <Q_j, S_j, I_j, A_j> <Qj,Sj,Ij,Aj>组成, Q j Q_j Qj是问题, S j S_j Sj是schema links, i j i_j ij是问题和SQL的中间表征, A j A_j Aj是SQL。

在这里插入图片描述

  • 嵌套复杂类别:prompt被设计成让LLM先解决子查询,再用子查询生成最后的回答,few-shot例子格式为 < Q j , S j , < Q j 1 , A j 1 , … , Q j k , Q j k > , I j , A j > <Q_j, S_j,<Q_{j_1}, A_{j_1}, \ldots, Q_{j_k}, Q_{j_k}>, I_j, A_j> <Qj,Sj,<Qj1,Aj1,,Qjk,Qjk>,Ij,Aj>, k为子问题的个数, Q j i Q_{j_i} Qji A j i A_{j_i} Aji表示第i个子问题和第i个子SQL语句, 其他的符号与前面一致。

在这里插入图片描述

自我校正模块:由LLM生成的SQL有时会有缺失或者多余的关键字如DESC、DISTINCT等。所以DIN-SQL包括一个自我校验模块,采用zero-shot的形式,并且用两种不同的prompt来实现:

  • generic:要求模型识别和纠正"BUGGY SQL"中的错误;

在这里插入图片描述

  • gentle:不假定生成的SQL查询是有bug的,提供要注意哪些语句的提示让模型去检查潜在问题;
    在这里插入图片描述

论文发现对GPT-4使用gentle prompt的效率更高,而对CodeX模型使用generic prompt的效率更高。

DIN-SQL与few-shot prompt的失败类别对比如论文图4。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2174797.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cookie、Session、Token(JWT)还不懂?

Cookie、Session、Token&#xff08;JWT&#xff09; 三者的区别与用途&#xff01;如何进行身份认证&#xff0c;保持用户登录状态&#xff1f; Cookie、Session 和 Token 都是在 Web 开发中用于管理用户状态和进行身份认证的技术&#xff0c;它们之间有以下区别和用途&#…

【js逆向学习】酷我音乐排行榜 python+nodejs(webpack)

逆向目标 目标网址: https://www.kuwo.cn/rankList目标接口: https://www.kuwo.cn/api/www/bang/bang/musicList 加密参数: 参数一&#xff1a;secret参数二&#xff1a;reqId 逆向过程 老规矩先分析网络请求&#xff0c;我们可以分析到网络请求是通过ajax进行的&#xff…

【C++】C/C++内存管理(new/delete)

C/C内存分布 代码内存相关问题 int globalVar 1; static int staticGlobalVar 1;void Test() {static int staticVar 1;int localVar 1;int num1[10] { 1, 2, 3, 4 };char char2[] "abcd";const char* pChar3 "abcd";int* ptr1 (int*)malloc(siz…

yolox训练自己的数据集

环境搭建 gpu按自己情况安装 nvidia-smi 查看自己的版本 CUDA和cudnn 按自己的安装&#xff0c;我的驱动551.76&#xff0c;注意不要用最新的&#xff0c;官网只要求驱动是大于等于&#xff0c;可以用低版本的cuda&#xff0c;我安装的是CUDA 11.1 cuda下载后&#xff0c…

报告查询系统小程序开发制作方案

报告查询小程序系统主要是为了解决传统报告查询方式往往依赖于纸质文档或复杂的内网系统&#xff0c;存在查询效率低、信息更新慢、携带不便等问题。 一、目标用户 企业员工&#xff1a;需要频繁查询各类工作报告&#xff0c;如销售人员查询销售业绩报告&#xff0c;财务人员查…

信道衰落的公式

对于天线&#xff1a; 对于天线的面积计算&#xff1a; 天线的接收功率密度&#xff1a; 天线的接收功率&#xff1a; 移动无线信道&#xff08;I&#xff09; (xidian.edu.cn)https://web.xidian.edu.cn/zma/files/20150710_153736.pdf 更加常用的考虑了额外的信道衰落pathlo…

基于YOLOv5的农作物病虫害识别系统设计与实现(PYQT+web端+微信小程序+YOLOv5+训练数据集+论文+部署文档+开题报告)

摘要 农作物病虫害是农业生产中的关键问题&#xff0c;病虫害的爆发和侵袭不仅严重影响农作物产量和质量&#xff0c;还可引发局部地区严重的灾害性损失。因此&#xff0c;及时发现和预防农作物病虫害的发生和发展至关重要。本文以农作物病虫害图像为载体&#xff0c;运用深度…

python的高级用法

对于python的使用&#xff0c;我们常见的用法是python xx.py直接执行脚本&#xff0c;有时可能您需要在脚本的第一行添加&#xff08;#!/usr/bin/env python3 或 #!/usr/local/bin/python3&#xff09;&#xff0c;然后chmod确保脚本文件具有可执行权限。这样脚本就可以在终端直…

从哪里下载高清解压视频素材?推荐五个优质素材资源网站

想制作吸引人的抖音小说推文&#xff0c;但不知道从哪里获取高清解压视频素材&#xff1f;今天就为大家推荐五个优秀的网站&#xff0c;帮助你轻松找到所需的素材&#xff0c;提升你的创作质量。 首先是蛙学网 作为国内顶级的短视频素材网站&#xff0c;蛙学网提供了丰富的4K高…

Vxe UI vue 使用 vxe-tabs 页签实现右侧操作按钮、关闭所有页签、关闭右侧、关闭左侧

Vxe UI vue 使用 vxe-tabs 页签实现右侧操作按钮、关闭所有页签、关闭右侧、关闭左侧 查看 github <template><div><vxe-tabs v-model"selectTab" :options"tabList"><template #extra><vxe-pulldown :options"tabOptio…

Flood Fill模型

这个模型主要用来求连通块的数量&#xff0c;在求连通块时有“8连通”和“4连通”之分。 看上面的图形&#xff0c;如果是4连通那么红色和绿色就不连通&#xff08;只有一个格子的“上下左右”相连才叫连通&#xff09;。如果是8连通那就联通&#xff08;不仅仅包含边相连&…

SwiftUI简明概念(4):如何对shape同时进行fill和stroke

1、iOS17方案 iOS17上可以同时对shape调用fill和stroke&#xff1a; Circle().stroke(.red, lineWidth: 20).fill(.orange).frame(width: 150, height: 150) 效果也如我们所预料的&#xff1a; 而且stroke可以调用任意次&#xff1a; Circle().stroke(.blue, lineWidth: 45…

【路径规划】基于球向量的粒子群优化(SPSO)算法在无人机路径规划中的实现

摘要 本文介绍了基于球形矢量的粒子群优化&#xff08;Spherical Particle Swarm Optimization, SPSO&#xff09;算法&#xff0c;用于无人机&#xff08;UAV&#xff09;路径规划。SPSO算法通过引入球形矢量的概念&#xff0c;增强了粒子群在多维空间中的探索和利用能力&…

TXT文档批量处理,根据总行数平均分成多个文件保存,批量拆分实例分享

在高强度的工作下&#xff0c;怎样拆分文档&#xff0c;手动拆分整理&#xff0c;不仅效率低&#xff0c;而且还容易出错。当然是要选择操作轻松简单首助编辑高手&#xff0c;提高工作效率。 1、打开软件并选择到文本批量操作功能选项上&#xff0c;选择文本批量操作&#xff1…

【C++】类和对象(类的定义,类域,实例化,this指针)

目录 一. 类的定义 【对比c】结构体和类的区别 1. 称呼&#xff1a;变量 or 对象&#xff1f; 2. 类型&#xff1a; 3. 访问限定&#xff1a; 4. c和c结构体使用 5. 相同点&#xff1a; 二. 类域 三. 实例化 1. 1对N 2. 计算大小只考虑成员变量 3. 到此一游 四. …

一、前后端分离及drf的概念

1.1什么是前后端分离 程序角度 前后端不分离&#xff1a;一个程序&#xff08;如django),接收请求处理HTML模版用户返回 前后端分离&#xff1a;两个程序 --前端&#xff1a;vue.js/react.js/angular.js --后端&#xff1a;Django drf(django rest framework) 2.专业角度 --…

3.消息机制总结——总结

Handler 机制的底层逻辑就是利用 epoll eventfdAndroid2.3开始 Google把Handler的阻塞/唤醒方案从Object#wait()/notify(),改为Linux epoll实现&#xff0c;why&#xff1f;原因在于&#xff0c;native也引入了消息管理机制&#xff0c;用于提供个C/C开发者使用&#xff0c;而…

nicegui组件button用法深度解读,源代码IDE运行和调试通过

传奇开心果微博文系列 前言一、button 组件基本用法1. 最基本用法示例2. 创建带图标按钮 二、button按钮组件样式定制1. 按钮的尺寸调整2. 改变颜色示例3. 按钮的自定义字体大小4. 圆角形状示例5. 自定义边框6. 添加阴影7. 复合按钮8. 浮动按钮9. 可扩展浮动操作按钮QFAB10. 按…

使用k8s部署java前后端服务

一、项目架构 前端、后端、数据库 1&#xff09;前端 静态的资源&#xff1a;img css html js文件 js&#xff1a;axios、ajax 2&#xff09;后端 提供数据&#xff1a;根据web前端发送的请求&#xff0c;从数据库中获取数据 请求都是无状态的&#xff0c;如何保持会话 …

依赖注入之set注入

set注入 set注入&#xff0c;基于set王法实现的&#xff0c;底层通过反射机制调用属性对应的set方法&#xff0c;然后给属性赋值&#xff0c;这种方法要求属性必须对外提供set方法 1. 想让Spring调用对应的set方法&#xff0c;需要配置property标签 2. name属性怎么指定值:s…