【Text2SQL 经典模型】X-SQL

news2025/1/24 1:31:19

论文:X-SQL: reinforce schema representation with context

⭐⭐⭐⭐

Microsoft, arXiv:1908.08113

X-SQL 与 SQLova 类似,使用 BERT style 的 PLM 来获得 representation,只是融合 NL question 和 table schema 的信息的方式不太一样,也就是在利用 BERT-style 得到的 representation 后进一步的加工方式不一样。

X-SQL 先由 BERT-style PLM 生成 question 和 schema 的 representation,然后对 schema representation 做上下文信息的进一步加强,再交由 6 个 sub-task 分别构建出 SQL 的一部分,最终得到完整的 SQL

一、X-SQL

整个架构包含三层:sequence encoder、context enhancing schema encoder 和 output layer。

1.1 Sequence Encoder:得到 PLM 的 representation

将 question 和 table headers 拼装成下面的形式(与 SQLova 的类似):

  • 有一个特殊的空 column 被附加到每个 table schema 最后,也就是实际最后一个 column 后面会在加一个 [EMPTY]
  • [CLS] 重命名为 [CTX],用来强调这里是捕获上下文信息,而非用于下游任务的 representation
  • SQLova 中的 segment embeddings 被替换为 type embeddings,这是我们为四种 types 学习的 embeddings:question、categorial column、numerical column 和 special empty column

另外,这里的 PLM 不是使用 BERT-Large 初始化的,而是使用 MT-DNN 初始化的,它与 BERT 架构相同,只是在多个 GLUE 任务上做过训练,从而能够得到更好的用于下游任务的 representation。

经过这一层,我们为 question 和 table schema 的每个 token 都利用 BERT-style PLM 生成一个 hidden state。

1.2 Context Enhanced Schema Encoder:加强 schema representation

在上一层 seq encoder 中,我们为 question 和 table headers 的每个 token 都得到一个 hidden state vector,在这一层,我们的 context enchanced schema encoder 通过用 h [ C T X ] h_{[CTX]} h[CTX] 来加强前面 encoder 的输出,从而得到每个 column 的一个新的 representation h C i h_{C_i} hCi,它代表 column i 的新 representation。

论文认为,尽管 BERT style 的 sequence encoder 在它的 output 中也捕捉到了一定的 context,但是这种 context influence 受限于 self-attention 的机制(它倾向于关注某个特定 region 从而缺少全局信息),所以这里使用带有全局信息的 [CTX] 的 hidden state 来加强 representation。

这里的具体做法就是,将 column i 的所有 token 的 hidden state 和 h [ C T X ] h_{[CTX]} h[CTX] 一起输入到一个 Attention 层中,得到加强后的新的 column i i i 的 representation:

经过这一层 encoder,我们得到了上下文增强的 schema representation,也就是每个 column 的新 representation

这一步的做法也体现出 X-SQL 与 SQLova 的区别,这一层的 “context enchanced schema encoder” 和 SQLova 中引入的 column-attention 机制都是为了相同的目标:更好地对齐 question 和 table schema,但两者的实现思路却不同:

  • column-attention 通过将 column 作为条件来改变 question 的编码
  • context enchanced schema encoder 认为 BERT-style 的 encoder 已经足够好了,只是基于此并试图使用 [CTX] 中捕获的全局上下文信息来得到一个更好的 representation。

1.3 Output Layer:完成各 sub-task 生成 SQL

这一层借助 sequence encoder 输出的 hidden states 和 context enchanced schema encoder 输出的 h C 1 h_{C_1} hC1 h C 2 h_{C_2} hC2、…、 h [ E M P T Y ] h_{[EMPTY]} h[EMPTY] 来生成 SQL。这里的思路也是基于 SQL sketch 并填充 slots。

这一步的任务被分解成了 6 个子任务,每个子任务预测最终 SQL 程序的一部分。

1.3.1 用来修正 schema representation 的 sub-network

首先,这里引入了一个 sub-network 用来调整 schema representation with context,具体来说,就是分别对 H [ C T X ] H_{[CTX]} H[CTX] H C i H_{C_i} HCi 做一个仿射变换,再加起来经过一个 LayerNorm 得到 r C i r_{C_i} rCi(column i 一个修正后的 representation),图示如下:

公式如下:

注意,这个 sub-network 在每个 sub-task 中都是独立训练的,也就是每个 sub-task 得到的 r C i r_{C_i} rCi 是不同的,这也体现了这个 sub-network 就是针对一个具体 task 来修正 schema representation

之后,各个 sub-task 就可以基于我们之前得到的 vectors 和 r C i r_{C_i} rCi 来做了。

1.3.2 sub-task 1:S-COL

S-COL 任务是预测 SELECT 语句中的 columns,这其实就是计算各个 columns 的一个概率,计算方式如下:

20240524214322

可以看到,这里只使用了 r C i r_{C_i} rCi,另外的 W W W 是一个可训练参数。

1.3.3 sub-task 2:S-AGG

直觉来说,aggregator 的选择会依赖所选中的 column 的类型,比如 aggregator MIN 只能被用于数字类型的 column。为了实现这个直觉,这个 task 在做 aggregator 分类时,会利用到 column type 的 embedding:

20240524214556

具体公式可以参考原论文

1.3.4 其他 sub-task

其他 sub-task 共同确定出 WHERE 部分,这里可以具体参考原论文,整体思路是差不多的。

二、总结

通过以上改进,X-SQL 在表现 WikiSQL 上的表现提升到 90% 以上,超过了 SQLova:

本文对 BERT-style 生成的 representation 的进一步的加工利用值得研究学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1688751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Keil MDK map文件学习笔记

Keil MDK map文件学习笔记 map文件组成1.Section Cross References段交叉引用2.Removing Unused input sections from the image移除无用的段3.Image Symbol Table镜像符号表局部符号表全局符号表 4.Memory Map of the image镜像存储器映射ROM区执行域RAM区执行域 5. Image com…

C#学习指南:重要内容与实用技巧

学习C#编程是一段充满挑战但又非常充实的旅程。以下是我在学习过程中积累的一些经验,希望能对大家有所帮助。 一、掌握基础概念 类及其成员 C#中的类是编程的基础模块。理解类的结构、属性、方法和构造函数是至关重要的。每个类都有其特定的功能,学会如…

Milvus 使用过程中的常见问题集锦

引言 在使用Milvus的过程中,可能会遇到一些常见问题。这些问题可能涉及到配置、查询、数据同步等方面。 常见问题 以下是一些可能遇到的常见问题及其解决方法: 查询结果不正确: 可能原因:Milvus内部缓存与数据不一致&#xff0…

【数据结构】哈夫曼树和哈夫曼编码

一、哈夫曼树 1.1 哈夫曼树的概念 给定一个序列,将序列中的所有元素作为叶子节点构建一棵二叉树,并使这棵树的带权路径长度最小,那么我们就得到了一棵哈夫曼树(又称最优二叉树) 接下来是名词解释: 权&a…

APISIX-简单使用

APISIX-简单使用 这个工具还是很不错的,可视化的配置很清晰 , 想用NGINX的配置模式也是可以的,就是要去修改配置文件了。 APISIX,一个很不错的可视化工具,用来代替Nginx相当不错,可作为Nginx的平替方案&…

Leecode热题100---45:跳跃游戏②

题目: 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。 返回到达 nums[n - 1] 的最小跳跃次数。 思路: 如果某一个作为 起跳点 的格子可以跳跃的距离是 3,那么表示后面…

解耦:哪些方法可以用来解耦代码

目录 1.引用 2.为何解耦如此重要 3.如何判断代码是否需要解耦 4.如何给代码解耦 5.思考题 1.引用 前面我们曾经讲到,重构可以分为大型重构和小型重构。小型重构的主要目的是提高代码的可读性,大型重构的主要目的是解耦。本节讲解如何对代码进行解耦…

用python为目录下的文件生成索引

好久没写文章了。 有一个需求: 我的一个目录下有很多的.html文件, 每个html会包含一些image ,但都在各自的目录中。 .html特别多,有好几百个,我需要一个index.hmtl把这些html全部索引起来,使得我一个点击&a…

计算机如何将输入文字显示出来的?渲染Image rendering

1.文字渲染的简单理解 渲染图像,可以理解为用cpu/gpu构造出原本不存在的图像。比如输入计算机的英文字符都是ASCII码,而我们在屏幕上看到显示的字符对应的应该是RGB/YUV的像素。计算机把ASCII字符转化成像素的过程就是文字渲染。又比如我们GPU用多个2D图…

全同态加密生态项目盘点:FHE技术的崛起以及应用

撰文:Chris,Techub News 在当今数字化的时代,隐私保护已成为一个全球性的焦点话题,特别是在加密货币和区块链技术快速发展的背景下。虽然当前的隐私技术在保护数据安全方面多有欠缺,引发了广泛的关注和批评&#xff0c…

如何彻底搞懂装饰器(Decorator)设计模式?

对于任何一个软件系统而言,往现有对象中添加新功能是一种不可避免的实现场景,但这一实现过程对现有系统的影响可大可小。从架构设计上讲,我们也知道存在一个开闭原则(Open-Closed Principle,OCP)&#xff0…

中文信息期刊投稿邮箱

《中文信息》杂志是国家新闻出版总署批准的国家级刊物(月刊),国内外公开发行,大十六开印刷。本刊主要反映我国中文信息处理的学术水平,重点刊登科技、经济、教育等领域的基础理论、科研与应用技术的学术论文&#xff0…

使用Coding部署项目

coding概述:提供一站式开发协作工具,帮助研发团队快速落地敏捷开发与 DevOps 开发方式,实现研发效能升级 一、创建项目 省略 详细文档:https://g-mnbk6665.coding.net/quickstart 二、SSH连接 关于ssh相关命令 重启SSH服务 s…

2023蓝桥杯大赛软件类省赛Java大学B组G题 买二增一 队列的简单应用

用队列 Queue package Dduo; //Bhu Bigdata 1421 //Eslipse IDE 2020-08 //JDK 1.8 //2024/5/19 import java.util.Scanner; import java.math.BigInteger; import java.util.Arrays; import java.util.LinkedList; import java.util.Queue;public class Main {public static v…

【openlayers系统学习】1.6下载要素,将要素数据序列化为 GeoJSON并下载

六、下载要素 下载要素 上传数据并编辑后&#xff0c;我们想让用户下载结果。为此&#xff0c;我们将要素数据序列化为 GeoJSON&#xff0c;并创建一个带有 download​ 属性的 <a>​ 元素&#xff0c;该属性会触发浏览器的文件保存对话框。同时&#xff0c;我们将在地图…

二叉树顺序结构及链式结构

一.二叉树的顺序结构 1.定义&#xff1a;使用数组存储数据&#xff0c;一般使用数组只适合表示完全二叉树&#xff0c;此时不会有空间的浪费 注&#xff1a;二叉树的顺序存储在逻辑上是一颗二叉树&#xff0c;但是在物理上是一个数组&#xff0c;此时需要程序员自己想清楚调整…

GPT-4o: 未来的智能助手

GPT-4o: 未来的智能助手 在这个信息爆炸的时代&#xff0c;人工智能&#xff08;AI&#xff09;已经成为我们生活中不可或缺的一部分。作为OpenAI最新推出的语言模型&#xff0c;GPT-4o不仅继承了前几代模型的优点&#xff0c;还在多个方面进行了显著的提升。本文将带你深入了解…

C++:vector基础讲解

hello&#xff0c;各位小伙伴&#xff0c;本篇文章跟大家一起学习《C&#xff1a;vector基础讲解》&#xff0c;感谢大家对我上一篇的支持&#xff0c;如有什么问题&#xff0c;还请多多指教 &#xff01; 如果本篇文章对你有帮助&#xff0c;还请各位点点赞&#xff01;&#…

网络编程day7

思维导图 数据库编程实现学生管理系统 #include <header.h> #define ID 1 #define NAME 2 #define AGE 3 #define SCORE 4 int do_add(sqlite3 *ppdb) {int add_numb;char add_name[20];int add_age;double add_score;printf("enter student id:");scanf(&quo…

1076: 判断给定有向图是否存在回路

解法&#xff1a; 直观的方法用邻接矩阵dfs,这是错误的代码 #include<iostream> #include<vector> using namespace std; int arr[100][100]; int f 0; void dfs(vector<int>& a, int u) {a[u] 1;for (int i 0; i < a.size(); i) {if (arr[u][i]…