【Text2SQL 经典模型】SQLNet

news2024/11/22 23:22:59

论文:SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning

⭐⭐⭐⭐

Code:

  • SQLNet | paperwithcode
  • SQLNet| GitHub

一、论文速读

这篇论文强调了一个问题:order-matters problem —— 意思是说,对于一个 SQL query,他有需要相同的等价表述形式,比如说 WHERE 子句中的条件互相交换是等价的,但是对于训练一个 seq2seq 的 model 来说,选择其中的一个是敏感的

之前的 Seq2SQL 模型中,是使用强化学习来解决的 order-matter 问题,根据生成的 SQL query 是否正确来计算奖励并用于训练模型。但后来的工作发现通过强化学习来实现的改进是很有限的。

这篇论文提出了 SQLNet 模型,它采用基于 sketch(草图)的方法来生成 SQL。具体来说,论文预先设计了如下左图所示的一个 SQL sketch,其中 $xxxslots

在这里插入图片描述

然后使用多个模型来填充这些 slots,上图的右图中展示了 slots 之间的依赖关系,比如 SELECT AGGREGATOR 依赖于 SELECT Column 和 question,表示在预测 AGGREGATOR 时,需要将已经预测到 SELECT Column 和 question 作为条件来预测 AGGREGATOR。

从上图的依赖关系可以看出,不同的 WHERE 子句的预测是互相独立的,由此可以避免 order-matter problem。

二、SQLNet 的一些细节

2.1 Sequence-to-set

论文使用 seq2set 来将一个 question 转为一个包含 column names 的集合,这个集合的列名就是 WHERE 语句的列名,由此来预测 WHERE 语句包含哪些条件。

具体来说,就是计算 P w h e r e c o l ( c o l ∣ Q ) P_{wherecol}(col|Q) Pwherecol(colQ) 这个概率值,其中 col 是列名,Q 是 NL question,具体计算公式可以参考原论文。

原论文在推导这个概率的计算公式是,还提出了一个 Column attention 的概念。

2.2 预测 WHERE 子句

WHERE 子句是 WikiSQL 任务中最复杂的预测结构,它的预测也是最有挑战的任务。

在计算出 P w h e r e c o l ( c o l ∣ Q ) P_{wherecol}(col|Q) Pwherecol(colQ) 概率后,选择哪些 columns 作为 WHERE 子句的列呢?论文给出两种方法:

  • 设置一个 threshold,概率大于这个阈值的 column 被选中
  • 由另一个模型根据 question 生成一个数字 K,并选中 top-K 的 columns

2.3 预测 SELECT 子句

预测 SELECT 子句与 WHERE 子句挺相似的,只需要在所有 columns 种选出一个 column 即可,aggregator 的预测也是一个分类器。

2.4 训练 loss

给定一个 question Q,一个包含 C 列的 col,假设 y 是一个 C 维的 vector,其中 y i = 1 y_i = 1 yi=1 表示第 i 个 column 是真的出现在了正确 SQL 的 WHERE 子句中, y i = 0 y_i = 0 yi=0 表示没有。使用如下加权负对数 loss 函数来训练 P w h e r e c o l P_{wherecol} Pwherecol 子模型:

在这里插入图片描述

其中权重 α \alpha α 是一个超参数,用来平衡 positive data 和 negative data。

2.5 权重共享的细节

论文发现,预测不同 slots 所使用的 LSTM 不共享权重更好,同时共享 word embedding 更好。

word embedding 模型采用了 GloVe 模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1685040.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习】—机器学习和NLP预训练模型探索之旅

目录 一.预训练模型的基本概念 1.BERT模型 2 .GPT模型 二、预训练模型的应用 1.文本分类 使用BERT进行文本分类 2. 问答系统 使用BERT进行问答 三、预训练模型的优化 1.模型压缩 1.1 剪枝 权重剪枝 2.模型量化 2.1 定点量化 使用PyTorch进行定点量化 3. 知识蒸馏…

HQL面试题练习 —— 品牌营销活动天数

题目来源:小红书 目录 1 题目2 建表语句3 题解 1 题目 有营销活动记录表,记录了每个品牌每次营销活动的开始日期和营销活动的结束日期,现需要统计出每个品牌的总营销天数。 注意: 1:苹果第一行数据的营销结束日期比第二行数据的营…

系统思考—跳出症状看全局

今年的《系统思考—跳出症状看全局》课程不断进行了迭代优化。通过一个企业的真实案例,我们与学员共同探讨了线性思考与系统思考的区别,并学习了如何从全局角度做出更加明智的决策,一切就绪,期待学员的共创。

xxe漏洞--xml外部实体注入漏洞

1.xxe漏洞介绍 XXE(XML External Entity Injection)是一种攻击技术,它允许攻击者注入恶意的外部实体到XML文档中。如果应用程序处理XML输入时未正确配置,攻击者可以利用这个漏洞访问受影响系统上的敏感文件、执行远程代码、探测内…

操作系统底层运行原理 —— 基于线程安全的消息机制

前言 学过Android应用开发的大概都知道Handler这个东东,这也是面试中老生常谈的问题。其实不仅仅是Android,iOS以及PC的操作系统,底层也离不开消息机制。这个属于生产消费者问题。 什么是生产者消费者模式 生产者消费者模式(Pr…

【UE Websocket】“WebSocket Server”插件使用记录

1. 在商城中下载“WebSocket Server”插件 该插件具有如下节点,基本可以满足WebSocket服务端的所有需求 2. 如果想创建一个基本的服务端,我们可以新建一个actor蓝图,添加如下节点 3. UE运行后,我们可以使用在线的websocket测试助手…

使用MicroPython和pyboard开发板(15):使用LCD和触摸传感器

使用LCD和触摸传感器 pybaord的pyb对LCD设备也进行了封装,可以使用官方的LCD显示屏。将LCD屏连接到开发板,连接后。 使用LCD 先用REPL来做个实验,在MicroPython提示符中输入以下指令。请确保LCD面板连接到pyboard的方式正确。 >>…

认识NXP新型微处理器:MCX工业和物联网微控制器

目录 概述 1 MCX工业和物联网微控制器介绍 2 MCX 系列微控制器类型 2.1 MCX N系列微控制器 2.1.1 主要特征 2.1.2 MCX N系列产品 2.1.3 MCX N9xx和N5xx MCU选型表 2.2 MCX A系列微控制器 2.2.1 主要特征 2.2.2 MCX A系列产品 2.2.3 MCX A MCU的架构 2.3 MCX W系…

Unity射击游戏开发教程:(24)创造不同的敌人

在这篇文章中,我们将讨论添加一个可以承受多次攻击的新敌人和一些动画来使事情变得栩栩如生。敌人没有任何移动或射击行为。这将有助于增强未来敌人的力量。 我们将声明一个 int 来存储敌人可以承受的攻击数量,并将其设置为 3。

Unity修改Project下的Assets的子文件的图标

Unity修改文件夹的图标 示例: 在右键可以创建指定文件夹。 github链接 https://github.com/SeaeeesSan/SimpleFolderIconCSDN资源的链接 https://download.csdn.net/download/GoodCooking/89347361 去GitHub下载支持原作者哦。重要的事情 截图来自GitHub 。 U…

信息系统项目管理师0127:工具与技术(8项目整合管理—8.6管理项目知识—8.6.2工具与技术)

点击查看专栏目录 文章目录 8.6.2 工具与技术8.6.2 工具与技术 专家判断管理项目知识过程中,应征求具备如下领域相关专业知识或接受过相关培训的个人或小组的意见,涉及的领域包括:知识管理、信息管理、组织学习、知识和信息管理工具以及来自其他项目的相关信息等。 知识管理…

【2024】高校网络安全管理运维赛

比赛时间:2024-05-06 Re-easyre 基本的base64换表,用CyberChef解密 Re-babyre 进入主函数,发现输入四次 看一下就知道是大数求解 (当初写的时候差不多 不知道为什么第四个总是算错…) from z3 import *s Solver() # 设置一个解方程的类…

产品经理-需求收集(二)

1. 什么是需求 指在一定的时期中,一定场景中,无论是心理上还是生理上的,用户有着某种“需要”,这种“需要”用户自己不一定知道的,有了这种“需要”后用户就有做某件事情的动机并促使达到其某种目的,这也就…

Redis 主从复制、哨兵与集群

一、Redis 主从复制 1. 主从复制的介绍 主从复制,是指将一台Redis服务器的数据,复制到其他的Redis服务器。前者称为主节点(Master),后者称为从节点(Slave);数据的复制是单向的,只能由主节点到从节点。 默认情况下&a…

如何快速从手动测试转向自动化测试

寻求具有无缝持续集成和持续交付 (CI/CD) 的高效 DevOps 管道比以往任何时候都更加重要。想象一下这样一个场景:您的软件组织显著减少了人工工作量、降低了成本,并更加自信地发布了软件更新。换句话说,通过将 Web UI 和 API 测试结合在一起&a…

展现金融科技前沿力量,ATFX于哥伦比亚金融博览会绽放光彩

不到半个月的时间里,高光时刻再度降临ATFX。而这一次,是ATFX不曾拥有的桂冠—“全球最佳在线经纪商”(Best Global Online Broker)。2024年5月15日至16日,拉丁美洲首屈一指的金融盛会—2024年哥伦比亚金融博览会(Money Expo Colombia 2024) 于…

前端开发攻略---用Vue实现无限滚动的几种方法

目录 1、原理 2、使用CSS动画 代码: 3、使用JS实现 代码: 1、原理 复制内容:将需要滚动的内容复制一次,并将这些副本放置在原始内容的后面。这样,当用户滚动到内容的末尾时,就会无缝地切换回到内容的起…

【Python】—— 公共的方法

目录 (一)公共操作 1.1 公共操作之运算符加号 1.2 公共操作之运算符乘号 1.3 公共操作之运算符判断数据是否存在 (二)公共方法 2.1 公共方法-len 2.2 公共方法-del 2.3 公共方法-max和min 2.4 公共方法-range 2.5 公共方…

如果 SEC 批准以太坊现货 ETF,会有更多山寨币 ETF 吗?

撰文:Protos 编译:Ismay,BlockBeats 文章来源香港Web3媒体Techun News 编者按:SEC 已与交易平台和 ETF 申请人就 19b-4 规则变更请求进行沟通,这表明以太坊现货 ETF 获批的可能性大大增加。与此同时山寨币投资者猜测…

嵌入式开发中树莓派和单片机关键区别

综合了几篇帖子作以信息收录:树莓派和单片机作为嵌入式系统领域中两种广泛使用的设备,各自有着不同的特性和应用场景,文章从五个方面进行比对展开。 架构与性能: 树莓派:是一款微型计算机,通常配备基于AR…