【微软】【ICLR 2022】TAPEX:通过学习神经 SQL 执行器进行表预训练

news2025/3/1 13:49:13

重磅推荐专栏: 《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用!

论文:https://arxiv.org/abs/2107.07653
代码:https://github.com/microsoft/Table-Pretraining

通过利用大规模非结构化文本数据,语言模型的研究取得了巨大的成功。然而,由于缺乏大规模、高质量的表格数据,对结构化表格数据进行预训练仍然是一个挑战。在本文中,作者提出TAPEX来证明表预训练可以通过在合成语料库上学习神经SQL执行器来实现,这是通过自动合成可执行的SQL查询及其执行输出来获得的。TAPEX通过指导语言模型在多样化、大规模和高质量的合成语料库上模拟SQL执行器,从而解决了数据稀缺性的挑战。作者在四个基准数据集上评估了TAPEX。实验结果表明,TAPEX比以前的表前训练方法有很大的优势,并且都取得了新的最先进的结果。

1. 概述

在本文中,作者提出了一种新的以执行查询为核心的表格预训练方法——TAPEX(TAble Pretraining via EXecution)。通过逼近表上的正式语言的结构推理过程,实现了高效的表预训练。结构性推理过程与表的可执行性相关联,即表本身就能够支持各种推理操作(例如,对表中的一列进行求和)。特别是,TAPEX通过对语言模型(LM)进行预训练来模拟表上的SQL执行引擎的行为,来近似SQL查询的结构性推理过程。
图1-1:我们的方法的示意图概述。为了简洁起见,输入中的表内容被简化为符号为[Table]

如图1-1所示,通过对表进行采样可执行的SQL查询,TAPEX首先合成了一个大规模的训练前语料库。然后,它继续预训练一个语言模型,以输出这些SQL查询的执行结果,这些查询从SQL执行引擎获得。 由于SQL查询的多样性,可以很容易地合成一个多样化、大规模、高质量的训练前语料库。

2. 对下游任务的微调

模型整体是一个BART结构。如图2-1所示,输入包含一个NL句子及其相应的表。
图2-1:微调过程的说明。在微调过程中,作者将从下游任务中提取的NL句子及其对应的表连接到模型中,并训练它输出答案(例如,“Marisela Moreno Montero”)。
编码NL句子相对简单,而编码表并不简单,因为它展示了底层结构。在实践中,作者将表压平成一个序列,以便将它可以直接输入到模型中。通过插入几个特殊的标记来表示表的边界,可以将一个扁平的表格表示为:
T ∗ = [ H E A D ] , c 1 , ⋅ ⋅ ⋅ , c N , [ R O W ] , 1 , r 1 , [ R O W ] , 2 , r 2 , ⋅ ⋅ ⋅ , r M T^∗ = [HEAD], c_1, · · ·, c_N , [ROW], 1, r_1, [ROW], 2, r_2, · · ·, r_M T=[HEAD],c1,,cN,[ROW],1,r1,[ROW],2,r2,,rM

这里[HEAD]和[ROW]是特殊标记,分别表示表头和行的区域,[ROW]之后的数字用于表示行索引。注意:作者还使用“竖条|”在不同的列中分离标题或单元格。最后,作者在扁平表 T ∗ T^∗ T拼接上NL句子x作为前缀,并将它们输入模型编码器。

3. 通过执行器进行表格预训练

为了设计表的预训练的有效任务,作者认为关键在于表的可执行性。也就是说,结构化表使我们能够通过诸如SQL查询等编程语言对它们执行离散操作,而非结构化文本则不能。考虑到这一点,TAPEX采用SQL执行作为唯一的训练前任务。如图3-1所示,TAPEX的预训练与上述生成式微调的过程相似。
图3-1:预训练过程的说明。在预训练过程中,作者将采样的SQL查询和采样的表的连接提供给模型,并训练它输出相应的执行结果(例如,“Pairs”)。
给定一个可执行的SQL查询和一个表T,TAPEX首先将SQL query 和打平的表 T ∗ T^∗ T连接起来,以馈入模型编码器。然后,它通过一个现成的SQL执行器(例如,MySQL)获得查询的执行结果,作为模型解码器的监督。直观地说,预训练过程是为了让一个语言模型成为一个神经SQL执行器。作者认为,如果一个语言模型可以预先训练,可靠地“执行”SQL查询并产生正确的结果,它应该对表有深入的理解。因此,执行预训练任务可以更有效地理解表和推理表。

4. 实践

你可以在 🤗 Transformers 中尝试经过训练的神经 SQL 执行器,如下所示:

from transformers import TapexTokenizer, BartForConditionalGeneration
import pandas as pd

tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-large-sql-execution")
model = BartForConditionalGeneration.from_pretrained("microsoft/tapex-large-sql-execution")

data = {
    "year": [1896, 1900, 1904, 2004, 2008, 2012],
    "city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)

# tapex accepts uncased input since it is pre-trained on the uncased corpus
query = "select year where city = beijing"
encoding = tokenizer(table=table, query=query, return_tensors="pt")

outputs = model.generate(**encoding)

print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ['2008']

5. 实验与分析

5.1 实验结果

作者在四个基准数据集上评估( TAPEX,包括WikiSQL(Weak)、WikiTableQuestions、SQA和TabFact)。
图5-1
如图5-1的实验结果表明,TAPEX 大大优于以前的表格预训练方法,并且在所有这些方法上都取得了SOTA结果。

5.2 与以前的表预训练对比

表预训练的最早工作(Google Research 的 TAPAS 和Meta AI 的TaBERT)表明,收集更多领域自适应(domain-adaptive)数据可以提高下游性能。然而,这些以前的工作主要采用通用(general-purpose)的预训练任务,例如语言建模或其变体。TAPEX探索了一条不同的路径,通过牺牲预训练的自然性来获得领域自适应的预训练任务,即SQL执行。BERT、TAPAS/TaBERT 和 TAPEX 的比较如下图5-2所示:
图5-2
作者认为 SQL 执行任务更接近于下游的表问答任务,尤其是从结构推理能力的角度来看。假设你面临一个 SQL 查询 SELECT City ORDER BY Year 和一个自然问题Sort all cities by year。SQL查询和问题所需的推理路径类似,只是SQL比自然语言更死板一些。如果一个语言模型可以被预训练以可靠地“执行”SQL 查询并产生正确的结果,它应该对具有类似意图的自然语言有深刻的理解。

效率怎么样?这样的预训练方式和之前的预训练相比效率如何?下图5-3给出了答案:
图5-3
与之前的表格预训练方法TaBERT相比,TAPEX仅使用2%的预训练语料就可以得到2%的提升,实现了近50倍的加速!使用更大的预训练语料库(例如,500 万个<SQL, Table, Execution Result> 对),在下游数据集上的性能会更好。

5.3 通过预训练的SQL执行器

为了了解TAPEX在预训练后SQL执行效果如何,作者分析了它在未见过表上近20,000个SQL查询上的表现。总的来说,SQL的执行精度相对较高。如图5-4所示,,TAPEX正确地“执行”了89.6%的SQL Select操作查询:
图5-4 在保留的20,000个SQL查询中,典型操作符的细粒度统计数据、示例SQL、操作占比及其执行精度。
特别是,TAPEX在过 Filter, Aggregate 和 Superlative 操作符上表现得更好,这表明它在表单元格选择和表聚合方面具有很高的准确性。对于Arithmetic 和 Comparative操作,TAPEX也做得很好,展示了它在表上的数值推理能力。综上所述,TAPEX已经学会了成为一个具有良好的选择、聚合和数值能力的神经SQL执行器

5.4 通过预训练对表的理解

为了深入了解TAPEX是否有助于下游任务更好地理解表,作者在采样的WIKITABLE QUESTIONS 样本上可视化和分析了TAPEX的自我注意(没有微调)。如图5-4所示,TAPEX似乎更关注单元格对应的行和头
图5-5:从其他token到单元格“adrian lewis”的注意权重的可视化结果。直觉上,颜色越深,这个词与“adrian lewis”的联系就越紧密。
以图5-5为例,注意权重意味着“adrian lewis”与第一列“player”和整个第三行密切相关,这是“adrian lewis”在结构化表中的位置。

5.5 通过预训练对表的推理

为了了解TAPEX是否可以改进表推理,作者比较了TAPEX和BART在500个随机选择的问题上的性能,并在图5-6中手动分析了它们:
图5-6 从 WIKITABLE QUESTIONS开发集中随机选择的500个问题中最常见的操作符。列出了操作符、具有操作符语义(即彩色跨度)的示例问题、BART和TAPEX在操作符上的性能
可以发现,TAPEX显著提高了所有操作符的性能,这意味着它确实增强了BART对文本和表的联合推理能力。

5.5 局限性

该方法的第一个限制是,它不能理想地处理大型表。如上所述,使用表的扁平化技术来表示一个表。当表相对较小时,它工作得很好,但当表太大而无法容纳内存时,它就变得不可行了。在实践中,可以通过删除一些不相关的行或列来压缩表,但这将降低下游任务的表现。

第二个限制是,NLP2SQL的任务不能从该表预训练中获益。作者尝试将TAPEX应用于一个NLP2SQL的任务,其中输入保持不变,输出转换为SQL。然而,TAPEX并没有显示出比BART相比的显著优势。作者将此归因于两个因素:

  • 首先,预训练的合成语料库对其没有贡献,这是语义解析最重要的因素之一;
  • 其次,TAPEX学习到的表推理能力(例如,聚合)可能不是SQL生成所必需的。例如,一个模型仍然可以将NL短语“sum”理解为聚合函数“sum”,即使它不知道“sum”的数学含义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/38840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字图像处理(十五)图像旋转

文章目录前言一、图像旋转算法1.算法原理2. 一些需要注意的点3.举例4. 均值插值法二、编程实现1.C代码2.实验结果参考资料前言 图像的旋转是指以图像中的某一点为原点以逆时针或者顺时针方向旋转一定的角度。通常是绕图像的起始点以逆时针进行旋转。 一、图像旋转算法 1.算法原…

JAVA并发之谈谈你对AQS的理解

文章目录一、AQS是什么二、AQS具备哪些特性三、用的哪种设计模式四、AQS与锁二者之间的关系五、如何基于AQS实现一把独占锁六、参考资料一、AQS是什么 AQS的全称是 &#xff08;AbstractQueuedSynchronizer &#xff09;&#xff0c;它定义了一套多线程访问共享资源的同步器框架…

【算法基础】(一)基础算法 --- 归并排序

✨个人主页&#xff1a;bit me ✨当前专栏&#xff1a;算法基础 &#x1f525;专栏简介&#xff1a;该专栏主要更新一些基础算法题&#xff0c;有参加蓝桥杯等算法题竞赛或者正在刷题的铁汁们可以关注一下&#x1f339; &#x1f339; &#x1f339; 归并排序&#x1f4a4;一.归…

猴子也能学会的jQuery第十期——jQuery元素操作(上)

&#x1f4da;系列文章—目录&#x1f525; 猴子也能学会的jQuery第一期——什么是jQuery 猴子也能学会的jQuery第二期——引用jQuery 猴子也能学会的jQuery第三期——使用jQuery 猴子也能学会的jQuery第四期——jQuery选择器大全 猴子也能学会的jQuery第五期——jQuery样式操作…

基于拟蒙特卡洛模拟法的随机潮流计算matlab程序

电力系统随机潮流计算中常采用模拟法&#xff0c;该方法原理简单、使用方便&#xff0c;能够精确地模拟实际物理过程&#xff0c;但是简单的蒙特卡洛模拟法收敛速度很慢&#xff0c;要得到精确的结果需要以大量的计算时间为代价。本章在此基础上提出了基于拟蒙特卡洛模拟的随机…

【菜菜的sklearn课堂笔记】逻辑回归与评分卡-用逻辑回归制作评分卡-异常值和样本不均衡处理

视频作者&#xff1a;菜菜TsaiTsai 链接&#xff1a;【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili 描述性统计处理异常值 现实数据永远都会有一些异常值&#xff0c;首先我们要去把他们捕捉出来&#xff0c;然后观察他们的性质。注意&#xff0c…

【雷达检测】基于复杂环境下的雷达目标检测技术附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

3.6、媒体接入控制

1、基本概念 有多台主机连接到这根同轴电缆上&#xff0c;共享这跟传输媒体&#xff0c;形成了总线型的局域网。 各主机竞争使用总线&#xff0c;随机的在信道发送数据。 主机 C 与主机 D 同时使用总线来发送数据&#xff0c;这必然会产生所发送信号的碰撞 2、静态划分信道…

二阶锥松弛在配电网最优潮流计算中的应用(IEEE33节点配电网最优潮流算例matlab程序)(yalmip+cplex)

二阶锥规划在配电网最优潮流计算中的应用IEEE33节点配电网最优潮流算例matlab程序&#xff08;yalmipcplex&#xff09; 参考文献&#xff1a;二阶锥规划在配电网最优潮流计算中的应用 最优潮流计算是电网规划、优化运行的重要基础。首先建立了配电网全天有功损耗最小化的最优…

ABAP学习笔记之——第四章:模块化程序

一、子程序&#xff1a; 语法&#xff1a; 参数&#xff1a; 参数(Parameter)是指调用子程序时用于传入、传出的值。子程序中的参数与一般用 DATA语句定义的局部变量相同。调用子程序时使用的参数叫实参(Actual Parameter)&#xff0c;在子程序中使用的参数叫虚参(Formal Par…

nginx(六十八)http_proxy模块 nginx与上游的ssl握手

一 nginx作为客户端与上游的SSL/TLS握手 理解上&#xff1a; nginx作为客户端,此时类似浏览器的角色,发请求建立连接 nginx作为server端与下游进行SSL/TLS握手 ① nginx与后端选择什么样的协议 1&#xff09;如果nginx与上游是局域网内,一般通过http建立请求,不需要进行…

使用flv.js + websokect播放rtsp格式视频流

1.问题背景 在最近的项目中&#xff0c;涉及到海康接入的视频播放的问题&#xff0c;海康这边获取到的视频流是rtsp格式&#xff0c;web端目前没有直接可以播放的组件&#xff0c;于是最开始是后端处理了视频流&#xff0c;返回hls格式的m3u8地址&#xff0c;这样用videojs插件…

进程【JavaEE初阶】

目录 一、操作系统 二、进程 2.1 进程的概念 2.2 进程的管理 2.3 PCB 2.3.1 PCB里面的一些属性 2.3.2 进程的调度 2.3.3 进程的虚拟地址空间 2.3.4 进程间通信 一、操作系统 CPU、存储器、输入设备、输出设备&#xff0c;这些实物看得着摸得到的&#xff0c;都属于 …

web前端-javascript-switch条件分支语句(语法,执行流程,补充)

文章目录条件分支语句(switch 语句)1. 语法&#xff1b;2. 执行流程&#xff1a;2.1. 在执行时会依次将 case 后的条件表达式的值和 switch 后的条件表达式的值进行全等比较2.2. 如果比较结果为 true&#xff0c;则从当前 case 处开始执行代码2.3. 如果比较结果为 false&#x…

【知识网络分析】研究机构合作网络(co-investigator institution)

研究机构合作网络(co-investigator institution) 1 网络数据集读取2 网络最大子群数据获取与精简3 中心点指定网络半径子群获取4 节点中心度相关指标计算1 网络数据集读取 使用GC.networkCoInvestigatorInstitution()方法快速生成研究结构合作网络数据集,其中GC代表着读入p…

解析华为OSPF协议

文章目录 前言一、pandas是 目录 文章目录 OSPF基础 一、报文类型 二、LSA类型 三.LSA在各区域中传播的支持情况 四.邻居状态机 邻居关系 邻接关系 &#xff18;种状态机&#xff1a; OSPF报文认证 OSPF缺省路由 2.读入数据 总结 什么&#xff1f;二、使用步骤 1.引入库2.读入数…

卷积神经网络CNN各层基本知识

卷积神经网络 卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层以及全连接层构成。 INPUT&#xff08;输入层&#xff09;-CONV&#xff08;卷积层&#xff09;-RELU&#xff08;激活函数&#xff09;-POOL&#xff08;池化层&#xff09;-FC&#xff08;全连接层&#…

[VNCTF2022]easyj4va

看源码 输入 /file?url 1报错 用伪协议可以读取到内容 /file?urlfile:///etc/passwd 然后就是查看java字节码文件的目录 file?urlfile:///usr/local/tomcat/webapps/ROOT/WEB-INF 这里官方给了另外一个协议netdoc&#xff0c;跟file用法是一样的&#xff0c;但是这个netd…

JDK动态代理与Cglib动态代理使用详解

JDK动态代理与Cglib动态代理使用详解一、JDK动态代理准备使用二、Cglib动态代理准备使用Enhancer.create(Class type, Callback callback)Enhancer.create((Class superclass, Class[] interfaces, Callback callback))Enhancer.create(Class superclass, Class[] interfaces, …

【学习笔记35】JavaScript计算两个指定日期的时间差

一、要求 计算两个指定日期的时间差&#xff08;2023年元旦到来的时间&#xff09; 二、分析 先获取到两个时间距离1970&#xff08;格林尼时间&#xff09;~~~毫秒数计算两个毫秒数的差值 ----> 得到了总毫秒数计算总毫秒数内, 有多少个完整的天 parseInt(总毫秒数 / 一天的…