LEVER：根据执行结果来改进语言编码生成的高效方法

译者 | 赵海树
单位 | 东北大学自然语言处理实验室

1.论文介绍

基于大语言模型LLM训练从语言到编码的生成的方向取得了重要进展，基于执行结果的启发式方法以及LLM解码、样本修剪和测试用例重新排序的结合方式成为了当前最为高效的方法。但当前的许多真实世界语言不易获得测试用例，而且启发式方法不能很好的获取执行结果的一些有关正确性的关键数据（比如数据类型和数值范围）。这导致了在不使用特定的特定于任务的模型架构或提示方法的前提下，一些缺乏测试用例的语言到代码的生成效果不佳，准确度得不到保障。

LEVER的提出解决了上述问题，这是一种通过学习生成程序的执行结果来改进语言到代码生成的方法，避开了测试用例不易获取的问题并保证了关键数据的正确性，进而提高了从语言到代码的生成准确度，在低资源和弱监督环境中也产生了重要的改进。增强了Language-to-Code在多语言、多领域的现实能力。

2.作者介绍

Dragomir R. Radev 教授是耶鲁大学语言、信息和学习实验室的成员，也是该校计算机科学系的教授。Radev 教授的主要研究领域集中于自然语言处理方向，包括文本摘要、基于图的 NLP 和推断、NLP 在生物信息学中的应用、NLP 和深度学习、对话系统、跨语言信息抽取等。Redev 教授已是 ACM、ACL、AAAI和AAAS Fellow，从 2006 年至 2015 年担任 ACL 秘书长。本论文由Redev教授和他的博士学生Ansong Ni完成。

3.译者说

自从大语言模型兴起以来，LLM强大的生成能力帮助许多方向的研究取得了更好的结果。当前关键的实验结论是，虽然LLM在少数样本设置中难以达到精度，但当拥有足够多的样本时，它通常会有正确的输出。以前的工作已经表明，当样本被大规模抽取时，多数投票和测试用例的过滤可以显著提高它们的性能。之前的研究进一步证明了训练验证者并使用验证分数对数学问题的候选解决方案重新排序的有效性。与仅依赖于执行一致性和Error Pruning的方法相比，经过训练的验证器可以利用模型解决方案中丰富的语义特征，如数据类型、数值范围和变量属性，这些特征可以作为程序正确性的有力指标，LLM的引入成功解决了测试用例不足和启发性学习的问题。因此在LLM的推理和生成能力的支持下，Language-to-Code的准确率和效率将会得到可观的提升。

具体来说，针对于模型生成的多个代码结果，LEVER训练了一个基于自然语言描述、程序表层形式及其执行结果的联合表示结果来学习区分和拒绝错误程序的验证器。进而将验证概率与LLM生成概率结合起来，并将相同的执行结果边缘化，得到二者的联合概率。之后使用这个聚合概率作为重新排序分数，并输出执行到最可能结果的程序。也就是说，验证器（Verifier）的和大语言模型（LLM）的生成概率是代码生成过程中的“双保险”。多个生成结果在经过二者的评分后重新排序，最终得到最可靠的结果输出。

基于在Text-to-SQL语义解析、Table QA、数学推理和基本python编程领域的四种不同的语言到代码基准上进行的实验结果，对于三种不同代码LLM的实验结果表明，LEVER一致地提高了生成程序的执行精度。与此同时，LEVER与Code-Davinci-002相结合，在使用执行错误修剪的强基准上提高了4.6%至10.9%，并且在不使用特定于任务的模型架构或提示方法的前提下，在所有四个基准上实现了最新的结果。消融实验表明，执行结果对于验证至关重要，LEVER在低资源和弱监督环境中也产生了重要的改进。

原文链接：https://arxiv.org/pdf/2302.08468.pdf

01.背景介绍

生成式模型在近几年发展迅速，文本生成和对话聊天式的大语言模型得到了突飞猛进的发展，而代码作为文档的特殊部分，自然相应的针对性研究也有不少的进展，大模型的基础是大量的数据和训练，当投入的数据达到一定值时，结果的正确率能够得到保证，但是在现实问题中，测试用例和数据并不容易得到，尤其是在语言到代码生成的过程中，一些语种的数据本身就很少，监督训练的结果自然不尽人意，那么怎样在缺乏资源和弱监督训练的前提下，避免出现启发性学习无法捕捉到执行结果的语义特征的问题的同时，完成大模型代码生成的正确输出，就是Language-to-Code的关键。

02.LEVER算法结构

为了解决上述少资源、弱监督的问题，LEVER提出了Verifier与LLM结合的方法，通过大语言模型生成概率与验证器评分得到的联合概率作为最终输出的标准，解决了资源缺乏的同时保证了结果输出的准确。LEVER的实现简单来说可分为三步：

1)生成:基于任务输入和少量示例，从代码LLM中生成示例程序;

2)执行:与程序执行器（Executor）一起获取执行结果;

3)验证:使用学习过的验证器根据NL、program和执行结果输出程序正确的概率。

上图的Few-shot和Task Input分别为提示实例和问题输入，二者作为问题进入大语言模型得到Top-K个输出结果和相对应的概率，之后进入执行器（Executor）直接得到程序运行的结果但并不输出，由之后的验证器（Verifier）结合输出的Code和Input的比较的得到每一段代码的评分，也就是正确的概率，最后进行概率的联合计算，将LLM的生成概率和验证器的正确概率相乘得到最终的分数，输出最高分数的代码，也就是最合理的结果。

作为算法的核心，验证器（Verifier）的训练是结果输出是否准确的关键，LEVER在实验中根据不同数据集的描述得到采样预算，并从训练集上的LLM中采样来创建验证训练数据。当验证器进行学习时，通过对每个示例的所有程序样本进行平均来计算训练损失。当相同示例的程序样本批处理在一起时，有效批处理大小也将乘以样本大小。但是当样本量变大时，可能会出现无法立即适应显存的问题。因此，实验设置在每次迭代中对用于学习每个示例的程序进行下采样，而随机采样发生在训练的每个epoch的开始，故验证器可以在每个epoch看到不同的程序。

验证器（Verifier）模型选择也是实验的关键变量，本实验使用开发集来选择最佳的验证器模型。通过比较，Spider选择T5-base，WikiTQ和MBPP选择T5-large，GSM8k选择RoBERTa-large作为验证器在主要实验中使用的基础模型。

03.实验数据与基准

我们在四个Language-to-Code的数据集上进行了实验，这些数据集包括语义解析、Table QA、数学推理和基本python编程等领域，如下表所示。

Spider是将自然语言问题转化为SQL查询的语义分析数据集。它带有7k并行训练数据，同时也是理想的微调生成器。
WikiTableQuestions (WikiTQ)是一个表格问答数据集，通过在源表上生成和执行SQL查询来解决问题。实验使用预处理的表，并采用其带注释的SQL查询为原始弱监督数据集添加最佳程序（gold programs）。
GSM8k是解决小学数学字谜问题的基准。根据之前的工作，通过从NL中的问题生成Python程序来接近这个基准，这些程序应该在执行时产生正确的答案。原始数据集只有自然语言而没有程序解决方案，因此对语言到代码的监督很弱。
MBPP包含了用自然语言编写的基本Python程序。每个实例都配备了3个测试用例来检查程序的正确性。在之前的工作之后，实验使用第一个测试用例作为提示模型生成正确的函数签名的一部分，并使用所有三个用例来评估正确性。

04.Baseline：基线

LEVER将与以下使用代码LLM生成程序的基线方法进行比较。

贪心:每解码一步选择最可能的符号。
最大似然度(Maximum Likelihood, ML):从k个被抽样的程序候选中，选择生成对数概率最高的程序，通过开发集经验地确定是否使用每个数据集的归一化概率。
Error Pruning + ML (EP + ML):删除执行错误的候选程序，然后选择可能性最大的方案。
Error Pruning +投票(EP + Voting):对无错误程序的执行结果进行多数投票，选出投票最多的执行结果及其对应的程序。

此实验专注于与EP+ML基线进行比较，因为它是一种简单的重新排序方法，可以利用执行程序（Execution），并在不同的数据集和代码LLM中产生一致的竞争结果。

05.评价指标

根据之前的实验工作，此实验使用执行准确性作为所有数据集的主要评估指标，它将计算产生最佳执行结果或通过所有测试用例的示例百分比。

06.实验结果

实验结果的表示也是重要的一环。Spider和WikiTQ使用SQL执行的线性化结果表作为执行结果；GSM8k在执行程序后使用名为“answer”的变量的值作为执行结果；MBPP使用函数返回的类型和值(转换为字符串)。下图表分别表示了各个方法在四个数据集上的实验结果。

Spider数据集上的执行精度

WikiTQ数据集上的执行精度

GSM8k数据集上的执行精度

MBPP数据集上的执行精度

在CodeX-Davinci模型下，LEVER与当前基线分别在四个数据集中实验的比较结果

07.总结

在本文中，我们介绍了一种名为LEVER的新型高效方法，它针对大语言模型（LLM）在代码生成任务中的应用进行了优化。LEVER通过结合验证器的分数和LLM生成编码的概率，显著提高了Language-to-Code生成过程的准确性。LEVER在Table QA、Math QA以及基础Python编程等领域取得了目前最好的成绩，在编码生成领域中提出了新的研究方向。

LEVER在低资源和弱监督环境中也显示出了改进的潜力，这对于资源受限的语言和领域尤为重要。通过这种方法，即使是在缺乏大量测试用例的情况下，也能有效地提高代码生成的准确性和效率。

LEVER在四个不同的Language-to-Code基准数据集上进行了测试，包括Spider、WikiTQ、GSM8k和MBPP。实验结果显示，LEVER在所有这些数据集上都取得了优于现有基线方法的执行精度，特别是在与CodeX-Davinci模型结合使用时，其性能提升尤为显著。

总之，LEVER为Language-to-Code领域提供了一种新的、有效的解决方案，它不仅提高了生成代码的准确性，而且也为未来在这一领域的研究和应用开辟了新的道路。随着大语言模型技术的不断进步，我们期待LEVER及其后续发展能够为编程语言的智能化带来更多的突破。