MSciNLI—— 针对科学自然语言推理任务提出的多样化数据集用于训练语言模型和大规模语言模型建立基线

news2024/12/16 10:01:02

概述

论文地址:https://arxiv.org/pdf/2404.08066
源码地址:https://github.com/msadat3/mscinli
自然语言推理(NLI)是一项识别两个句子之间语义关系的任务。第一个句子称为 “前提”,第二个句子称为 “假设”。传统的自然语言推理数据集包括 SNLI、MNLI、SICK 和 ANLI,它们将假设分为三类:暗示、与前提相矛盾或与前提中立。这些数据集不仅被用作自然语言理解(NLU)的基准,还被用于事实检查和假新闻检测等下游任务。它们还促进了表征学习、迁移学习和多任务学习的进步。

然而,由于这些数据集中的样本主要来自普通领域,它们并不能充分反映科学领域的语言特性。因此,我们引入了科学自然语言推理任务和第一个数据集 SciNLI:它包含从与计算语言学相关的科学论文中提取的句子对,为了执行科学论文的特定推理,传统自然语言推理的三个类别被四个类别所取代(蕴涵/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含)。虽然 SciNLI 在研究界引起了极大的关注,但它仅限于单一领域(单一领域;ACL),并不是一种常见的自然语言推理工具。它缺乏科学领域自然语言推理基准的多样性。

因此,本文提出了一个科学自然语言推理数据集 MSciNLI,其中包含从五个不同领域发表的论文中提取的句对。这五个领域分别是 “硬件”、“网络”、“软件与工程”、"安全与隐私 "和 “NeurIPS”。我们利用科学论文中连接句子的短语建立了一个大型训练集,并在训练过程中直接使用可能存在噪声的句子对。测试和开发集包括人工标注的句子对,以生成高质量的评估数据。

基于 BILSTM 的模型用于评估 MSciNLI 的难度。此外,还对 BERT、SCIBERT、ROBERTA 和 XLNET 等四个预先训练的语言模型进行了微调,并对 LLAMA-2 和 MISTRAL 这两个大规模语言模型进行了零拍和四拍提示,以建立 MSciNLI 的基线。线。此外,还评估了测试时领域转移的性能,并对科学自然语言推理模型的泛化性能进行了全面分析。

建立 MSciNLI,一个多样化的科学自然语言推理基准

本节将介绍MsciNLI的数据来源、构建方法和统计数据。MsciNLI 的数据来自 ACM 数字图书馆的四个类别(“硬件”、“网络”、"软件及其工程 "和 “安全与隐私”),从收集自 NeurIPS 上发表的论文和文章。下表提供了从这五个领域中提取的句对样本。

它还引入了一种基于 Sadat 和 Caragea 于 2022 年提出的 "远距离监督 "的数据提取和自动标注程序。句子到句子的链接短语(如 “因此”、“相应地”、"相比之下 "等)被用来自动标注具有自然语言推理关系的大型(潜在噪声)训练集。下表列出了链接短语及其与自然语言推理关系的映射。

该程序首先从五个领域的论文中提取相邻的句子对,对于 “暗示/启发”、"推理/推理 "和 "矛盾/反驳 "类别,第二个句子的开头必须是连接短语。对于每一对提取出来的句子,我们都会根据第二句开头的链接短语来分配类别。例如,如果第二句以 "因此 "或 "由于 "开头,就会被贴上推理/推理的标签。标签分配完成后,链接短语将从第二句中移除,以防止模型仅仅学习链接短语和标签之间的表面关联并预测标签。

对于 "中性/中立 "类,句子配对是通过三种方法从同一篇论文中提取一对句子中的两个句子来构建的:一种方法是将两个不以关联短语开头的随机句子配对。另一种方法是随机抽取一个不以链接短语开头的句子作为第一句,然后将其与属于其他三个类别之一的随机句对中的第二句配对。最后一种方法是随机选择一个不以链接短语开头的句子作为第二句,并将其与属于其他三个类别之一的随机句对中的第一句配对。

从所有四个类别中提取出句子对后,以每篇论文为单位将其随机分成训练集、测试集和开发集。此时,从特定论文中提取的句子对被包含在一个集合中。自动注释的样本直接用于训练模型。但是,由于在构建训练集时使用了远距离监督,如果连接短语没有准确捕捉到句对之间的关系,就可能出现标记噪声。因此,为了确保评估的真实性,测试集和开发集中的句子对都由人工标注员标注为四种科学自然语言推理关系之一。

三位注释者对MSciNLI 测试和开发集进行了注释。注释员从测试和开发集中随机抽取出一个类平衡的句对子集,指示他们根据每个样本中两个句子的上下文注释标签(句子之间的关系)。如果注释者无法根据句对中的两个句子确定标签,则会被指示标记为不精确。根据注释者的多数投票结果,每个样本都会被赋予一个金色标签。如果注释者之间无法达成一致(约 3%),则不分配金标签。金标签与根据链接短语自动分配的标签相匹配的样本将被纳入相应的分区,而其他样本则被排除在外。

对于每个领域,继续进行随机抽样(无替换)和人工标注,直到测试集包含至少 800 个干净样本(每类 200 个),开发集包含 200 个干净样本(每类 50 个)。总共注释了 6992 个样本,其中 6153 个样本与金标签和自动分配的标签相匹配。这意味着,总体而言,MSciNLI 的匹配率为 88.0%。

为确保数据的均匀性,每个领域中每个类别的样本数量都被缩减为:测试集 200 个,开发集 50 个。因此,测试集包含4000 个样本,开发集包含1000 个样本。在训练集中,也使用了类似的程序来确保数据平等

接下来是 MSciNLI 的统计数据。下表显示了 MsciNLI 与 SciNLI 统计数据的比较,表明MsciNLI的样本总数(<预设,假设> 对)大于 SciNLI,后者是唯一一个对科学论文进行自然语言推理的数据集。此外,MSciNLI 的每个域都包含大量的训练集样本。

与 SciNLI 一样,我们使用斯坦福 PCFG 分析器(3.5.2)来分析数据集中的句子。如上表所示,MSciNLI 中约 94% 的句子都有 "S "词根,这表明数据集中的大多数句子在句法上都是完整的。该表还显示,MSciNLI 中每对句子的前提词和假设词之间的重叠率也很低,与 SciNLI 相似。由此可见,与 SciNLI 一样,MSciNLI 数据集也不容易被表面词汇线索所利用。

评估 MSciNLI

MSciNLI 评估包括三个阶段:第一阶段使用 BiLSTM 模型评估难度;第二阶段使用四个预训练语言模型和两个大规模语言模型建立基线,并将它们的性能与人类进行比较;第三阶段比较基线与人类在训练集上的性能。第三,比较基线与人类在训练集上的表现。

使用第一个 BiLSTM 模型进行难度评估的结果如下表所示,该模型在 MSciNLI 和 SciNLI 中的表现比较如下:MSciNLI 是比 SCINLI 更具挑战性的数据集;BiLSTM 模型在 SciNLI中的宏观 F1得分为 61.12%,而在MSciNLI 中仅为 54.40%。在 SciNLI 中的宏观 F1 得分为 61.12%,而在 MSciNLI 中仅为 54.40%。这些结果表明,MSciNLI 比 SciNLI 对模型提出了更大的挑战,使科学自然语言推理任务变得更加困难。

其次是利用预训练语言模型和大规模语言模型建立基线。在此,使用集成的 MsciNLI 训练集对四种预训练语言模型的基础变体进行了微调:作为四种预训练语言模型,使用了BERT(Devlin 等,2019)、SciBERT(Beltagy 等,2019)、RoBERTa(Liu 等,2019b)和 XLNet(Yang 等,2019)、RoBERTa(Liu 等人,2019b)和 XLNet(Yang 等人,2019)。每个实验使用不同的随机种子运行三次,并按领域和总体计算出 Macro F1 分数的平均值和标准偏差。结果如下表所示。

SciBERT在所有领域的表现都优于 BERT;SciBERT采用与 BERT 相同的程序进行训练,但使用科学论文进行预训练,这可能有助于提高科学自然语言推理的表现。此外,RoBERTa和XLNet是针对 BERT 的弱点而设计的,两者在所有领域的表现都明显优于 BERT。特别是,RoBERTa的表现一直优于XLNet,也优于SciBERT。

然后将两个大规模语言模型作为基线进行评估。这里使用的是 LLAMA-2(Touvron 等人,2023 年)和 MISTRAL(Jiang 等人,2023 年)。具体来说,我们使用了拥有 13 亿个参数的 Llama-2-13b-chat-hf 和拥有 7 亿个参数的 Mistral-7B-Instruct-v0.1 模型。

本文为科学自然语言推理任务提供了三个选择题模板(见下文)。

  • 任务-1:给定一对句子,让大规模语言模型预测四个类别名称的类别。
  • 任务-2:为大规模语言模型提供科学自然语言推理任务的进一步背景,定义科学自然语言推理的类别,然后使用类别名称作为选择来预测类别。
  • 提示-3:使用类别定义作为直接替代。

本文还评估了大规模语言模型在两种情况下的性能:零拍和四拍。下表列出了每个实验的特定领域和整体 Macro F1 分数。请注意,每个提示的零拍和四拍结果分别以 PROMPT - zs 和 PROMPT - ifs 表示。

结果显示,LLAMA-2 在PROMPT-3fs中的性能最高,Macro F1 达到 51.77%。这比 PROMPT-1fs 中最高的 MISTRAL 性能高出 6.28%。

此外,还评估了三位专家(具有相关领域背景;E)和三位非专家(无领域背景;NE)在 MSsciNLI 上的人类性能。通过重新标注一小部分随机抽样的测试集子集来估算人工性能。计算了专家和非专家 Macro F1s 的平均值和标准偏差。它与最佳预训练语言模型基线 RoBERTa 和使用最佳大规模语言模型基线PROMPT-3fs的 LLAMA-2 进行了比较。

结果表明,专家标注者的表现明显优于非专家标注者。结果还显示,非专家的性能虽然低于专家,但仍高于基线。专家的性能也明显高于 RoBERTa 和 LLAMA-2。这表明该模型的性能还有很大的提升空间。

通过这些评估,我们可以清楚地看到MSciNLI是科学自然语言推理任务的重要数据集,其难度和多样性如何影响模型的性能。

分析 MSciNLI

我们从多个角度对 MSciNLI 训练集进行了分析,以研究其性能。首先是数据制图(Swayamdipta 等人,2020 年)。通过使用数据制图选择的不同训练子集对模型进行微调,从而对 MSciNLI 训练集进行评估。接下来,我们研究了模型在测试过程中的领域转换行为。最后,我们进行了跨数据集实验,比较了使用 SciNLI、MSciNLI 和两者结合进行微调的模型的性能。在这些实验中,我们使用了最佳基准模型 RoBERTa。

在 MSciNLI 训练集中,通过置信度和变异性两个指标对每个样本进行数据制图。在此基础上,使用以下训练集的子集对三种不同的 RoBERTa 模型进行微调。

  • 33% - 简单易学 - 高置信度样本
  • 33% - 难以学习 - 低置信度样本
  • 33% - 模棱两可 - 样本变化很大

此外,为了分析难以学习的样本对模型学习的影响,还从整个训练集中排除了以下两个子集,对模型进行了微调

  • 100% - 最高 25% 难度(25% 置信度最低的样本)
  • 100% - 最高 5%难度(最低置信度 5%样本)

下表显示了这些结果,其中在33% 含混样本(33% - 含混)上微调的模型在其他 33% 的子集中表现最佳。由此可见,训练样本的 "模糊性 "对于训练强科学自然语言推理模型非常有用。

33% 含混样本(33% - 含混)的表现也很好,但整个学习集(100%)的表现更好。此外,去除一些难以学习的样本(25% 或 5%)也不会导致整体性能出现统计学上的显著差异。换句话说,训练集中的所有样本对于学习最优模型都很重要。

除了 MSciNLI 的五个域外,我们还在实验中加入了 SciNLI 的 ACL 域。为了进行公平比较,我们将 SciNLI 的训练集缩小到与其他域相同的大小,并标记为 ACL - SMALL。域内 (ID) 和域外 (OOD) 结果如下表所示。

在领域(ID)内训练的模型比在领域外(OOD)训练的模型性能更高。例如,在 NeurIPS 训练集上微调的模型在NeurIPS上测试时的宏观 F1 为 76.02%,而在其他领域训练的模型在 NeurIPS 上测试时表现较差。这表明,每个领域的句子对都具有独特的语言属性,而在该领域数据上训练的模型能更好地捕捉这些属性。

最后一项实验是跨数据集实验。在每个测试集上训练和评估了以下四个不同的 RoBERTa 模型。

  • 科学实验室
  • MSciNLI。
  • MSciNLI+(S) - MSciNLI 和 ACL-SMALL 的组合
  • MSciNLI+ - MSciNLI 和 SciNLI 的组合

这些结果如下表所示。在数据集转移的情况下,SciNLI 和 MSciNLI 的性能有所下降。然而,在 MSciNLI 中经过微调的模型在非数据集环境下保持了相对较高的性能:在 SciNLI 中经过微调的模型在 MSciNLI 中测试时性能下降了 2.02%,而在 MSciNLI 中经过微调的模型在 SciNLI 中测试时性能只下降了 1.34%。微调后的模型在 SciNLI 中测试时仅下降了 1.34%。这表明,数据多样性有助于训练出具有高泛化性能的模型。

使用 MSciNLI+对模型进行微调后,在两个数据集和两个数据集的组合中也显示出最佳性能。通过在具有不同样本的大型训练集上对模型进行微调,可以获得更好的性能:在 MSciNLI+(S)上训练的模型性能低于在 MSciNLI+ 上训练的模型,但仍优于 MSciNLI。这表明数据集的组合也适用于 MsciNLI+(S)。

总结

本文介绍了 MsciNLI,这是一个来自五个科学学科的多样化科学自然语言推理基准。我们构建并验证了该数据集对于预学习语言模型 (PLM) 和大规模语言模型 (LLM) 都具有挑战性。此外,我们还全面考察了科学自然语言推理模型在测试时领域转移情况下的性能及其在下游自然语言处理任务中的应用。

实验结果表明,大型语言模型在 MSciNLI 上的性能较差(最高的 Macro F1 分数为 51.77%),这表明未来还有很大的改进空间。此外,提示语的设计对性能也有很大影响,进一步探索其他提示策略可能会提高性能。
作者指出,今后的工作将重点关注提示设计,以提高大规模语言模型在科学自然语言推理中的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260431.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

REVERSE-COMPETITION-CISCN-2025

REVERSE-COMPETITION-CISCN-2025 rand0mezCskydumpcython rand0m 3.12版本的pyd逆向 读16进制&#xff0c;分成4个4字节的int&#xff0c;每个int做两步运算 第一步&#xff0c;右移28bit&#xff0c;左移4bit&#xff0c;然后拼接 注意左移4bit后又&0x3a3affff&#xff0…

批量合并多个Excel到一个文件

工作中&#xff0c;我们经常需要将多个Excel的数据进行合并&#xff0c;很多插件都可以做这个功能。但是今天我们将介绍一个完全免费的独立软件【非插件】&#xff0c;来更加方便的实现这个功能。 准备Excel 这里我们准备了两张待合并的Excel文件 的卢易表 打开的卢易表软件…

【算法】—— 前缀和

一、区间求和问题 给定一个长度为n的序列a&#xff0c;有m次查询&#xff0c;每次查询输出一个连续区间的和。 使用暴力做法求解是将每次查询都遍历该区间求和 //暴力做法import java.util.Scanner;public class Test {public static void main(String[] args){Scanner scan…

股市投资策略升级:掌握马尔可夫决策过程与强化学习,提升交易技能

作者&#xff1a;老余捞鱼 原创不易&#xff0c;转载请标明出处及原作者。 写在前面的话&#xff1a;本文将深入探讨马尔可夫决策过程&#xff08;MDP&#xff09;和强化学习在股票交易中的运用。通过阐述MDP的基本原理和其在交易策略中的实际应用&#xff0c;试图向您揭示这些…

jvm结构介绍

1. 垃圾回收&#xff08;Garbage Collection, GC&#xff09;&#xff1a;JVM自动管理内存的机制&#xff0c;负责回收不再使用的对象占用的内存空间。常见的垃圾回收算法包括标记-清除&#xff08;Mark-Sweep&#xff09;、复制&#xff08;Copying&#xff09;、标记-整理&am…

基于智能电能表的智能家居能源管理系统设计

目录 引言系统设计 硬件设计软件设计系统功能模块 电能测量模块数据传输模块能源管理模块控制算法 数据采集与处理算法能源优化算法代码实现 电能测量模块实现数据传输模块实现系统调试与优化结论与展望 1. 引言 随着智能家居的发展&#xff0c;电能管理成为智能家居系统中的…

【计算机组成原理】实验二:通用寄存器单元实验

实验二&#xff1a;通用寄存器单元实验 一、实验目的 了解通用寄存器的组成和硬件电路&#xff0c;利用通用寄存器实现数据的置数、左移、右移等功能。 二、实验内容 数据输入通用寄存器 寄存器内容无进位位左移实验 寄存器内容无进位位右移实验 三、实验步骤和结果 实…

codeforces一些题目思路复盘

codeforces round 919 dv2 C Partitioning the Array 大致题意&#xff0c;对于n约数i&#xff0c;我们把原数组分成份&#xff0c;并且每份中有i个元素&#xff0c;对于每个分组情况&#xff0c;如果存在一个数m使得数组中元素modm后使得每个部分的数组完全相同&#xff0c;如…

《拉依达的嵌入式\驱动面试宝典》—C/CPP基础篇(四)

《拉依达的嵌入式\驱动面试宝典》—C/CPP基础篇(四) 你好,我是拉依达。 感谢所有阅读关注我的同学支持,目前博客累计阅读 27w,关注1.5w人。其中博客《最全Linux驱动开发全流程详细解析(持续更新)-CSDN博客》已经是 Linux驱动 相关内容搜索的推荐首位,感谢大家支持。 《拉…

又细又长的马尾:tail

英语里边有一个单词 tail&#xff0c;意为“尾巴”&#xff0c;这应当是众所周知的事情了。 不过&#xff0c;tail 这条尾巴&#xff0c;并不简单&#xff0c;因为它还是一个词根&#xff0c;也就是说 tail 其实是自由词素。 事实上&#xff0c;tail 最初来自 马尾 这样一个概…

Lumos学习王佩丰Excel第二十一讲:经典Excel动态图表实现原理

一、动态图表实现原理 1、理解图表中的数据系列 在Excel图表中&#xff0c;系列指的是图表中的数据集合&#xff0c;它通常代表着一个数据源。每个系列都可以包含多个数据点&#xff0c;这些数据点在图表中以特定的形式展现&#xff0c;如柱状图中的柱子&#xff0c;折线图中…

使用Qt Creator设计可视化窗体(一)

一、创建项目 打开 Qt Creator &#xff0c;在菜单栏中选中&#xff1a; “文件” --------> “新建文件或项目” &#xff1b;或者使用快捷键&#xff1a;Ctrl n&#xff1b;或者直接点击&#xff1a;“new” Qt 中的构建工具有三种可供选择&#xff0c;分别是&#…

Rust之抽空学习系列(四)—— 编程通用概念(下)

Rust之抽空学习系列&#xff08;四&#xff09;—— 编程通用概念&#xff08;下&#xff09; 1、函数 函数用来对功能逻辑进行封装&#xff0c;能够增强复用、提高代码的可读 以下是函数的主要组成部分&#xff1a; 名称参数返回类型函数体 1.1、函数名称 在Rust中&…

springboot423玩具租赁系统boot(论文+源码)_kaic

摘 要 传统办法管理信息首先需要花费的时间比较多&#xff0c;其次数据出错率比较高&#xff0c;而且对错误的数据进行更改也比较困难&#xff0c;最后&#xff0c;检索数据费事费力。因此&#xff0c;在计算机上安装玩具租赁系统软件来发挥其高效地信息处理的作用&#xff0c…

.NET6 WebAPI从基础到进阶--朝夕教育

1、环境准备 1. Visual Studio 2022 2. .NET6 平台支持 3. Internet Information Services 服务器&#xff08; IIS &#xff09; 4. Linux 服务器 【 CentOS 系统】 ( 跨平台部署使用 ) 5. Linux 服务器下的 Docker 容器&#xff08; Docker 部署使用&#xff09; …

Attentive Fusion论文精读

OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication 文章目录 背景创新点1.提出新的数据2.提出了一种注意力中间融合管道 2.相关工作车对车感知早期融合晚期融合中间融合 车对车数据集 3. OPV2V 数据集A.数据收集模…

Datawhale AI冬令营(第一期)task2--微调玩法攻略

目录 1.微调玩法攻略 1.1.微调思路 1.2.什么是大模型人格化&#xff1f; 1.3. 大模型人格化的应用场景 1.4 构建对应格式的数据集 1.4.1 选择数据格式 1.4.2 Alpaca 格式要求 1.4.3 构建数据集 1.4.4 没有剧本怎么办 1.4.5 整理成 json 格式 1.微调玩法攻略 1.1.微…

VQ-VAE和VAE 的区别是什么?

第一行所展示的就是普通的VAE,它的核心是通过encoder和decoder&#xff0c;将像素空间的图像压缩到一个提取了核心特征的隐变量向量。VQ-VAE的思想是&#xff0c;即使VAE中压缩的这个隐变量中的向量提取了图片中的核心特征信息&#xff0c;但是这些信息仍然可能存在冗余&#x…

Redis--高并发分布式结构

目录 一、引言 二、redis 1.什么是redis&#xff1f; 三、基础概念 1.什么是分布式&#xff1f; 2.应用服务和数据库服务分离 3.负载均衡 4.分库分表 5.微服务架构 四、总结 一、引言 本篇文章就简单介绍一下什么是redis&#xff0c;以及一些关于高并发和分布式结构的…

188-下翻便携式6U CPCI工控机箱

一、板卡概述 下翻式CPCI便携工控机,系统采用6u cpci背板结构,1个系统槽,7个扩展槽, 满足对携带的需求,可装标准6U8槽CPCI主板,8个扩展槽, 满足客户对空间扩展的需求.可宽温服务的工作产品,15高亮度液晶显示屏,超薄88键笔记本键盘,触摸式鼠标,加固型机箱结构,使它能够适应各种复…