《Order-Agnostic Data Augmentation for Few-Shot Named Entity Recognition》中文

news2024/10/23 7:05:14

文章汉化系列目录


文章目录

  • 文章汉化系列目录
  • 摘要
  • 1 引言
  • 2 相关工作
    • 2.1 NER的数据增强
    • 2.2 少样本命名实体识别(Few-Shot NER)
  • 3 无序数据增强
    • 3.1 公式化
    • 3.2 通过实体重排进行数据增强
    • 3.3 构建唯一的输入-输出对
    • 3.4 使用 OADA-XE 校准预测
  • 4 实验
    • 4.1 不同DA方法的比较
    • 4.2 实验设置
    • 4.3主要结果
  • 5 分析
    • 5.1 消融研究
    • 5.2 T上置换的分析
    • 5.3 不同位置的实体召回
    • 5.4 LLM与OADA的ICL
    • 5.5模型规模的影响
  • 6 结论
  • 限制


摘要

数据增强(DA)方法已被证明在低资源环境中对预训练语言模型(PLMs)有效,包括少量样本的命名实体识别(NER)。然而,现有的NER DA技术要么对单词进行基于规则的操作,从而破坏句子的语义连贯性,要么利用生成模型进行实体或上下文的替换,这需要大量的标注数据,且与在低资源环境中操作的目标相悖。在本研究中,我们提出了无序数据增强(OADA),这是一种替代解决方案,利用在序列到序列NER方法的数据构建阶段常被忽视的无序特性进行数据增强。为了有效利用增强的数据而不受到一对多问题的影响(即一个句子对应多个增强的目标序列),我们进一步提出了使用排序指令和创新的OADA-XE损失。具体来说,通过将每种实体类型的排列视为排序指令,我们相应地重新排列实体集合,确保输入输出对的唯一性,而OADA-XE则基于目标序列与模型预测之间的最佳匹配来分配损失。我们在三个主要的NER基准上进行了全面的实验和分析,能够显著增强PLMs的少量样本能力。我们的代码可在 https://github.com/Circle-Ming/OADA-NER 获取。

1 引言

在这里插入图片描述
命名实体识别(NER)(Tjong Kim Sang和De Meulder,2003; Doddington等人,(2004年)是一项最长期、最根本的任务。然而,NER系统的有效性通常受到对大量高质量注释数据集的需求的限制,这些数据集的获取成本高且劳动密集,需要创新方法来解决数据稀缺性(Rijhwani等人,2020; Yang和Katiyar,2020)。
 通过引入更合理的样本,数据增强(DA)方法已被证明是标记数据稀缺场景中的有效解决方案(Sahin和Steedman,2018;小林,2018; Wei和Zou,2019)。现有的用于网络学习的DA方法大致可分为两类:(1)基于规则的操作和(2)文本到文本的生成。其中,基于规则的操作利用预定义的规则来自动修改文本,包括单词删除、重新排序和替换(Min等人,2020年)的报告。然而,由于自然语言的离散性,这些技术很难保持语义连贯。相反地,诸如DAGA(Ding等人,2020)、MELM(Zhou等人,2022年)和ENTDA(Hu等人,2023)通过使用来自预先训练的语言模型(PLM)的预测来替换实体或其上下文元素来扩充文本。然而,为了执行有效的增强,这些方法需要大量的标记数据来训练用于生成合成文本的增强模型,这在具有较少的标记数据的场景中提出了挑战,例如few-shot NER任务,并且违背了在低资源设置中操作的基本目标。
 在本研究中,我们提出了一种创新的无序数据增强框架(OADA)作为替代解决方案,并证明了利用命名实体识别(NER)任务中一个基本但常被忽视的方面(即目标实体的固有无序特性,我们称之为“无序属性”)可以极大地提高数据增强的效果。为了利用这一特性进行数据增强,我们首先注意到传统序列到序列(seq2seq)NER系统的训练数据构建阶段和预测评估阶段之间存在差距。正如图1所示,给定源句子“CNN的David Ensor正在为我们报道”,传统的seq2seq NER方法(Yan等,2021)在训练过程中会以固定顺序感知实体,并仅将“[1, ORG], [1, 4, PER]”作为目标序列,而忽略等价的“[1, 4, PER], [1, ORG]”。然而,当“[1, ORG], [1, 4, PER]”和“[1, 4, PER], [1, ORG]”在评估时被视为模型预测时,两者都会被认定为正确的生成。这种固定顺序的假设以及训练和评估阶段之间的差距导致了许多可行样本的丢失。因此,在OADA中,我们试图将句子中的实体视为一个无序的集合,并将不同的实体排列视为等效且正确的生成。这一观点显著扩大了给定句子的可接受目标序列范围,从而引入了一种新颖且有效的数据增强方法。正如图1所示,当将无序属性引入训练数据构建时,两种实体序列都被视为合理的目标序列。
 在OADA中,假设不同的实体排列提供了等效的信息。因此,我们进一步提出了使用排序指令和创新的交叉熵(XE)损失OADA-XE,以便在这些序列上共同微调预训练语言模型(PLMs),避免出现“一对多”问题(Gu等,2018),即同一句子可能存在多个实体序列的情况。例如,在图1中,如果我们不区分“[1, ORG], [1, 4, PER]”和“[1, 4, PER], [1, ORG]”,并将它们直接与相同的输入句子配对,那么PLM会在生成“4”或“ORG”之后遇到困难。为了解决这个问题,我们展示了所提出的策略能够在两个不同的层面上有效区分不同的实体排列(即,跨类型和同类型),如图2所示。具体来说,我们首先将实体类型作为排列实体的主要因素。通过将每种实体类型的排列(如“LOC, ORG, MISC, PER”)视为排序指令,我们将其与输入句子连接,并根据该指令排列实体序列,确保输入输出对的唯一性。其次,在每个实体类型内部,OADA-XE将基于目标序列与模型预测之间的最佳匹配分配损失。例如,在图2中,前两个预测都是可接受的,因为可以将它们与标准序列进行匹配,而第三个预测是错误的,因为它违反了排序指令,随意地重新排列了实体。
 总结来说,我们的工作提出了几个关键贡献,包括:

  1. 据我们所知,这是首次从无序的角度进行数据增强(DA)的研究。
  2. 我们为少量样本的命名实体识别(NER)任务提出了一个新颖的数据增强框架OADA,该框架通过利用排序指令和创新的OADA-XE损失,能够在各种实体排列上共同微调预训练语言模型(PLMs)。
  3. 为了展示OADA的有效性和泛化能力,我们在三个数据集上进行了全面的实验和广泛的分析,其中包括一个用于嵌套NER的数据集,实验涵盖了五种代表性的预训练语言模型(例如BERT(Devlin等,2019)、BART(Lewis等,2020)、Flan-T5(Chung等,2022)、LLaMA2(Touvron等,2023)和ChatGPT(OpenAI,2022)),并展示了相对于已有基准的显著改进。

2 相关工作

2.1 NER的数据增强

在这里插入图片描述

表1:不同数据增强(DA)方法的比较。“Coher.”表示“语义连贯性”,“Sub.”表示“多种命名实体识别(NER)子任务”,而“No-Train.”表示某种方法是否需要额外训练模型。

如表1所示,我们将OADA与现有的两大类NER数据增强(DA)方法进行了比较。
基于规则的操作基于规则的DA方法主要是在词级别进行操作,包括同义词替换(Wei和Zou,2019;Cai等,2020)、单词删除(Kobayashi,2018)和重新排序(Min等,2020)。通过利用预定义的规则,这些方法能够高效地生成大量合成文本。然而,这些方法可能会严重受到词标错位问题(Zhou等,2022)的影响,即某个实体的词可能会被替换为与其原始标签不匹配的替代项。此外,由于自然语言的离散性,词级操作会引入不连贯的替换,导致文本的语义一致性受损。
 为了避免词标错位问题,Dai和Adel(2020)提出了随机用相同类型的替代实体替换整个实体提及的方法。尽管这种方法在简单的NER任务中有效,但在处理复杂的NER子任务(如嵌套NER)时仍然具有挑战性,且不可避免地会引入不连贯的替换(Hu等,2023)。在本研究中,我们仅对实体序列进行增强,同时保持输入句子完整,确保文本的语义连贯性。
文本到文本生成 基于文本到文本生成的命名实体识别(NER)数据增强方法主要受到回译技术的启发(Sennrich等,2016;Fadaee等,2017;Dong等,2017;Hou等,2018;Xia等,2019),其目标是通过不同语言之间的转换来保持文本的原意。当应用于词级NER任务时,像DAGA(Ding等,2020)和MELM(Zhou等,2022)这样的方法尝试通过线性化序列来微调预训练语言模型(PLMs),将词标签与词语合并,并在被破坏的句子上创建增强的文本。然而,这些方法在处理嵌套实体时面临挑战,限制了它们在各种NER任务中的适用性。较新的ENTDA方法(Hu等,2023)提供了一种上下文替换策略,适用于各种NER任务。然而,这些文本到文本生成方法的共同局限在于它们依赖于大量的标注数据来训练增强模型,这与低资源环境的目标相矛盾。
 相反,通过利用NER任务中共享的无序属性,我们的方法OADA结合了基于规则和文本到文本的DA方法的优势,能够在不需要额外模型训练的情况下有效地进行数据增强,同时不改变句子,从而保持语义连贯性。

2.2 少样本命名实体识别(Few-Shot NER)

少样本命名实体识别是一个具有挑战性的任务,它要求仅使用少量的标注样本来识别实体(Wiseman 和 Stratos,2019;Yang 和 Katiyar,2020;Ding 等,2021)。最近在这个领域的进展主要分为两大类:基于度量的方法和基于提示的方法。这一分类也与两种不同的少样本NER设置相对应。基于度量的方法的目标是通过学习特征空间,并使用最近类的原型或邻近样本来分类测试样本(Snell 等,2017;Fritzler 等,2018;Yang 和 Katiyar,2020;Das 等,2022;Zhang 等,2023)。然而,这些研究大多假设一个资源丰富的源领域,这与现实世界应用场景形成对比,因为在实际应用中,通常只有非常有限的标注数据。
 按照 Gao 等(2021)的说法,更实用的少样本设置对可用资源的假设最少,并且每个类别只提供少量样本进行训练。通过利用语言提示将预训练的语言模型(PLMs)适配到NER任务中,基于提示的方法(Cui 等,2021;Ma 等,2022;Lee 等,2022;Shen 等,2023;Xu 等,2023)在少样本场景中表现出令人印象深刻的性能,并且在有更多数据时可以进一步提升。在本研究中,我们遵循了更具挑战性的少样本设置,其中每种实体类型只提供少量样本,并在基于提示的方法上实现了OADA,并在第4.3节中进行了全面比较。
 此外,最近在大型语言模型(LLMs)领域取得了显著进展,比如GPT系列(Brown 等,2020;OpenAI,2022),这些模型在少样本提示和上下文学习(ICL)方面展示了令人印象深刻的能力(Jimenez Gutierrez 等,2022;Chen 等,2023)。因此,在本研究中,我们特别考察了OADA在大型语言模型上的泛化能力,并将结果列在表4中。

3 无序数据增强

3.1 公式化

命名实体识别(NER)任务的目标是检测给定句子 X X X 中所有可以代表实体的跨度。这些实体在句子 X X X 中组成了相应的实体集 E = { y 1 , y 2 , . . . , y N } E = \{y_1, y_2, ..., y_N\} E={y1,y2,...,yN}。在 OADA 中,我们将实体视为基本单位,仅对实体级别进行重排,保持每个实体的完整性。实体 y i y_i yi 可以表示为一个元组 y i = ( s i , t i ) y_i = (s_i, t_i) yi=(si,ti),其中 s i , t i s_i, t_i si,ti 分别表示 y i y_i yi 的实体跨度和类型。生成过程可以公式化为:

L 1 = − ∑ i = 1 N log ⁡ P ( y i ∣ X , Y < i ) L_1 = - \sum_{i=1}^{N} \log P(y_i | X, Y_{<i}) L1=i=1NlogP(yiX,Y<i)

3.2 通过实体重排进行数据增强

在 OADA 中,我们定义两个实体序列是等价的,当且仅当它们具有相同的实体集,因此两个等价序列在如何排列序列组件(即实体)方面可能有很大差异。对于给定句子 X X X,目标序列 Y i Y^i Yi 定义为来自实体集 E E E 的实体的特定排列,例如 Y i = [ y N − 1 , y N , . . . , y 1 ] Y^i = [y_{N-1}, y_N, ..., y_1] Yi=[yN1,yN,...,y1]。我们进一步定义排列空间为 O = { O 1 , . . . , O I } O = \{O_1, ..., O_I\} O={O1,...,OI},它包含了来自 E E E 的所有可能的实体排列。根据我们的定义,当提供相应的 O i O_i Oi 时, Y i Y^i Yi 可以唯一确定。这意味着集合 O O O 的基数,即 I = ∣ O ∣ I = |O| I=O,直接控制了我们对实体集 E E E 进行数据增强的文本数量。

通过随机打乱并重排实体集 E E E,我们将获得 N ! N! N! 种不同的排列在 O O O 中,这在计算上无法全部包含在训练中。此外,通过标准交叉熵(XE)同时建模 X X X 与一组目标序列(如 Y i Y^i Yi)之间的关系是困难的(Shao 等,2019)。为了解决这个一对多问题,我们引入了排序指令,补充了输入输出对的构造,并精确控制了 O O O 的数量。

3.3 构建唯一的输入-输出对

在这里插入图片描述

图2:我们提出的OADA概述。步骤1:实体重新排列。对于实体类型的每个特定排列,实体集中的实体将按其类型分组,并相应地被布置成唯一的重新布置。第二步:构建投入产出对。我们将实体类型的每个排列视为一个排序指令,并将其与输入句子连接起来。这个置换之后的实体重排将唯一地与输入序列配对,作为输入-输出对。步骤3:校准。我们利用OADA-XE并基于其与靶实体序列的最佳比对来测量每个预测。

在 OADA 中,我们首先在实体类型间方面将一对多映射分解为多个一对一映射,并确保唯一的输入-输出对。

我们没有使用所有可能的 N ! N! N! 排列来增强数据,而是提出了一个替代策略:优先考虑实体类型作为排列实体的主要因素。具体来说,考虑一个具有实体类型集合 T = { t 1 , t 2 , . . . , t l } T = \{t_1, t_2, ..., t_l\} T={t1,t2,...,tl} 的数据集,例如 {LOC, ORG, MISC, PER}。通过根据实体类型排列实体,我们可以将 O i ∈ O O_i \in O OiO 定义为来自 T T T 的实体类型的随机排列 p p p,例如 [PER, LOC, ORG, MISC]。根据实体类型排列 p p p,实体集 E E E 中的实体首先根据其类型分组,然后按不同的组排列成 Y p Y_p Yp。例如,在图2中,类型 PER 的实体和实体 “(MIT, ORG)” 首先被组织成两个不同的组。这两个组随后按照不同的排序指令进行排列,形成不同的实体重排。

为了保持句子 X X X 与其对应的目标序列集(如 Y p Y_p Yp)之间的唯一一对一映射,我们将 p p p 视为唯一的排序指令,并将 X X X p p p 连接为 [ p ; X ] [p;X] [p;X]。在 PLM 的实际生成过程中, p p p 会向模型指示在某个生成步骤应关注哪个实体类型。通过这种方式,我们解决了实体类型间的一对多问题,排列空间 O O O 的复杂性从 O ( N ! ) O(N!) O(N!) 显著减少到最多 O ( l ! ) O(l!) O(l!)

例如,在图2 中,当与排序指令 “[PER, LOC, ORG, MISC]” 配对时,实体集可以唯一地重排成目标序列 “[(He, PER), (a professor of physics at MIT, PER), (MIT, ORG)]”。因此,第三个预测 “[(He, PER), (MIT, ORG), (a professor of physics at MIT, PER)]” 将被判定为错误预测。

3.4 使用 OADA-XE 校准预测

在本节中,我们介绍如何缓解某种实体类型内的一对多问题,即实体类型内的问题。由于我们无法通过仅使用排序指令和标准交叉熵(XE)区分同一类型的实体,因此会产生这一问题。例如,在图2中,预测的实体“[(a professor of physics at MIT, PER), (He, PER), (MIT, ORG)]”严格遵循了给定的排序指令,但在执行标准 XE 时会受到惩罚,因为前两个 PER 实体与目标实体序列的位置不对齐。与实体类型间的映射不同,实体拥有不同的类型,可以按类型进行划分;这些实体之间的唯一区别在于它们的绝对位置。因此,实体类型内会产生这种一对多的映射问题。
在这里插入图片描述

图三:OADA-XE说明:(a)执行每个位置罚分的标准XE,(B)OADA-XE,其基于预测和靶序列之间的最佳比对计算损失。

为了解决这个问题,我们参考 Du 等(2021)的做法,利用一种新的交叉熵(XE)损失来应用于 OADA。例如,在图3中,标准的交叉熵损失需要目标实体和模型预测之间严格的逐位置匹配,因此会严重惩罚预测序列“[(a professor of physics at MIT, PER), (He, PER)]”,尽管从我们的角度来看它与目标实体序列是等价的。

我们将 OADA-XE 目标定义为寻找最佳排列 O i ∈ O O_i \in \bm{O} OiO 以最小化 XE 损失:

L O A D A − X E = arg ⁡ min ⁡ O i ∈ O ( − log ⁡ P ( O i ∣ X ) ) L_{OADA-XE} = \arg \min_{O_i \in O} \left( - \log P(O_i | X) \right) LOADAXE=argOiOmin(logP(OiX))

需要注意的是,与 Du 等(2021)中的逐词比较不同,我们的工作将在实体级别(即跨度和类型)进行校准,如图3所示。如果能够找到模型预测和目标实体序列之间的最佳匹配,则该预测将被视为正确预测。此外,由于 O O O 中的大部分重排是无效的,并且对无效或噪声序列的对数损失会对模型行为造成重大变化(Kang 和 Hashimoto,2020),我们首先使用 XE 损失进行训练,以确保模型能够有效处理大量的排列搜索空间,并在训练过程中应用 OADA-XE 损失,通过退火机制逐步教会模型如何缓解逐位置的惩罚:

L = ( 1 − τ ) ⋅ L 1 + τ ⋅ L O A D A − X E L = (1 - \tau) \cdot L_1 + \tau \cdot L_{OADA-XE} L=(1τ)L1+τLOADAXE

其中 τ \tau τ 在整个训练过程中从 0 线性增加到 1。通过配备 OADA-XE,我们可以成功地在校准预测时避免实体类型内的问题。

4 实验

数据集 我们在两个平面NER数据集和一个嵌套NER数据集上进行了全面的实验。对于平面NER数据集,我们选择CoNLL-2003(Tjong Kim Sang和De Meulder,2003)和MITMovie(Liu等人,2013年,从两个不同的领域。对于MIT-Movie,我们从其训练集中随机选择15%的样本作为开发集。对于嵌套NER,我们在ACE 2005上进行实验(Doddington等人,2004年),使用与Lu和Roth(2015年)相同的数据分割。

4.1 不同DA方法的比较

我们首先将OADA与2.1节中介绍的其他NER DA方法进行比较。为了进行公平的比较,我们遵循ENTDA中的低资源设置,即10%的培训数据可用,结果如表2所示。其中,DAGA和MELM不能处理嵌套实体,我们仅包含他们在CoNLL2003上的结果。对于这些文本到文本的方法,我们遵循它们的设置,并将训练集扩大3倍。由于我们的方法不直接有助于数据的多样性,我们研究了第5.2节中每个实体集合使用的排列数量的影响,并在整个论文中对ACE-2005和ALL(4!=24)进行了20次随机重排。从结果可以看出,OADA可以应用于各种NER子任务,并且与其他NERDA方法相比取得了最大的改进。此外,我们的方法还不需要像文本到文本方法那样训练任何额外的模型。此外,重要的是要注意到,ENTDA中的实体仍然保持着固定的顺序。“+ENTDA+OADA”的结果表明,OADA可以进一步增强它们的扩展数据,这也表明了该方法的泛化能力。
在这里插入图片描述

表2:具有10%训练数据的不同NER DA方法之间的性能比较。

4.2 实验设置

如第2.2节所介绍的,在这项工作中,我们遵循Ma et al.(2022),其中只提供了每种实体类型的K个样本。我们在K = {5,10,20,50}设置下进行实验,用于监督微调,K = {1,2,3}用于ICL与LLM。对于所有设置,我们采用与Yang和Katiyar(2020)相同的采样策略,并报告三次拆分的平均性能。为了证明OADA可以统一地应用于不同的模型,甚至是其他少数方法,我们在BERT,BERtNER上实现OADA(Shen等人,2023)、BART、BART-NER(Yan等人,2021))进行监督微调,并在Flan-T5-XXL、LLaMA 2 - 13 B-Chat和ChatGPT上执行ICL。
 我们将OADA与几种强大且有竞争力的少数方法进行比较:模板-NER(Cui等人,2021)、BART-NER、SEE-Few(Yang等人,2022)、Ent-LM(Ma等人,2022)、FIT(Xu等人,2023年),以及。详细介绍请参见附录B。

4.3主要结果

表3显示了我们提出的OADA与这些基线的比较结果。基于实验结果,我们有以下观察:(1)OADA一致地提高了判别式和生成式PLM的性能。尽管BERT和BART等模型的基线性能各不相同,但OADA在所有少数镜头设置中都取得了显着的改进。特别是在5杆设置,OADA提高BERT的F1分数由15.29和14.07 CoNLL 2003和ACE-2005,和BART的11.88和15.36,分别。(2)OADA可以普遍应用于各种标记方案,进一步提高现有的几杆NER方法的能力。为了进一步证明我们的方法的泛化能力,我们还将OADA应用于以前的SOTA少数镜头NER方法与不同的标记方案。例如,虽然BART-NER使用开始和结束索引来表示与其预训练语料库显著不同的实体跨度,但OADA有效地适应了该方案。使用OADA增强的方法(如BARTNER和BART-NER)的性能强调了其在不同NER应用中的推广潜力。(3)在众多的方法中,OADA是最有效的方法。典型的基于模板的方法Template-NER和FIT由于跨度枚举而遭受缓慢的推理,而我们的推理速度比它们快20.17倍和15.90倍。虽然推理效率很高,但需要将多个模板与输入句子相结合的冗长序列,导致内存需求增加。我们的方法OADA,通过利用订单不可知属性,不仅简化了这一过程,但也实现了上级性能在不同的PLM相比,这些现有的方法。对计算效率的更详细分析包括在附录C中。
在这里插入图片描述

表3:在不同的少数拍摄设置(K = 5、10、20、50)中对三个数据集进行微调的性能。我们报告了每个细胞3次不同分裂的平均结果。

5 分析

5.1 消融研究

我们进行烧蚀实验微调BART分析OADA的各个组件的贡献。图4中的结果表明,虽然直接合并增强数据已经可以提高性能,但通过排序指令和OADA-XE解决一对多问题可以进一步大幅提高效果,这证明了OADA每个组件的有效性。BERT消融实验的结果见附录B。

5.2 T上置换的分析

如3.3节中所介绍的,我们选择在给定实体类型的排列的情况下重新排列实体序列,并将排列空间减少到至多l!,其中l是实体类型的数量。然而,对于ACE-2005和MIT-Movie这两个分别具有7种和12种实体类型的数据集,获取l!实体重组仍然不切实际。因此,我们进行实验来研究排列数目的影响。从图5中,我们可以观察到,大多数改进来自前20个排列,随着训练时间的大幅增加,后续的改进微乎其微。在真实的操作中,我们随机选择了20个ACE-2005和MIT-Movie的重排,并且所有(4!= 24),适用于2003年全国自然资源清单。
在这里插入图片描述

图4:OADA(BART)中不同组件的消融研究,报告了K = 5、10、20、50设置下两个数据集的有效集的F1评分。A:扩充实体序列(第3.2节); I:使用排序指令(第3.3节); X:使用OADA-XE分配损失(第3.4节)。
图5:OADA(BART)在ACE-2005有效集上的性能,不同的排列数。

5.3 不同位置的实体召回

我们研究了在一个句子中的不同位置的实体的回忆性能。详细结果如图6所示。对于平坦的CoNLL-2003 5-shot上的香草BART,稍后出现的实体更有可能被召回。相反,在嵌套的ACE-2005中,中间的实体表现出显着较低的召回概率。我们假设这种模式的出现是因为,对于平面NER,实体之间的依赖性不太明显。而对于嵌套的NER,后者的实体可能会包括前实体,导致级联效应,在早期实体的错误产生不利影响的回忆后续的。通过OADA,我们打乱了实体的排列,这样后续实体就可以出现在它们前面的实体之前,从而减少了实体的回忆对先前实体的依赖。我们在附录D中进一步包括了一些相关的案例研究。
在这里插入图片描述

图六:在两个开发集(单位为1000)上,不同位置的实体的召回,括号中为该位置的实体数。

5.4 LLM与OADA的ICL

最近,LLM有了显着的发展。然而,大量的参数,加上它们对计算资源的显著需求,使ICL成为一种更实用的方法。为了验证我们的适用性,我们在不同的LLM上进行实验:Flan-T5-XXL、LLaMA 2 - 13 B-Chat和ChatGPT(即,gpt-3.5turbo)。结果示于表4中。从表中可以看出,尽管LLM的结果相对高于微调的小规模PLM,但OADA仍然有效,并进一步提高了它们的性能,这证明了OADA在使用LLM的ICL中的有效性。我们在附录E中提供了如何使用LLM执行ICL的详细信息。
在这里插入图片描述

表4:具有LLM的ICL在(K = 1、2、3)激发设置中的性能。

5.5模型规模的影响

我们研究了带有OADA的ICL对模型尺度的敏感度,如图7所示。虽然我们可以观察到随着骆驼模型尺度的增加而显著的性能改善,但我们的方法对不同尺度的这些模型始终有效。LLAMA-70B的结果表明,OADA在其模型比例比其他版本大得多的情况下仍然有效,并在CoNLL-2003的基础上提高了2.00个F1分数以上。此外,我们还可以从CoNLL-2003的结果中观察到,我们使用的基础骆驼模型越大,来自OADA的改进似乎正在缓慢下降。我们认为,这一趋势来自于ICL使用的演示饱和。由于LLMS的指令调优过程将纳入来自NER任务的数据(Longpre等人,2023),因此它们在CoNLL-2003上显示出优越的性能。为了证明这一点,我们在ACE-2005上进一步使用OADA而不是骆驼,而LLMS将不太熟悉(Zhang等人,2024)。实验结果表明,在这种情况下,我们的方法表现出了良好的稳健性,在这种场景中,更多的演示可以帮助LLMS理解任务,而不是包括额外的但冗余的演示。
在这里插入图片描述

图7:在单次激发设置下,LLaMA与不同模型比例的性能比较。

6 结论

为此,本文提出了一种新的数据扩充方法OADA,它利用了经常被忽视的NER的顺序不可知性。此外,为了在不受一对多问题影响的情况下联合使用扩充数据,我们引入了排序指令的使用和一种创新的OADA-XE丢失,分别从类型间和类型内两个方面解决了该问题。在三个主要的NER基准上进行的实验和大量的分析证明了OADA的有效性。

限制

尽管OADA很有效,但仍有一些潜在的方向值得探索,我们将其作为未来的工作。

重新排序因子 在我们的工作中,为了减少O的巨大搜索空间并提供明确的区分标准,我们选择实体类型作为基本的重新排序因子,并在附录A中讨论了其他潜在的候选因素。从我们的分析中,我们知道原始的从左到右的顺序性能最差,这也证明了我们的主张,即严格的顺序假设不需要保持。还有其他重新排序的因素值得发现,这可能会进一步改善效果。也许我们目前的选择(即实体类型)并不是最优的解决方案,但我们的工作也为基于此的后续工作提供了足够的线索,我们提出的解决一树映射问题的设计在未来的工作中仍将有足够的应用场景。
更多样化的推理策略和最佳顺序 在OADA的训练阶段,我们解锁了生成模型执行多样化推理的能力。如第3.3节所介绍,我们将为实体类型的每个特定排列构造一个唯一的排序指令,以解决类型间映射问题。因此,对于每个输入句子,我们将使用 ∣ O ∣ |O| O不同的排序指令,每个指示特定的生成优先级。此外,已经有一些作品(Mitchell et al.,2022; Wang等人,2023)表明,执行一致性检查将大大提高ICL与LLM的性能。因此,我们也对基于多数投票的推理策略进行了实验,结果见附录F。从结果中,我们发现,应用多数表决的性能并没有显着优于最佳排序指令引导的推理。此外,我们还进行了一些研究,以选择最佳顺序,并将其纳入附录G。从结果来看,我们也不能通过选择“top-k”顺序观察到显著的改善。在我们的工作中,我们一贯采用所有实体安排进行微调,并按照OADA的主要结果报告的原始顺序进行解码。我们相信,如果有一个适当的算法,可以选择实体内的所有目标序列产生的不同的指令,性能将进一步提高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2221401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【ELK】初始阶段

一、logstash学习 安装的时候最好不要有中文的安装路径 使用相对路径 在 Windows PowerShell 中&#xff0c;如果 logstash 可执行文件位于当前目录下&#xff0c;你需要使用相对路径来运行它。尝试输入以下命令&#xff1a; .\logstash -e ‘input { stdin { } } output { s…

[软件工程]—嵌入式软件开发流程

嵌入式软件开发流程 1.工程文件夹目录 ├─00_Project_Management ├─00_Reference ├─01_Function_Map ├─02_Hardware ├─03_Firmware ├─04_Software ├─05_Mechanical ├─06_FCT └─07_Tools00_Project_Management 子文件夹如下所示&#xff1a; ├─00_需求导…

OriginOS 5深度体验:这款新系统,真的有点东西

嘿&#xff0c;朋友&#xff01;最近你有没有关注到vivo推出的OriginOS 5啊&#xff1f;我可是被这款新系统深深吸引了&#xff0c;感觉它真的有点东西&#xff0c;忍不住想和你分享一下我的深度体验。 一、全新的唤醒方式&#xff0c;贴心小助手随时待命 首先&#xff0c;我得…

Sigrity 共模电感的S-parameter仿真数据导入

下载S4P参数 https://ds.murata.co.jp/simsurfing/cmcc.html?partnumbers%5B%22DLW32MH101XT2%22%5D&oripartnumbers%5B%22DLW32MH101XT2L%22%5D&rgearjomoqke&rgearinfocom&md51729525489334# 下载S4P参数&#xff1b; DLW32MH101XT2.s4p Sigrity 使用-dif…

集成平台,互联互通平台,企业大数据平台建设方案,技术方案(Word原件 )

企业集成平台建设方案及重点难点攻坚 基础支撑平台主要承担系统总体架构与各个应用子系统的交互&#xff0c;第三方系统与总体架构的交互。需要满足内部业务在该平台的基础上&#xff0c;实现平台对于子系统的可扩展性。基于以上分析对基础支撑平台&#xff0c;提出了以下要求&…

YOLOv11改进-卷积-引入小波卷积WTConv 解决多尺度小目标问题

本篇文章将介绍一个新的改进机制——WTConv&#xff08;小波卷积&#xff09;&#xff0c;并阐述如何将其应用于YOLOv11中&#xff0c;显著提升模型性能。YOLOv11模型相比较于前几个模型在检测精度和速度上有显著提升&#xff0c;但其仍然受卷积核感受野大小的限制。因此&#…

柔性数组的使用

//柔性数组的使用 #include<stdio.h> #include<stdlib.h> #include<errno.h> struct s {int i;int a[]; }; int main() {struct s* ps (struct s*)malloc(sizeof(struct s) 20 * sizeof(int));if (ps NULL){perror("malloc");return 1;}//使用这…

2 ,datax :案例

1 &#xff0c;作业开发流程 &#xff1a;4 步 1 &#xff0c;确认源 &#xff1a; 1 &#xff0c;输入源    2 &#xff0c;输出源 2 &#xff0c;查文档 &#xff1a;输入&#xff0c;输出 https://github.com/alibaba/DataX/blob/master/introduction.md 3 &#xff0c;编…

【ArcGIS Pro实操第八期】绘制WRF三层嵌套区域

【ArcGIS Pro实操第八期】绘制WRF三层嵌套区域 数据准备ArcGIS Pro绘制WRF三层嵌套区域Map-绘制三层嵌套区域更改ArcMap地图的默认显示方向指定数据框范围 Map绘制研究区Layout-布局出图 参考 本博客基于ArcGIS Pro绘制WRF三层嵌套区域&#xff0c;具体实现图形参考下图&#x…

【前端】如何制作一个自己的网页(15)

有关后代选择器的具体解释&#xff1a; 后代选择器 后代选择器使用时&#xff0c;需要以空格将多个选择器间隔开。 比如&#xff0c;这里p span&#xff0c;表示只设置p元素内&#xff0c;span元素的样式。 <style> /* 使用后代选择器设置样式 */ p span { …

MySQL程序特别酷

这一篇和上一篇有重合的内容&#xff0c;&#xff0c;我决定从头开始再学一下MySQL&#xff0c;和上一篇的区别是写的更细了&#xff0c;以及写这篇的时候Linux已经学完了 下面就是关于MySQL很多程序的介绍&#xff1a; MySQL安装完成通常会包含如下程序&#xff1a; Linux系…

uniapp移动端优惠券! 附源码!!!!

本文为常见的移动端uniapp优惠券&#xff0c;共有6种优惠券样式&#xff08;参考了常见的优惠券&#xff09;&#xff0c;文本内容仅为示例&#xff0c;您可在此基础上调整为你想要的文本 预览效果 通过模拟数据&#xff0c;实现点击使用优惠券让其变为灰色的效果&#xff08;模…

鸿蒙网络编程系列32-基于拦截器的性能监控示例

1. 拦截器简介 在Web开发中拦截器是一种非常有用的模式&#xff0c;它允许开发者在请求发送到服务器之前或响应返回给客户端之前执行一些预处理或后处理操作。这种机制特别适用于需要对所有网络请求或响应进行统一处理的情况&#xff0c;比如添加全局错误处理、请求头的修改、…

Linux中输入和输出基本过程

目录 Linux中输入和输出基本过程 文件内核级缓冲区 何为重定向 子进程与缓冲区 手撕一个简单的shell&#xff08;版本2&#xff09; 判断重定向命令与截取 执行重定向 简单实现stdio.h中的文件相关操作 FILE结构体 fopen函数 fwrite函数 fflush函数 fclose函数 Li…

Vue+TypeScript+SpringBoot的WebSocket基础教学

成品图&#xff1a; 对WebSocket的理解&#xff08;在使用之前建议先了解Tcp&#xff0c;三次握手&#xff0c;四次挥手 &#xff09;&#xff1a; 首先页面与WebSocket建立连接、向WebSocket发送信息、后端WebSocket向所有连接上WebSoket的客户端发送当前信息。 推荐浏览网站…

燕山大学23级经济管理学院 10.18 C语言作业

燕山大学23级经济管理学院 10.18 C语言作业 文章目录 燕山大学23级经济管理学院 10.18 C语言作业1C语言的基本数据类型主要包括以下几种&#xff1a;为什么设计数据类型&#xff1f;数据类型与知识体系的对应使用数据类型时需要考虑的因素 21. 逻辑运算符2. 真值表3. 硬件实现4…

设计模式(UML图、类之间关系、设计原则)

目录 一.类的UML图 1.类的UML图 2.类之间的关系 2.1 继承关系&#xff1a; 2.2关联关系 2.2.1单项关联 2.2.2双向关联 2.2.3自关联 2.3聚合关系 2.4组合模式 2.5依赖关系 二、设计三原则 2.1单一职责原则 2.2开放封闭原则 2.3依赖倒转原则 一.类的UML图 1.类的…

考研篇——数据结构王道3.2.2_队列的顺序实现

目录 1.实现方式说明2.代码实现2.12.1.1 代码12.1.2 代码22.1.3 代码3 2.22.2.1 代码42.2.5 代码52.2.6 代码6 总结 1.实现方式说明 多在选择题中考察 队尾指针&#xff08;rear&#xff09;有两种指向方式&#xff1a; 队尾指针指向队尾元素的位置&#xff0c;队尾指针指向…

9个3D直播场景推荐

在科技日新月异的今天&#xff0c;3D直播技术正逐步渗透至文旅领域&#xff0c;为游客带来前所未有的沉浸式体验。以下是vLive虚拟直播九个精心推荐的文旅3D直播场景&#xff0c;它们不仅展现了各地独特的文化魅力&#xff0c;还通过高科技手段让游客仿佛穿越时空&#xff0c;身…

ArcGIS应用指南:多尺度渔网创建

在GIS中&#xff0c;创建渔网矢量文件是GIS中的一项常见任务&#xff0c;通过将研究区域划分为规则的网格&#xff0c;可以更精细地分析和管理城市空间数据。本文以厦门市行政区为例&#xff0c;详细介绍了如何创建不同尺度的渔网矢量网格&#xff0c;以适应不同区域的发展特点…