《Order-Agnostic Data Augmentation for Few-Shot Named Entity Recognition》中文

文章汉化系列目录

文章目录

文章汉化系列目录
摘要
1 引言
2 相关工作
- 2.1 NER的数据增强
- 2.2 少样本命名实体识别（Few-Shot NER）
3 无序数据增强
- 3.1 公式化
- 3.2 通过实体重排进行数据增强
- 3.3 构建唯一的输入-输出对
- 3.4 使用 OADA-XE 校准预测
4 实验
- 4.1 不同DA方法的比较
- 4.2 实验设置
- 4.3主要结果
5 分析
- 5.1 消融研究
- 5.2 T上置换的分析
- 5.3 不同位置的实体召回
- 5.4 LLM与OADA的ICL
- 5.5模型规模的影响
6 结论
限制

摘要

数据增强（DA）方法已被证明在低资源环境中对预训练语言模型（PLMs）有效，包括少量样本的命名实体识别（NER）。然而，现有的NER DA技术要么对单词进行基于规则的操作，从而破坏句子的语义连贯性，要么利用生成模型进行实体或上下文的替换，这需要大量的标注数据，且与在低资源环境中操作的目标相悖。在本研究中，我们提出了无序数据增强（OADA），这是一种替代解决方案，利用在序列到序列NER方法的数据构建阶段常被忽视的无序特性进行数据增强。为了有效利用增强的数据而不受到一对多问题的影响（即一个句子对应多个增强的目标序列），我们进一步提出了使用排序指令和创新的OADA-XE损失。具体来说，通过将每种实体类型的排列视为排序指令，我们相应地重新排列实体集合，确保输入输出对的唯一性，而OADA-XE则基于目标序列与模型预测之间的最佳匹配来分配损失。我们在三个主要的NER基准上进行了全面的实验和分析，能够显著增强PLMs的少量样本能力。我们的代码可在 https://github.com/Circle-Ming/OADA-NER 获取。

1 引言

在这里插入图片描述
命名实体识别（NER）（Tjong Kim Sang和De Meulder，2003; Doddington等人，（2004年）是一项最长期、最根本的任务。然而，NER系统的有效性通常受到对大量高质量注释数据集的需求的限制，这些数据集的获取成本高且劳动密集，需要创新方法来解决数据稀缺性（Rijhwani等人，2020; Yang和Katiyar，2020）。
通过引入更合理的样本，数据增强（DA）方法已被证明是标记数据稀缺场景中的有效解决方案（Sahin和Steedman，2018;小林，2018; Wei和Zou，2019）。现有的用于网络学习的DA方法大致可分为两类：（1）基于规则的操作和（2）文本到文本的生成。其中，基于规则的操作利用预定义的规则来自动修改文本，包括单词删除、重新排序和替换（Min等人，2020年）的报告。然而，由于自然语言的离散性，这些技术很难保持语义连贯。相反地，诸如DAGA（Ding等人，2020）、MELM（Zhou等人，2022年）和ENTDA（Hu等人，2023）通过使用来自预先训练的语言模型（PLM）的预测来替换实体或其上下文元素来扩充文本。然而，为了执行有效的增强，这些方法需要大量的标记数据来训练用于生成合成文本的增强模型，这在具有较少的标记数据的场景中提出了挑战，例如few-shot NER任务，并且违背了在低资源设置中操作的基本目标。
在本研究中，我们提出了一种创新的无序数据增强框架（OADA）作为替代解决方案，并证明了利用命名实体识别（NER）任务中一个基本但常被忽视的方面（即目标实体的固有无序特性，我们称之为“无序属性”）可以极大地提高数据增强的效果。为了利用这一特性进行数据增强，我们首先注意到传统序列到序列（seq2seq）NER系统的训练数据构建阶段和预测评估阶段之间存在差距。正如图1所示，给定源句子“CNN的David Ensor正在为我们报道”，传统的seq2seq NER方法（Yan等，2021）在训练过程中会以固定顺序感知实体，并仅将“[1, ORG], [1, 4, PER]”作为目标序列，而忽略等价的“[1, 4, PER], [1, ORG]”。然而，当“[1, ORG], [1, 4, PER]”和“[1, 4, PER], [1, ORG]”在评估时被视为模型预测时，两者都会被认定为正确的生成。这种固定顺序的假设以及训练和评估阶段之间的差距导致了许多可行样本的丢失。因此，在OADA中，我们试图将句子中的实体视为一个无序的集合，并将不同的实体排列视为等效且正确的生成。这一观点显著扩大了给定句子的可接受目标序列范围，从而引入了一种新颖且有效的数据增强方法。正如图1所示，当将无序属性引入训练数据构建时，两种实体序列都被视为合理的目标序列。
在OADA中，假设不同的实体排列提供了等效的信息。因此，我们进一步提出了使用排序指令和创新的交叉熵（XE）损失OADA-XE，以便在这些序列上共同微调预训练语言模型（PLMs），避免出现“一对多”问题（Gu等，2018），即同一句子可能存在多个实体序列的情况。例如，在图1中，如果我们不区分“[1, ORG], [1, 4, PER]”和“[1, 4, PER], [1, ORG]”，并将它们直接与相同的输入句子配对，那么PLM会在生成“4”或“ORG”之后遇到困难。为了解决这个问题，我们展示了所提出的策略能够在两个不同的层面上有效区分不同的实体排列（即，跨类型和同类型），如图2所示。具体来说，我们首先将实体类型作为排列实体的主要因素。通过将每种实体类型的排列（如“LOC, ORG, MISC, PER”）视为排序指令，我们将其与输入句子连接，并根据该指令排列实体序列，确保输入输出对的唯一性。其次，在每个实体类型内部，OADA-XE将基于目标序列与模型预测之间的最佳匹配分配损失。例如，在图2中，前两个预测都是可接受的，因为可以将它们与标准序列进行匹配，而第三个预测是错误的，因为它违反了排序指令，随意地重新排列了实体。
总结来说，我们的工作提出了几个关键贡献，包括：

据我们所知，这是首次从无序的角度进行数据增强（DA）的研究。
我们为少量样本的命名实体识别（NER）任务提出了一个新颖的数据增强框架OADA，该框架通过利用排序指令和创新的OADA-XE损失，能够在各种实体排列上共同微调预训练语言模型（PLMs）。
为了展示OADA的有效性和泛化能力，我们在三个数据集上进行了全面的实验和广泛的分析，其中包括一个用于嵌套NER的数据集，实验涵盖了五种代表性的预训练语言模型（例如BERT（Devlin等，2019）、BART（Lewis等，2020）、Flan-T5（Chung等，2022）、LLaMA2（Touvron等，2023）和ChatGPT（OpenAI，2022）），并展示了相对于已有基准的显著改进。

2 相关工作

2.1 NER的数据增强

在这里插入图片描述

表1：不同数据增强（DA）方法的比较。“Coher.”表示“语义连贯性”，“Sub.”表示“多种命名实体识别（NER）子任务”，而“No-Train.”表示某种方法是否需要额外训练模型。

如表1所示，我们将OADA与现有的两大类NER数据增强（DA）方法进行了比较。
基于规则的操作基于规则的DA方法主要是在词级别进行操作，包括同义词替换（Wei和Zou，2019；Cai等，2020）、单词删除（Kobayashi，2018）和重新排序（Min等，2020）。通过利用预定义的规则，这些方法能够高效地生成大量合成文本。然而，这些方法可能会严重受到词标错位问题（Zhou等，2022）的影响，即某个实体的词可能会被替换为与其原始标签不匹配的替代项。此外，由于自然语言的离散性，词级操作会引入不连贯的替换，导致文本的语义一致性受损。
为了避免词标错位问题，Dai和Adel（2020）提出了随机用相同类型的替代实体替换整个实体提及的方法。尽管这种方法在简单的NER任务中有效，但在处理复杂的NER子任务（如嵌套NER）时仍然具有挑战性，且不可避免地会引入不连贯的替换（Hu等，2023）。在本研究中，我们仅对实体序列进行增强，同时保持输入句子完整，确保文本的语义连贯性。
文本到文本生成 基于文本到文本生成的命名实体识别（NER）数据增强方法主要受到回译技术的启发（Sennrich等，2016；Fadaee等，2017；Dong等，2017；Hou等，2018；Xia等，2019），其目标是通过不同语言之间的转换来保持文本的原意。当应用于词级NER任务时，像DAGA（Ding等，2020）和MELM（Zhou等，2022）这样的方法尝试通过线性化序列来微调预训练语言模型（PLMs），将词标签与词语合并，并在被破坏的句子上创建增强的文本。然而，这些方法在处理嵌套实体时面临挑战，限制了它们在各种NER任务中的适用性。较新的ENTDA方法（Hu等，2023）提供了一种上下文替换策略，适用于各种NER任务。然而，这些文本到文本生成方法的共同局限在于它们依赖于大量的标注数据来训练增强模型，这与低资源环境的目标相矛盾。
相反，通过利用NER任务中共享的无序属性，我们的方法OADA结合了基于规则和文本到文本的DA方法的优势，能够在不需要额外模型训练的情况下有效地进行数据增强，同时不改变句子，从而保持语义连贯性。

2.2 少样本命名实体识别（Few-Shot NER）

少样本命名实体识别是一个具有挑战性的任务，它要求仅使用少量的标注样本来识别实体（Wiseman 和 Stratos，2019；Yang 和 Katiyar，2020；Ding 等，2021）。最近在这个领域的进展主要分为两大类：基于度量的方法和基于提示的方法。这一分类也与两种不同的少样本NER设置相对应。基于度量的方法的目标是通过学习特征空间，并使用最近类的原型或邻近样本来分类测试样本（Snell 等，2017；Fritzler 等，2018；Yang 和 Katiyar，2020；Das 等，2022；Zhang 等，2023）。然而，这些研究大多假设一个资源丰富的源领域，这与现实世界应用场景形成对比，因为在实际应用中，通常只有非常有限的标注数据。
按照 Gao 等（2021）的说法，更实用的少样本设置对可用资源的假设最少，并且每个类别只提供少量样本进行训练。通过利用语言提示将预训练的语言模型（PLMs）适配到NER任务中，基于提示的方法（Cui 等，2021；Ma 等，2022；Lee 等，2022；Shen 等，2023；Xu 等，2023）在少样本场景中表现出令人印象深刻的性能，并且在有更多数据时可以进一步提升。在本研究中，我们遵循了更具挑战性的少样本设置，其中每种实体类型只提供少量样本，并在基于提示的方法上实现了OADA，并在第4.3节中进行了全面比较。
此外，最近在大型语言模型（LLMs）领域取得了显著进展，比如GPT系列（Brown 等，2020；OpenAI，2022），这些模型在少样本提示和上下文学习（ICL）方面展示了令人印象深刻的能力（Jimenez Gutierrez 等，2022；Chen 等，2023）。因此，在本研究中，我们特别考察了OADA在大型语言模型上的泛化能力，并将结果列在表4中。

3 无序数据增强

3.1 公式化

命名实体识别（NER）任务的目标是检测给定句子 $X$ 中所有可以代表实体的跨度。这些实体在句子 $X$ 中组成了相应的实体集 $E = \{y_1, y_2, ..., y_N\}$ 。在 OADA 中，我们将实体视为基本单位，仅对实体级别进行重排，保持每个实体的完整性。实体 $y_i$ 可以表示为一个元组 $y_i = (s_i, t_i)$ ，其中 $s_i, t_i$ 分别表示 $y_i$ 的实体跨度和类型。生成过程可以公式化为：

$L_1 = - \sum_{i=1}^{N} \log P(y_i | X, Y_{<i})$

3.2 通过实体重排进行数据增强

在 OADA 中，我们定义两个实体序列是等价的，当且仅当它们具有相同的实体集，因此两个等价序列在如何排列序列组件（即实体）方面可能有很大差异。对于给定句子 $X$ ，目标序列 $Y^i$ 定义为来自实体集 $E$ 的实体的特定排列，例如 $Y^i = [y_{N-1}, y_N, ..., y_1]$ 。我们进一步定义排列空间为 $O = \{O_1, ..., O_I\}$ ，它包含了来自 $E$ 的所有可能的实体排列。根据我们的定义，当提供相应的 $O_i$ 时， $Y^i$ 可以唯一确定。这意味着集合 $O$ 的基数，即 $I = ∣ O ∣$ ，直接控制了我们对实体集 $E$ 进行数据增强的文本数量。

通过随机打乱并重排实体集 $E$ ，我们将获得 $N!$ 种不同的排列在 $O$ 中，这在计算上无法全部包含在训练中。此外，通过标准交叉熵（XE）同时建模 $X$ 与一组目标序列（如 $Y^i$ ）之间的关系是困难的（Shao 等，2019）。为了解决这个一对多问题，我们引入了排序指令，补充了输入输出对的构造，并精确控制了 $O$ 的数量。

3.3 构建唯一的输入-输出对

在这里插入图片描述

图2：我们提出的OADA概述。步骤1：实体重新排列。对于实体类型的每个特定排列，实体集中的实体将按其类型分组，并相应地被布置成唯一的重新布置。第二步：构建投入产出对。我们将实体类型的每个排列视为一个排序指令，并将其与输入句子连接起来。这个置换之后的实体重排将唯一地与输入序列配对，作为输入-输出对。步骤3：校准。我们利用OADA-XE并基于其与靶实体序列的最佳比对来测量每个预测。

在 OADA 中，我们首先在实体类型间方面将一对多映射分解为多个一对一映射，并确保唯一的输入-输出对。

我们没有使用所有可能的 $N!$ 排列来增强数据，而是提出了一个替代策略：优先考虑实体类型作为排列实体的主要因素。具体来说，考虑一个具有实体类型集合 $T = \{t_1, t_2, ..., t_l\}$ 的数据集，例如 {LOC, ORG, MISC, PER}。通过根据实体类型排列实体，我们可以将 $O_i \in O$ 定义为来自 $T$ 的实体类型的随机排列 $p$ ，例如 [PER, LOC, ORG, MISC]。根据实体类型排列 $p$ ，实体集 $E$ 中的实体首先根据其类型分组，然后按不同的组排列成 $Y_p$ 。例如，在图2中，类型 PER 的实体和实体 “(MIT, ORG)” 首先被组织成两个不同的组。这两个组随后按照不同的排序指令进行排列，形成不同的实体重排。

为了保持句子 $X$ 与其对应的目标序列集（如 $Y_p$ ）之间的唯一一对一映射，我们将 $p$ 视为唯一的排序指令，并将 $X$ 与 $p$ 连接为 $[p; X]$ 。在 PLM 的实际生成过程中， $p$ 会向模型指示在某个生成步骤应关注哪个实体类型。通过这种方式，我们解决了实体类型间的一对多问题，排列空间 $O$ 的复杂性从 $O (N!)$ 显著减少到最多 $O (l!)$ 。

例如，在图2 中，当与排序指令 “[PER, LOC, ORG, MISC]” 配对时，实体集可以唯一地重排成目标序列 “[(He, PER), (a professor of physics at MIT, PER), (MIT, ORG)]”。因此，第三个预测 “[(He, PER), (MIT, ORG), (a professor of physics at MIT, PER)]” 将被判定为错误预测。

3.4 使用 OADA-XE 校准预测

在本节中，我们介绍如何缓解某种实体类型内的一对多问题，即实体类型内的问题。由于我们无法通过仅使用排序指令和标准交叉熵（XE）区分同一类型的实体，因此会产生这一问题。例如，在图2中，预测的实体“[(a professor of physics at MIT, PER), (He, PER), (MIT, ORG)]”严格遵循了给定的排序指令，但在执行标准 XE 时会受到惩罚，因为前两个 PER 实体与目标实体序列的位置不对齐。与实体类型间的映射不同，实体拥有不同的类型，可以按类型进行划分；这些实体之间的唯一区别在于它们的绝对位置。因此，实体类型内会产生这种一对多的映射问题。
在这里插入图片描述

图三：OADA-XE说明：（a）执行每个位置罚分的标准XE，（B）OADA-XE，其基于预测和靶序列之间的最佳比对计算损失。

为了解决这个问题，我们参考 Du 等（2021）的做法，利用一种新的交叉熵（XE）损失来应用于 OADA。例如，在图3中，标准的交叉熵损失需要目标实体和模型预测之间严格的逐位置匹配，因此会严重惩罚预测序列“[(a professor of physics at MIT, PER), (He, PER)]”，尽管从我们的角度来看它与目标实体序列是等价的。

我们将 OADA-XE 目标定义为寻找最佳排列 $O_i \in \bm{O}$ 以最小化 XE 损失：

$L_{OADA-XE} = \arg \min_{O_i \in O} \left( - \log P(O_i | X) \right)$

需要注意的是，与 Du 等（2021）中的逐词比较不同，我们的工作将在实体级别（即跨度和类型）进行校准，如图3所示。如果能够找到模型预测和目标实体序列之间的最佳匹配，则该预测将被视为正确预测。此外，由于 $O$ 中的大部分重排是无效的，并且对无效或噪声序列的对数损失会对模型行为造成重大变化（Kang 和 Hashimoto，2020），我们首先使用 XE 损失进行训练，以确保模型能够有效处理大量的排列搜索空间，并在训练过程中应用 OADA-XE 损失，通过退火机制逐步教会模型如何缓解逐位置的惩罚：

$\tau) \cdot L_1 + \tau \cdot L_{OADA-XE}$

其中 $\tau$ 在整个训练过程中从 0 线性增加到 1。通过配备 OADA-XE，我们可以成功地在校准预测时避免实体类型内的问题。

4 实验

数据集 我们在两个平面NER数据集和一个嵌套NER数据集上进行了全面的实验。对于平面NER数据集，我们选择CoNLL-2003（Tjong Kim Sang和De Meulder，2003）和MITMovie（Liu等人，2013年，从两个不同的领域。对于MIT-Movie，我们从其训练集中随机选择15%的样本作为开发集。对于嵌套NER，我们在ACE 2005上进行实验（Doddington等人，2004年），使用与Lu和Roth（2015年）相同的数据分割。

4.1 不同DA方法的比较

我们首先将OADA与2.1节中介绍的其他NER DA方法进行比较。为了进行公平的比较，我们遵循ENTDA中的低资源设置，即10%的培训数据可用，结果如表2所示。其中，DAGA和MELM不能处理嵌套实体，我们仅包含他们在CoNLL2003上的结果。对于这些文本到文本的方法，我们遵循它们的设置，并将训练集扩大3倍。由于我们的方法不直接有助于数据的多样性，我们研究了第5.2节中每个实体集合使用的排列数量的影响，并在整个论文中对ACE-2005和ALL(4！=24)进行了20次随机重排。从结果可以看出，OADA可以应用于各种NER子任务，并且与其他NERDA方法相比取得了最大的改进。此外，我们的方法还不需要像文本到文本方法那样训练任何额外的模型。此外，重要的是要注意到，ENTDA中的实体仍然保持着固定的顺序。“+ENTDA+OADA”的结果表明，OADA可以进一步增强它们的扩展数据，这也表明了该方法的泛化能力。
在这里插入图片描述

表2：具有10%训练数据的不同NER DA方法之间的性能比较。

4.2 实验设置

如第2.2节所介绍的，在这项工作中，我们遵循Ma et al.（2022），其中只提供了每种实体类型的K个样本。我们在K = {5，10，20，50}设置下进行实验，用于监督微调，K = {1，2，3}用于ICL与LLM。对于所有设置，我们采用与Yang和Katiyar（2020）相同的采样策略，并报告三次拆分的平均性能。为了证明OADA可以统一地应用于不同的模型，甚至是其他少数方法，我们在BERT，BERtNER上实现OADA（Shen等人，2023）、BART、BART-NER（Yan等人，2021））进行监督微调，并在Flan-T5-XXL、LLaMA 2 - 13 B-Chat和ChatGPT上执行ICL。
我们将OADA与几种强大且有竞争力的少数方法进行比较：模板-NER（Cui等人，2021）、BART-NER、SEE-Few（Yang等人，2022）、Ent-LM（Ma等人，2022）、FIT（Xu等人，2023年），以及。详细介绍请参见附录B。

4.3主要结果

表3显示了我们提出的OADA与这些基线的比较结果。基于实验结果，我们有以下观察：（1）OADA一致地提高了判别式和生成式PLM的性能。尽管BERT和BART等模型的基线性能各不相同，但OADA在所有少数镜头设置中都取得了显着的改进。特别是在5杆设置，OADA提高BERT的F1分数由15.29和14.07 CoNLL 2003和ACE-2005，和BART的11.88和15.36，分别。(2)OADA可以普遍应用于各种标记方案，进一步提高现有的几杆NER方法的能力。为了进一步证明我们的方法的泛化能力，我们还将OADA应用于以前的SOTA少数镜头NER方法与不同的标记方案。例如，虽然BART-NER使用开始和结束索引来表示与其预训练语料库显著不同的实体跨度，但OADA有效地适应了该方案。使用OADA增强的方法（如BARTNER和BART-NER）的性能强调了其在不同NER应用中的推广潜力。(3)在众多的方法中，OADA是最有效的方法。典型的基于模板的方法Template-NER和FIT由于跨度枚举而遭受缓慢的推理，而我们的推理速度比它们快20.17倍和15.90倍。虽然推理效率很高，但需要将多个模板与输入句子相结合的冗长序列，导致内存需求增加。我们的方法OADA，通过利用订单不可知属性，不仅简化了这一过程，但也实现了上级性能在不同的PLM相比，这些现有的方法。对计算效率的更详细分析包括在附录C中。
在这里插入图片描述

表3：在不同的少数拍摄设置（K = 5、10、20、50）中对三个数据集进行微调的性能。我们报告了每个细胞3次不同分裂的平均结果。

5 分析

5.1 消融研究

我们进行烧蚀实验微调BART分析OADA的各个组件的贡献。图4中的结果表明，虽然直接合并增强数据已经可以提高性能，但通过排序指令和OADA-XE解决一对多问题可以进一步大幅提高效果，这证明了OADA每个组件的有效性。BERT消融实验的结果见附录B。

5.2 T上置换的分析

如3.3节中所介绍的，我们选择在给定实体类型的排列的情况下重新排列实体序列，并将排列空间减少到至多l！，其中l是实体类型的数量。然而，对于ACE-2005和MIT-Movie这两个分别具有7种和12种实体类型的数据集，获取l！实体重组仍然不切实际。因此，我们进行实验来研究排列数目的影响。从图5中，我们可以观察到，大多数改进来自前20个排列，随着训练时间的大幅增加，后续的改进微乎其微。在真实的操作中，我们随机选择了20个ACE-2005和MIT-Movie的重排，并且所有（4！= 24），适用于2003年全国自然资源清单。
在这里插入图片描述

图4：OADA（BART）中不同组件的消融研究，报告了K = 5、10、20、50设置下两个数据集的有效集的F1评分。A：扩充实体序列（第3.2节）; I：使用排序指令（第3.3节）; X：使用OADA-XE分配损失（第3.4节）。
图5：OADA（BART）在ACE-2005有效集上的性能，不同的排列数。

5.3 不同位置的实体召回

我们研究了在一个句子中的不同位置的实体的回忆性能。详细结果如图6所示。对于平坦的CoNLL-2003 5-shot上的香草BART，稍后出现的实体更有可能被召回。相反，在嵌套的ACE-2005中，中间的实体表现出显着较低的召回概率。我们假设这种模式的出现是因为，对于平面NER，实体之间的依赖性不太明显。而对于嵌套的NER，后者的实体可能会包括前实体，导致级联效应，在早期实体的错误产生不利影响的回忆后续的。通过OADA，我们打乱了实体的排列，这样后续实体就可以出现在它们前面的实体之前，从而减少了实体的回忆对先前实体的依赖。我们在附录D中进一步包括了一些相关的案例研究。
在这里插入图片描述

图六：在两个开发集（单位为1000）上，不同位置的实体的召回，括号中为该位置的实体数。

5.4 LLM与OADA的ICL

最近，LLM有了显着的发展。然而，大量的参数，加上它们对计算资源的显著需求，使ICL成为一种更实用的方法。为了验证我们的适用性，我们在不同的LLM上进行实验：Flan-T5-XXL、LLaMA 2 - 13 B-Chat和ChatGPT（即，gpt-3.5turbo）。结果示于表4中。从表中可以看出，尽管LLM的结果相对高于微调的小规模PLM，但OADA仍然有效，并进一步提高了它们的性能，这证明了OADA在使用LLM的ICL中的有效性。我们在附录E中提供了如何使用LLM执行ICL的详细信息。
在这里插入图片描述

表4：具有LLM的ICL在（K = 1、2、3）激发设置中的性能。

5.5模型规模的影响

我们研究了带有OADA的ICL对模型尺度的敏感度，如图7所示。虽然我们可以观察到随着骆驼模型尺度的增加而显著的性能改善，但我们的方法对不同尺度的这些模型始终有效。LLAMA-70B的结果表明，OADA在其模型比例比其他版本大得多的情况下仍然有效，并在CoNLL-2003的基础上提高了2.00个F1分数以上。此外，我们还可以从CoNLL-2003的结果中观察到，我们使用的基础骆驼模型越大，来自OADA的改进似乎正在缓慢下降。我们认为，这一趋势来自于ICL使用的演示饱和。由于LLMS的指令调优过程将纳入来自NER任务的数据(Longpre等人，2023)，因此它们在CoNLL-2003上显示出优越的性能。为了证明这一点，我们在ACE-2005上进一步使用OADA而不是骆驼，而LLMS将不太熟悉(Zhang等人，2024)。实验结果表明，在这种情况下，我们的方法表现出了良好的稳健性，在这种场景中，更多的演示可以帮助LLMS理解任务，而不是包括额外的但冗余的演示。
在这里插入图片描述

图7：在单次激发设置下，LLaMA与不同模型比例的性能比较。

6 结论

为此，本文提出了一种新的数据扩充方法OADA，它利用了经常被忽视的NER的顺序不可知性。此外，为了在不受一对多问题影响的情况下联合使用扩充数据，我们引入了排序指令的使用和一种创新的OADA-XE丢失，分别从类型间和类型内两个方面解决了该问题。在三个主要的NER基准上进行的实验和大量的分析证明了OADA的有效性。

限制

尽管OADA很有效，但仍有一些潜在的方向值得探索，我们将其作为未来的工作。

重新排序因子 在我们的工作中，为了减少O的巨大搜索空间并提供明确的区分标准，我们选择实体类型作为基本的重新排序因子，并在附录A中讨论了其他潜在的候选因素。从我们的分析中，我们知道原始的从左到右的顺序性能最差，这也证明了我们的主张，即严格的顺序假设不需要保持。还有其他重新排序的因素值得发现，这可能会进一步改善效果。也许我们目前的选择(即实体类型)并不是最优的解决方案，但我们的工作也为基于此的后续工作提供了足够的线索，我们提出的解决一树映射问题的设计在未来的工作中仍将有足够的应用场景。
更多样化的推理策略和最佳顺序 在OADA的训练阶段，我们解锁了生成模型执行多样化推理的能力。如第3.3节所介绍，我们将为实体类型的每个特定排列构造一个唯一的排序指令，以解决类型间映射问题。因此，对于每个输入句子，我们将使用 $∣ O ∣$ 不同的排序指令，每个指示特定的生成优先级。此外，已经有一些作品（Mitchell et al.，2022; Wang等人，2023）表明，执行一致性检查将大大提高ICL与LLM的性能。因此，我们也对基于多数投票的推理策略进行了实验，结果见附录F。从结果中，我们发现，应用多数表决的性能并没有显着优于最佳排序指令引导的推理。此外，我们还进行了一些研究，以选择最佳顺序，并将其纳入附录G。从结果来看，我们也不能通过选择“top-k”顺序观察到显著的改善。在我们的工作中，我们一贯采用所有实体安排进行微调，并按照OADA的主要结果报告的原始顺序进行解码。我们相信，如果有一个适当的算法，可以选择实体内的所有目标序列产生的不同的指令，性能将进一步提高。