KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS

文章目录

- 题目
- 摘要
- 简介
- KOLA 基准
- 实验评估
- 结论和未来工作
- 道德声明

题目

KOLA：仔细对大型语言模型的世界知识进行基准测试

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.09296
项目地址:https://github.com/ranahaani/GNews

摘要

大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为，细致周到的设计并非仅仅探索 LLM 能力的广度，对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性，我们构建了以知识为导向的 LLM 评估基准 (KoLA)，其中我们精心设计了三个关键因素：（1）对于能力建模，我们模仿人类认知，形成与知识相关的能力的四级分类法，涵盖 19 项任务。（2）对于数据，为确保公平比较，我们同时使用维基百科（LLM 普遍预训练的语料库）和不断收集的新兴语料库，旨在评估处理看不见的数据和不断发展的知识的能力。（3）对于评估标准，我们采用对比系统，包括总体标准分数，以便在任务和模型之间更好地进行数值比较，以及独特的自我对比指标，用于自动评估知识创造能力。我们评估了 28 个开源和商业 LLM，得到了一些有趣的发现。KoLA 数据集将每三个月更新一次，为开发 LLM 和知识系统提供及时的参考。

简介

GPT-4等大型语言模型 (LLM) 最近取得了显著突破，引起了广泛的震惊。考虑到 LLM 所展现出的广泛而深刻的自然语言理解和生成能力，传统的基准侧重于相对狭窄和肤浅的能力，对于测试它们不再那么有用。有必要构建更好的基准，以有效地比较 LLM 并提供有价值的诊断结果。为此，提出了各种基准，重点是扩大评估范围以涵盖更广泛的能力或更具挑战性的任务。除了扩大评估范围以探索 LLM 能力的广度之外，我们认为精心的设计也是必要的，以建立有助于深入洞察、对不同 LLM 保持公正、并对有兴趣选择和提升 LLM 的受众具有高度适用性的评估。设计基准需要仔细考虑三个关键因素：

能力建模。基准不仅应定义所需能力的范围，还应模拟所评估能力之间的内在联系，从而为如何获得和提高这些能力提供诊断性洞察。
数据。鉴于 LLM 的训练数据范围极其广泛，其中可能包括某些任务的注释数据，并且通常未公开，因此确保确保训练数据的差异不影响评估的公平性是至关重要且具有挑战性的。
评估标准。为了获得高适用性，评估指标应该使受众能够轻松理解并获得有用的观察结果。此外，在评估像生成任务这样具有较大搜索空间的任务时，存在许多众所周知的问题。相关能力的评估仍然严重依赖于人工评估，这既耗时又不易重现。

在这里插入图片描述

在本文中，我们提出了一个面向知识的 LLM 评估基准（KoLA），旨在通过考虑上述三个因素进行细致的设计来仔细基准化 LLM 的世界知识：对于能力建模，我们评估 LLM 的世界知识并设计一个四级认知能力分类法。我们选择世界知识作为评估范围的原因是：

世界知识被广泛认为在LLM的出色表现中发挥着根本性作用，而对知识的更深层次掌握使LLM能够更好地帮助人类；
最近的研究表明，理解和生成结构化世界知识对LLM来说仍然具有挑战性。

与以前的工作不同，以前的工作侧重于通过涵盖各种任务和学科知识来扩大评估广度以测试LLM的知识边界，我们更注重评估的“深度”，即对知识相关能力之间的内在联系进行建模并确保可靠的评估结果。受学习理论中人类认知过程的启发，如布鲁姆分类法，我们将评估的能力分为四个层次：知识记忆、知识理解、知识应用和知识创造。这种分类法有助于提供更具体、更有帮助的评估结果，详细说明被评估模型可能在哪些知识方面存在不足。它还有助于初步探索LLM和人类学习机制的异同。

为了配合我们后面介绍的数据设计考虑，我们选择了19个任务，主要关注关于实体、概念和事件的世界知识。对于数据，我们获取已知的和不断发展的数据源。一些研究采用未发表或机器不可读的数据来降低测试数据被LLM学习的可能性。然而，考虑到LLM之间的激烈竞争，这些数据在不久的将来也可能被LLM训练。我们认为理想的方法是对新出现的数据进行评估并保持不断发展的基准，就像包括时间敏感的不断发展的数据的尝试一样。在 KoLA，我们每三个月举办一个新的比赛赛季。每个赛季，我们都会抓取并注释 500 篇最近发表的文章作为不断发展的数据。不断发展的数据源使我们能够

更公平地评估模型，即使某些模型可以快速更新其知识，从而展示其能力，以及
更好地跟踪模型开发。除了不断发展的数据外，我们还考虑 LLM 的已知数据，即所有模型都已学习的数据源。对已知数据的评估使我们能够 (i) 通过比较它们从相同训练数据中获得的不同知识来公平地比较 LLM 的学习效率，以及
通过比较 LLM 在已知数据和不断发展的数据上的表现来评估泛化能力。我们选择维基百科作为我们的已知数据源，因为它很常用。考虑到维基百科的局限性以及我们对不断发展的数据的注释能力，我们无法覆盖非常广泛的任务。

对于评估标准，我们设计了一个对比评估系统，包括一个总体标准分数系统和一个自我对比知识创造指标。传统的基准测试分别报告不同任务的绝对指标。不同任务之间的分数不可比性使得观众难以直观地比较不同能力之间的熟练程度。此外，不同指标的敏感度各不相同，这可能会导致经验不足的观众误解数字差异所代表的能力差异。在 KoLA 主排行榜中，我们报告了不同任务的标准分数，这些分数由与其他评估的 LLM 相比的相对水平决定。这使得 KoLA 适用于更广泛的受众。有经验的观众仍然可以参考绝对指标（如果需要）。此外，评估知识创造尤其具有挑战性，因为它涉及区分正确创建的知识和知识幻觉。我们设计了一个自我对比指标来评估知识幻觉，通过对比在相同开端的情况下自由创建的 LLM 完成和基于知识的完成。该指标消除了写作风格的影响，重点关注生成的补全是否与实际呈现的知识一致。

在 KoLA 的前两季中，我们评估了 28 个广泛使用的 LLM，包括 8 个 API 访问商业 LLM，例如 GPT-4和 Cohere-command，以及 20 个开源 LLM，包括 GLM-130B、LLaMa等。从实验结果中，我们得到了一些有趣的观察结果，例如较大的基础模型往往会记忆更多的知识，对齐释放了较大模型在高级能力方面的潜力，但可能会损害记忆，开源模型与商业模型相比表现出整体劣势。我们欢迎更多 LLM 参与 KoLA 评估，并鼓励为新一季的 KoLA 做出贡献。数据、排行榜、参与信息和支持工具在被接受后将公开。我们希望 KoLA 可以作为一种诊断工具，促进知识型 LLM 的发展，并帮助从业者选择 LLM。

KOLA 基准

能力建模在人工智能 (AI) 的背景下，知识一直被用来表示包含事实、事件和技能的信息，作为人工智能智能水平的指标。因此，提出了各种知识密集型任务来检查语言模型的知识相关能力。最近，LLM 的令人印象深刻的表现鼓励开发更全面的基准和广泛的人类受试者测试。认知能力分类法。面对如此庞大的评估数据集，我们主张考虑能力的分层和联系，而不是离散地组织它们或直接基于学科。几十年来，认知科学家也一直坚持这种观点，并产生了一系列认知学习理论。考虑到围绕高阶思维的持续争论，我们简化并选择了布鲁姆分类法中四个被广泛接受的过程来组织 KoLA 基准中的任务。

知识记忆（KM）旨在衡量模型忠实回忆已知事实的能力，例如先前的知识探测任务。
知识理解（KU）侧重于评估模型理解文本中底层知识的能力，例如传统的信息提取任务。
知识应用（KA）反映了代理运用知识完成推理和解决问题的能力。因此，该级别通过各种知识推理任务进行评估。
知识创造（KC）表示在已知事实的情况下创造新颖且合理知识的能力。这是通过知识的连贯性和正确性来评估的模型生成内容的评估。值得注意的是，评估不仅仅是评估生成质量（流畅度等）。

数据源和选定任务已知和不断发展的数据：评估 LLM 的一个共同关注点是训练数据的变化带来的公平性问题和潜在的测试数据泄露风险。为了最大限度地减少这些偏差，我们建议设计以下独特的数据源：

已知数据源。Wikipedia2 是一个公认的高质量语料库，包含超过 660 万篇英文文章，自 BERT 以来已被许多预训练模型用于预训练，并被广泛纳入开放的预训练语料库。因此，我们认为假设每个 LLM 都在维基百科上进行过训练是合理的，并将其作为我们的已知数据源。考虑到许多 LLM 表示他们只能根据“2021 年之前的内容”提供答案，我们选择了 Wikidata 的一个高质量子集 Wikidata5M作为基础，它允许链接到 2019 年版的 Wikipedia 转储，从而能够选择或重建下游任务的数据集。
不断发展的数据源。考虑到模型训练所需的时间，新出现的数据不太可能被 LLM 及时训练。因此，我们设计了一种不断发展的评估机制，该机制不断检索最近 90 天左右发布的网络内容作为数据源并在其上构建新的数据集。这种方法可以确保公平评估 LLM 在看不见的内容上的表现，以及它们是否“秘密地”涉及外部搜索等知识更新模块。每次更新（我们称之为 KoLA 的一季）都需要抓取至少 500 篇文章来支持构建测试集。对于本文报道的第一季，我们采用了两种数据：事实新闻 4 和虚构小说 5 。我们打算再坚持 4 季（约 1 年），以及时整合即将到来的顶级 LLM。我们期待持续发布的报告能够为相关研究人员提供进一步的支持。

基于这两个数据源，我们最终在 KoLA 中筛选并构建了 19 个任务，如表 1 所示。为确保每个季节的注释质量和效率，我们在每个级别随机选择一个任务来注释新的进化评估数据集。对于现有的数据集，我们尝试确保大多数测试集不公开，这种严格的设置确保了高度的公平性。数据收集和任务构建细节见附录 C。下面我们简单介绍一下四个级别的任务。值得注意的是，由于数据分布和收集过程的限制，模型在进化数据上的绝对数值不一定注定低于已知数据上的绝对数值。

知识记忆任务：我们遵循 LAMA通过探究 LLM 中的事实来评估知识记忆，但在我们的数据源上重新构建数据集。给定 Wikidata5M中的三元组，我们将其转换为具有关系特定模板的句子，并让 LLM 完成其尾部实体。此外，我们想探索 LLM 的知识记忆是否与训练频率相关。我们根据 Wikidata5M 中的实体在维基百科中出现的频率对其进行排序，从而创建了两个测试集：

高频知识。从出现频率最高的前 2,000 个实体中随机选择 100 个实体，并用它们的三元组构建数据；
低频知识。同样，我们从频率最低的实体中随机选择 100 个实体，并构建一个更具挑战性的评估集；
记忆测试（ETM）。

从不断发展的数据源中的文章中，我们对其中显示的知识三元组进行注释，仅保留 100 个无法从以前可用的语料库中推断出来的三元组。知识理解任务：知识理解是通过 LLM 能否理解文本中各种类型的知识来评估的，包括概念、实体、实体关系、事件和事件关系。（2-1/2-2/2-3）概念探测采用 COPEN的三个探测任务（CSJ、CPJ、CiC）来评估模型对概念知识的理解。（2-4）命名实体识别利用 FewNERD 数据集，我们从中在我们的评估中随机选择 300 个示例。（2-5）关系提取从具有挑战性的文档级关系提取数据集 DocRED 中选择未公开的测试集。（2-6）事件检测采用精细注释的 MAVEN数据集的未公开测试集。（2-7）事件关系提取涉及来自 MAVEN-ERE的未公开测试集，该集包含 113k 个事件之间的共指、时间、因果和子事件关系的示例。（2-8）不断发展的理解测试 (ETU)。对于不断发展的数据中的文章，我们进行实体识别，并遵循与 DocRED 相同的关系模式来注释一个全新的测试集，该测试集包含来自 50 篇文章的 100 个关系实例。值得注意的是，除了进化测试外，其他数据集均基于维基百科文本。

知识应用任务：知识应用能力通过 LLM 的多跳推理能力进行评估，特别是对世界知识的推理能力。这与最近的几项研究不同，这些研究涵盖了更一般的推理，例如数学推理。因此，KoLA 中包含以下基于维基百科的渐进式数据集：（3-1）HotpotQA是一个问答数据集，涉及大量由母语人士编写的自然语言问题，比较检查机器的能力、多跳推理等。然而，HotpotQA 的一个限制是有些问题可以通过捷径来回答。为了解决这个问题，(3-2) 2WikiMultihopQA确保问题不能通过手动设计的模板的捷径来解决，但它们的问题在语言上缺乏自然性。此外，(3-3) MuSiQue数据集同时解决了捷径和自然性的挑战。它的问题由现有数据集中的简单问题组成，最多有四跳的复杂推理。 (3-4) KQA Pro是一个大规模数据集，其问题相对复杂，允许对 LLM 的多跳推理进行更细粒度的评估，包括逻辑运算和修饰符。 (3-5) KoRC 是一个需要文本和知识库联合推理的数据集。它与上述四个数据集不同，因为它需要隐式而不是显式推理。 (3-6) 应用能力演进测试 (ETA) 采用与 KoRC 相同的构建方法，在演进数据中的 350 个带注释知识三元组和 40 篇文章上生成 49 个问题。

知识创造任务：作为布鲁姆认知分类法的最高级别，如何评估知识创造是一个长期存在的开放且具有挑战性的问题。知识创造能力在开放式生成任务中显而易见。传统的文本生成评估指标基于模型生成内容与人工编写参考文献之间的文本相似性，这不仅关注知识创造能力，还涵盖其他技能，例如文本风格和流畅性。理想情况下，应该聘请人类评估者来唯一评估模型生成的内容是否包含新颖且合理的知识。然而，手动评估各种开放领域知识是劳动密集型的、昂贵的，并且缺乏可扩展性。受基于知识的文本生成任务的启发，KoLA 提出了一种可行的自动评估协议，该协议专门将模型生成的知识与人类参考中的知识进行对比。

在这里插入图片描述
表 1：KoLA 中的任务（第 1 季和第 2 季）。粗体指标用于计算标准化分数。独家任务意味着他们的测试集是新开发的或由原作者赞助的，未公开披露。测试集和池对应于每个季节使用的测试实例和总体可用实例。

首先，我们将生成范围限制为叙事文本，例如历史、新闻和小说。这是因为在生成叙事文本中创建的知识明确侧重于设想合理的后续事件并以合理的方式表达它们。如图 2 所示，然后我们对参考文本进行人工注释，以获得参考细粒度事件知识。注释的事件启用了专用的自对比指标（如下所述），该指标强调了生成内容中事件知识的质量。与包含许多其他因素的传统文本生成指标相比，这种方法可以有效地评估知识创造能力。我们对维基百科文本和不断发展的文章进行了注释，构建了两个评估数据集：（4-1）百科知识创造，基于 MAVEN 选择的叙述性维基百科文章和（4-2）开放知识创造，基于未见过的新闻和小说，作为创造的不断发展的测试（ETC）。表 1 列出了每个选定任务的特征和统计数据。有关注释过程和任务演示的更多详细信息分别在附录 D 中介绍。

对比评估系统我们的对比评估系统包括基于相对模型比较的标准化总分和独特的自我对比指标，可以自动评估知识幻觉并增强生成评估。标准化总体评分。由于不同 KoLA 任务的指标无法比较且敏感度不同，经验较少的受众无法轻松地比较和解释结果，这在最近的 LLM 基准测试中也很普遍，例如 Big-Bench-Hard和 MMLU。因此，我们建议引入标准化分数以增强 KoLA 结果的适用性。具体而言，给定任务集 D = {di} |D| i=1 和评估模型集 M = {mj} |M| j=1，我们首先为每个任务选择最具代表性的指标，从而让我们计算模型 mj 在任务 di 上的性能得分 xij。然后可以计算标准化分数 z 为： zij = xij − µ  xi1, ..., xi|M|  σ  xi1, ..., xi|M| 
其中µ（·）和σ（·）表示平均值和标准差。随后，我们应用Min-Max缩放将所有结果调整到[0,100]的范围，进一步增强了跨任务分数的相关性和可读性。最终得分表示为： sij = 100 zij − min（z）max（z）− min（z），（2）
其中函数max（z）和min（z）对应于所有zij分数的最大值和最小值。

自我对比指标。评估知识创造不仅要评估生成质量，更要评估生成的知识是否真实合理，即避免知识幻觉。我们为此开发了一个独特的自我对比指标，该指标通过对比由同一模型生成的两个完成来定义。如图2所示，C表示给定的先前上下文，R表示人类书写的后续补全，K表示R中标注的事件知识。每个模型需要生成两个补全：（a）仅给定上下文C，生成一个补全T，这需要模型自由想象可能发生的事件，并且可能产生知识幻觉，如图2中的谈判事件；（b）给定上下文C和预知K，生成另一个补全Tk，这只需要模型合理地组合给定的事件。如果T和Tk表现出很强的相似性，则意味着该模型可以创建高度合理的事件，这些事件与人类提供的参考一致，并且知识幻觉较少。这种自我对比方法的显著优势在于，由于两个补全都是由同一个模型生成的，因此写作风格等知识创造之外的因素很可能保持一致，从而将其对评估的影响降至最低。此外，为了更全面地涵盖知识创造能力，防止模型忽略知识创造能力而导致评估崩溃过程（b）提示中的知识K，整体知识创造分数定义为多个对比的混合：在这里插入图片描述

其中 avg (·) 表示平均值。函数 ∂ (·) 用来计算两个文本的相似度，在本文中我们采用了广泛使用的 Rouge-L (F1)。∂ (T, R) 是传统的文本生成指标。虽然它涵盖了广泛的知识创造能力（涵盖事件之外的多种知识类型），但它也包括与知识创造无关的不良因素，例如写作风格和文本流畅性。因此，我们添加了 ∂ (T, Tk) 和 ∂ (Tk, R) 来强调创造与事件相关的知识的能力，这对于生成叙述文本非常重要。∂ (T, Tk) 是新提出的自对比指标，关注生成的事件知识是否合理。 ∂ (Tk, R) 的灵感来自基于知识的生成任务。它反映了创造有关事件之间关系的知识的能力，这是将给定事件合理地组合成故事所必需的。例如，图 2 中的 Tk 意味着西蒙·德·蒙福特的死亡导致叛军在战斗中失败，而这是一种与 R 中的叙述不一致的幻觉因果关系。

在这里插入图片描述

实验评估

在 KoLA 的前两季中，我们评估了两类 LLM：（1）开源模型，包括 GPT-J (6B) 、GPT-JT (6B) 、GPT-NeoX (20B)、BLOOM (7B) 、T0++ (11B)、LLaMa (65B) 、GLM (130B)、UL2 (20B) 、FLAN-T5 (11B) 、FLAN-UL2 (20B) 、Alpaca (7B)、ChatGLM (6B)、Dolly-v2 (12B)、RedPajamaInstruct (7B)、Tulu (7B)、Vicuna (13B)、 a2-chat (7B)、ChatGLM2-32k (6B)、Internlm-chat-8k (7B)；（2）API 服务：GPT-3 curie v1 (6.7B)6 和 davinci v1 (175B)、InstructGPT curie v1 (6.7B*)6 和 davinci v2 (175B*)、ChatGLM (130B)、Cohere-command (52.4B)7 、J2-Jumbo-Instruct (178B*) 、GPT3.5-turbo6 和 GPT-4 。（*）表示大小尚未确认。整体表现。我们在表 2 和表 3 中报告了所有模型的标准化分数，其中“—”表示由于输入长于模型上下文长度而导致结果不可用。所有结果均来自第二季（2023 年 9 月），与第一季（2023 年 6 月，附录 F）排名的比较显示在“排名”栏中。尽管不同层级的排名总体一致，但我们仍然可以从结果中得到一些有趣的发现：

对于没有对齐或指令调优的模型（例如 GPT-J 和 BLOOM），知识记忆（KM）的排名与模型大小之间存在很强的相关性（Spearman 系数为 0.79）。这表明模型大小对记忆见过的知识有明显的正向影响，这证实了先前研究中的一些观点。
经过指令调优后的模型，高级能力与模型大小的相关性显著提升（以 KA 为例，其 Spearman 系数从 0.02 变为 0.53）。这表明对齐释放了 LLM 在高级能力方面的更大潜力。然而，大小与低级 KM 性能之间的相关性呈现下降趋势（0.34），这可能证明了广泛讨论的“对齐税”。
与 GPT4 和 GPT-3.5-turbo 等商业闭源模型相比，开源模型的性能仍然存在明显差距。开源模型的平均 z 分数为 -0.29，低于整体平均水平。将第二季的结果与第一季的结果进行比较，大多数开源模型的排名都有所下降。这表明从长远来看，静态开源模型难以与可能持续更新的商业模型保持相当的水平。开源社区应倡导更强有力的合作，以支持对未来研究目的至关重要的更大、最新的模型。

设计分析。我们进一步讨论了 KoLA 设计因素带来的几个新观察结果。
在这里插入图片描述
首先，各个层级内的任务之间具有较高的相关性，表明LLM的能力确实具有某种内在的层级结构。知识记忆（KM）层级与其他层级表现出显著的相关性，尤其是与理解层级中的概念任务（2-1、2-2、2-3）以及应用层级中的推理任务（3-1至3-5），这表明这些高级任务严重依赖于知识记忆。此外，为了对LLM在高阶认知任务中的能力进行更分离的评估，仍然建议设计与预训练语料库表现出较大差异的任务，以减轻来自数据的潜在偏差。

其次，模型在演化和非演化任务上的结果显示出明显的线性相关性，表明我们构建的演化数据集的可靠性。已知数据和演化数据之间的性能差距在较浅的层次（KM、KU）中更为明显，而在较高级任务（KA、KC）中则不那么明显。独立同分布和分布外演化设置之间的性能收敛表明模型的泛化能力可能得到增强，可能支持关于模型获得了超越简单数据拟合的发散和推理能力的观点。第三，我们对知识创建任务中的结果进行手动注释（附录 F.1 了解有关注释设置和结果的更多详细信息），其中每个注释者都需要阅读上下文 C 和预知 K，然后从两个方面评估模型的输出 T：整体质量和忠实度。评分按 1（最差评分）到 5（最好评分）的等级分配。我们计算了手动注释结果与§2.3中介绍的指标之间的Spearman相关性。我们发现，自我对比指标∂（T，Tk）与创作内容的忠实度之间存在显着的相关性（0.61），而从等式（3）中的整体指标x中删除自我对比指标会导致与人类判断的整体质量的相关性显着下降32％。我们相信这个指标可以为未来对生成能力评估的探索做出贡献。

在这里插入图片描述

结论和未来工作

本文介绍了KoLA，这是一个精心设计的面向知识的LLM评估基准。我们设计了一个认知能力分类法以获得更有用的诊断结果，采用已知和不断发展的数据源以提高公平性，并采用对比指标以提高适用性。在 KoLA 的第一季中，我们评估了 28 个公开和商业的 LLM，并得到了一些有趣的发现，例如更大的模型往往会记住更多的知识，而对齐可以释放更高级能力的潜力，但可能会损害低级知识的记忆等。在未来，我们将继续举办更多季的 KoLA，以促进知识型 LLM 的发展，帮助选择开发知识相关应用程序的主干，并通过不断发展的评估跟踪 LLM 的发展。KoLA 将始终欢迎开放的参与和贡献。

道德声明

在本节中，我们讨论了有关数据构建的道德考虑因素，并将更广泛的影响留到附录 A.2。 (1) 数据风险控制。对于收集到的演化数据源，我们过滤掉了不适合向普通观众展示的内容，相关细节在附录C.1中列出。七位作者手动检查了所有新构建的演化测试数据集以及KoLA中包含的所有先前发布的数据集的随机样本。没有发现任何个人身份信息、歧视性内容、露骨、暴力或冒犯性内容。（2）注释者待遇和同意。

我们聘请众包注释者来注释演化测试数据并进行人工评估以创造知识。详细信息在附录C.2中介绍。我们与所有注释者签订了工作合同，并根据双方商定的工资标准和工作时间提供报酬。所有就业安排均符合当地法规。（3）版权。我们已知的数据来源是维基百科，它在CC BY-SA 3.08下获得许可，允许免费用于研究。对于KoLA中包含的所有先前发布的数据集。我们的演化数据源包含公开新闻和小说。新闻数据来自《卫报》9，我们严格遵守条款和条件10 访问这些数据。小说数据来自同人小说档案网站 Archive of Our Own (AO3)。尽管 AO3 数据已在之前的一些作品中使用，但其版权状态仍存在一些模糊性。我们认为使用 AO3 是恰当的，因为：

AO3 对数据抓取持开放态度12。
我们承诺 KoLA 将始终保持非商业和非营利性，并且我们不会重新分发抓取的数据（我们的平台仅提供样本）。

根据 AO3 的运营商 Organization for Transformative Works 提供的描述13，此类使用在美国版权法的背景下属于合理使用。可重复性声明为了提高可重复性，我们在附录 C 中提供了有关数据收集的详细信息，在附录 D 中提供了所有使用的任务说明，并在附录 E 中提供了实验细节。所有任务的评估源代码和数据样本都作为补充材料提交。未来几季的结果将在 Github 和我们的平台网站上展示。