深入探讨指令调优的局限性

摘要

指令调优（Instruction Tuning, IT）是通过使用指令-响应对训练大型语言模型（LLMs）的过程，已成为将基础预训练LLMs转化为开放领域对话代理的主要方法。尽管IT取得了显著的成功和广泛的应用，但其局限性和不足之处仍未得到充分探索。本文通过严格的实验和对LLMs在IT过程中经历的变化进行深入分析，揭示了IT的多种局限性。特别是，我们展示了以下几点：（1）IT未能增强LLMs的知识或技能。LoRA微调仅限于学习响应的启动和风格标记，而全参数微调则导致知识退化。（2）从知识渊博的来源中复制响应模式会导致响应质量下降。（3）全参数微调通过不准确地从IT数据集中概念上相似的实例中借用标记来生成响应，从而增加了幻觉现象。（4）文献中提出的改进IT的流行方法并未在简单LoRA微调模型上带来性能提升。我们的研究结果表明，仅基于预训练知识的生成响应始终优于从IT中学习任何形式新知识的模型在开源数据集上的响应。我们希望本文揭示的见解和挑战能够激发未来相关方向的研究。

1. 引言

通过下一个标记预测目标在巨大规模上预训练的大型语言模型（LLMs）在其参数中隐式压缩了世界知识（Zhao et al., 2023）。这些模型学习了通用表示，可以与所需的响应特征对齐（Zhang et al., 2023a）。近年来，提出了多种对齐LLMs的方法，其中指令调优（IT）（Wei et al., 2022）和基于人类反馈的强化学习（RLHF）（Bai et al., 2022）最为流行。IT是通过指令-响应对微调LLM的过程，使其能够遵循或完成人类指令的任务。另一方面，RLHF持续调整IT后的LLM，以进一步与人类偏好对齐。尽管RLHF由于需要大量人类偏好数据而成本高昂（Bai et al., 2022），但使用标准监督损失的IT已被证明是一种更普遍的对齐技术（Zhou et al., 2023）。基于IT的对齐显著提升了LLMs的性能，解锁了令人印象深刻的能力（Bubeck et al., 2023），表明微调是构建和改进基于LLM的对话代理的关键。在本文的其余部分，我们将IT后的模型称为微调模型，并将IT过程称为微调。

早期的IT工作集中在使用流行的自然语言处理（NLP）任务数据集微调和评估LLMs，其中数据集实例被表述为自然语言指令。然而，仅使用传统NLP任务和指标来评估IT对LLM的影响，无法全面评估其多样化的能力，如推理和知识共享，这些能力通常是开放领域对话代理所面临的多样化任务所要求的（Wang et al., 2023）。自ChatGPT（OpenAI, 2023）取得巨大成功以来，最近的工作旨在使用开放领域指令遵循数据评估和改进IT（Zheng et al., 2023）。尽管IT在性能和泛化到未见过的NLP任务方面取得了显著改进，但其局限性和不足之处很少被探索。我们认为这主要归因于三个原因：（1）缺乏全面评估开放领域指令遵循能力的评估指标。（2）缺乏对基础预训练LLM在IT过程中经历的精确变化的清晰理解。（3）强大的半开源聊天模型（不公开其IT数据的微调LLMs）的迅速崛起鼓励人们仅将这些模型作为工具使用，导致其开发中的几个关键要素未得到充分探索。

主要贡献。本文中，我们调查并揭示了IT的几个局限性。为此，我们通过实验研究了基础预训练模型在IT后的变化，使用了各种开源IT数据集、LLMs和训练范式。此外，为了评估，我们结合了专家人工评估、基于GPT-4的多方面评估和标记分布分析（Lin et al., 2023）。我们的研究明确关注评估IT在开发开放领域对话代理（也常称为聊天模型）中的有效性，并限于单轮交互。我们的广泛结果揭示了以下几点：

IT不是知识增强器。与同期工作（Gudibande et al., 2023）类似，我们首先发现IT在当前开源规模下并不充当知识增强器。为了深入挖掘，我们比较了基础LLMs及其IT版本之间的标记分布（详见第3节），发现LoRA（Hu et al., 2021）仅教授响应启动并从预训练知识中提取大部分响应，导致最符合事实的响应。另一方面，全参数微调导致知识退化和整体响应质量下降。
模式复制通常会损害性能。我们首先展示了使用LoRA和全参数微调的模型在模式复制方面学习方式的不同。前者仅学习风格标记，而后者使模型更深入地适应新训练数据的具体细节。接下来，我们展示了尽管模式复制有时具有一些优势，如详细和全面的回答，但大多数情况下，它会损害响应的事实正确性。最后，我们提出了一个简单的解决方案来克服这一点。
全微调通过增加幻觉的可能性导致知识退化。这些幻觉是从IT数据集中借用的标记。我们展示了当模型在响应中产生幻觉或输出错误标记时，这些标记很可能来自IT数据集中概念上相似的实例。我们进一步从因果分析的角度研究了这一点。与LoRA微调相比，这种效应在全参数微调训练的模型中更为普遍。
文献中提出的各种改进IT的方法并未提升模型性能。我们比较了几种方法，如NEFTune（Jain et al., 2023）和数据集过滤（Chen et al., 2023），并展示了尽管这些方法在全微调模型上有所改进，但LoRA微调模型在所有方法中表现最佳。因此，这些方法并未促进知识进步，利用预训练知识的模型仍然更优。

2. 实验设置

LLMs。在我们的分析范围内，我们实验了5种不同类型的LLMs，分别是LLaMa-2 7B（Touvron et al., 2023）、LLaMa-2 13B、LLaMa-2 70B、Mistral-v0.1 7B（Jiang et al., 2023）和Phi-1.5 1.3B（Li et al., 2023b）。我们仅使用这些模型的基础预训练版本（而非聊天变体），并自行对其进行IT微调。由于计算限制，我们仅在部分实验中使用LLaMa-2 70B。

微调数据集。为了进行IT微调，我们实验了各种合成和人工编写的IT数据集。对于合成数据集，我们使用Alpaca 52k，其中包含开放领域的指令-响应对，通过使用少量样本的初始种子数据集提示Chat-GPT构建（Taori et al., 2023），以及来自医疗领域的MedInstruct 52k，以类似方式构建（Zhang et al., 2023b）。对于人工编写的数据集，我们使用LIMA 1K（Zhou et al., 2023）和databricks-dolly 15k（Conover et al., 2023）。最后，我们还使用了Tulu-V2-Mix 326k（Ivison et al., 2023），这是一个由各种开源数据集组合而成的数据集。

评估数据集。我们的实验局限于评估LLMs在指令遵循能力上的开放式和自由形式生成，因为LLMs在多项选择题（MCQ）上表现不佳（Zheng et al., 2024a）。为了评估，我们主要使用just-eval-instruct 1k（Lin et al., 2023），这是一个由各种开源IT评估集组合而成的数据集，并标记了各种任务类型和主题（统计数据见附录C）。这一选择是基于其多样化和简洁的特性，便于我们进行深入的专家人工评估。我们仅使用前800个实例，并移除最后200个实例，因为安全对齐超出了本文的范围。对于在MedInstruct 52k上微调的模型，除非另有说明，否则我们在MedInstruct-test 216上评估模型。我们不评估Open LLM Leaderboard（Beeching et al., 2023），因为它不符合我们的标准。

微调范式。为了进行IT微调，我们采用LoRA微调（LFT）或（标准）全参数微调（SFT）。LFT通过使用低秩矩阵近似模型的权重矩阵来减少需要微调的参数数量，从而使微调过程更快、更高效。另一方面，SFT类似于通用经验风险最小化（ERM），通过调整模型的大部分或全部权重来工作。

图1. IT后的标记分布变化。我们使用第3节中定义的3个指标比较了基础预训练模型及其IT版本之间的标记分布。我们展示了（1）总体而言，LFT的标记分布变化较小，表明与预训练知识高度一致。（2）SFT的变化比LFT大得多。（3）LFT不受IT数据集规模的影响。

评估。为了评估我们的微调模型，我们进行了专家人工评估和基于GPT-4 Turbo（gpt-4-1106-preview）的自动评估。最近的研究表明，使用ChatGPT和GPT-4对LLMs的输出进行评分和评估与人工评估高度一致，并具有降低成本的额外优势（Liu et al., 2023; Li et al., 2023a; Chan et al., 2023; Xu et al., 2023b; Zhou et al., 2023）。我们借鉴了Lin et al.（2023）的可解释和多方面评估框架，该框架提示GPT-4根据五个方面（有用性、清晰度、事实性、深度和吸引力）为LLM对指令的响应分配1到5的分数，并提供每个分数的解释。提示可在附录A中找到。

命名约定。我们主要遵循“模型_数据集_训练范式”的命名约定。例如，在Alpaca 52k上使用SFT训练的LLaMa-2 7B将被命名为LLaMa-2 7B-SFT_Alpaca 52k。

训练和评估超参数。所有模型均在分布式环境中训练3个周期，学习率为5e-5，有效批量大小为32（Taori et al., 2023）。对于LFT，我们使用标准秩8（Hu et al., 2021），因为我们没有发现通过减少（2,4）或增加（16,32）秩对性能有显著变化。Zhang et al.（2024）也表明，扩展秩对LFT无效。在所有实验中，我们采用贪婪解码（即零温度）进行生成。

注意：本文仅呈现LLaMa-2系列的结果，其他LLMs的微调结果和已开源的微调LLMs的结果见第D.3节。我们的所有发现也适用于其他LLMs。此外，不应将IT（及其在本文中的发现）与一般微调混淆。虽然IT旨在使模型对特定响应特征对齐，但LLMs可能会针对提升其各种能力或知识进行微调。然而，这可能需要具有与本文所用IT数据集不同特征的微调数据集。

3. IT（目前）不是知识增强器

概述。本节探讨IT在当前开源规模下是否能作为知识增强器。首先，我们展示了基础预训练LLM在LFT和SFT微调下的不同变化性质，并表明尽管LFT生成的响应与预训练知识高度一致，但SFT的响应显著偏离，表明新知识的获取。随后，我们展示了这种新知识往往导致响应质量下降，而主要依赖预训练知识通常会产生更符合事实和有用的响应。

发现1. LFT响应与原始预训练知识高度一致。SFT则不然。为了研究微调模型与其基础预训练模型之间的差异，我们采用了Lin et al.（2023）提出的标记分布分析方法。具体来说，对于给定的指令-响应对，指令 $\left\{ {{i}_{1},{i}_{2},\cdots }\right\}$ 首先输入对齐（或微调）模型，通过贪婪解码获得其响应 $\left\{ {r}_{1}\right.$ , $\left. {{r}_{2},\cdots }\right\}$ 。接下来，对于响应中的每个位置 $t$ ，定义该位置的“上下文”为 ${x}_{t} =$ $\left\{ {{r}_{1},\cdots ,{r}_{t - 1}}\right\}$ 。然后将此“上下文”输入基础模型，以获得其在位置 $t$ 预测下一个标记的概率分布 ${\mathrm{P}}_{\text{base }}$ 。对齐模型在位置 $t$ 获得的标记概率分布记为 ${\mathrm{P}}_{\text{align }}$ 。我们随后计算三个指标：（1） ${\mathrm{P}}_{\text{base }}$ 和 ${\mathrm{P}}_{\text{align }}$ 之间的KL散度，（2）基础概率： ${\mathrm{P}}_{\text{base }}$ 中具有最大 ${\mathrm{P}}_{\text{align }}$ 值的标记在 $t$ 处的概率，（3）基础秩： ${\mathrm{P}}_{\text{base }}$ 中具有最大 ${\mathrm{P}}_{\text{align }}$ 值的标记在 $t$ 处的秩。用基础秩表示为 $\eta$ ，未偏移、边际和偏移标记分别定义为 $\left( {\eta = 1}\right) ,\left( {1 < \eta \leq 3}\right)$ 和 $\left( {\eta > 3}\right)$ 。图1展示了这三个指标的变化。这些指标在所有响应标记上取平均，并根据用于微调的IT数据集的不同大小绘制。我们总结如下发现：（1）使用LFT进行微调导致标记分布的偏移最小，即给定一个先前的“上下文”，使用LFT微调的模型通常输出非微调基础模型会输出的标记。这进一步表明LFT生成的响应与模型的预训练知识一致。（2）IT数据集规模的扩展对LFT观察到的标记分布偏移程度影响甚微。（3）相比之下，SFT导致标记分布的显著偏移，这表明其响应与预训练知识有较大偏离。（4）较大的模型在LFT和SFT中均显示出较小的分布偏移。

图2. 数据集扩展对LFT无效

图2. 数据集扩展对LFT无效。我们展示了使用LFT时，当IT数据集扩展到其原始大小的 $52× \times$ 或 $326× \times$ 时，模型的性能并未显著提升。

发现2. LFT仅作为响应启动器，而大部分答案来自预训练知识。在图4中，我们分析了微调模型与其基础模型之间的KL散度。该分析集中在响应中每个句子的前 $5\%$ 和后续 ${95}\%$ 标记的散度，平均所有响应中所有句子的所有标记。我们的观察结果表明，LFT在初始 $5\%$ 标记中显示出较高的KL散度，随后急剧下降。相比之下，SFT的KL散度下降不明显。这意味着LFT主要学习句子或事实的启动，在响应的初始部分引入更多新标记。另一方面，SFT在整个句子范围内显示出更显著且均匀的分布偏移。图7底部展示了一些示例。我们的发现提供了更细粒度和深入的理解，Lin et al.（2023）表明IT主要影响响应的早期标记。此外，我们展示了Lin et al.（2023）讨论的基于RLHF的IT方法在行为上更类似于LFT而非SFT，并且在分布偏移方面与两者不同。我们随后研究了SFT中这些由分布偏移引起的新标记是否转化为新知识，并最终提升响应质量。此外，我们强调将LFT和基于RLHF的IT进行比较以突出后者的确切优势是一个有趣的研究方向。

图3. 预训练知识优于SFT学习的新知识

图3. 预训练知识优于SFT学习的新知识。我们展示了在事实性和有用性方面，仅使用1000个样本的LFT在开放领域（just-eval-instruct ${}_{\mathbf{{lk}}}$ ）和知识密集型领域（MedInstruct-test 216）上均优于使用 $326× \times$ 和 $52× \times$ 更多样本的SFT。尽管LFT模型的响应与预训练知识最为一致，但SFT模型的响应输出了从IT中学习的新知识。

图4. 微调模型与仅预训练模型之间响应标记概率分布的KL散度分析

图4. 微调模型与仅预训练模型之间响应标记概率分布的KL散度分析。我们对响应中每个句子的前 $5\%$ 和剩余 ${95}\%$ 标记分别绘制。LFT主要学习响应中每个句子的启动，显示出较高的分布偏移，从而在响应的初始部分引入更多新标记。SFT在整个响应范围内显示出更显著且均匀的分布偏移。

发现3. 扩展对LFT无效。由于LFT主要学习响应启动，我们接下来探讨数据集扩展在提升响应质量方面对LFT是否有效。在图2中，我们比较了使用LFT微调的模型在不同IT数据集及其低资源对应数据集上的性能。我们的发现表明，将IT数据集扩展到其原始大小的 $52× \times$ 甚至 $326× \times$ ，并未显著影响我们在自动评估设置中的五个指标，包括事实性。这一趋势在包括医学等知识密集型领域中是一致的。这些结果表明，LFT在微调阶段并未学习任何新知识或技能，预训练知识是其有效性的主要贡献者。我们的发现表明，少量IT样本足以使LFT学习有效的响应启动。

图5. 风格模仿影响响应质量

图5. 风格模仿影响响应质量。指令3、4和5展示了模型最初准确响应，随后生成幻觉内容的示例。怀疑原因是风格模仿，即模型在缺乏足够知识时，为了生成更长、更详细的响应而编造信息。这一假设通过比较同一IT数据集简化版本微调的另一模型的响应得到进一步确认。指令3和4中的幻觉并非凭空捏造，而是从IT数据集中提取，这一主题在第5节中进行了更全面的探讨。此外，指令1展示了模型在具备足够知识时生成详细答案的能力，而指令2展示了仅模仿风格如何改变推理任务响应的性质。每个响应还附有简化响应（Simplified Res.），这是同一IT数据集简化响应版本微调的模型的响应（详见第4节）。注意简化响应通过提供简短响应而较少产生幻觉。

发现4. 预训练知识（目前）占主导地位。

我们的发现表明，通过LFT的IT主要促进响应启动而非增强新知识，大部分响应基于预训练知识。相比之下，SFT中观察到的显著标记分布偏移表明在微调过程中学习了新知识。为了评估这种新知识是否转化为提升的响应质量，我们进行了以下评估，如图3所示：（1）我们比较了在仅使用 $1\mathrm{k}$ 样本的IT数据集上使用LFT微调的不同大小模型的性能，以及在更大 $326× \times$ 数据集上使用SFT微调的相同模型在just-eval-instruct ${}_{\mathbf{{lk}}}$ 上的性能。根据之前的发现，LFT模型完全依赖预训练知识，而SFT模型最大限度地从IT数据集中学习。结果显示，LFT模型在事实性和有用性方面表现更优，表明即使广泛的IT也不会显著引入有用或事实性的知识到模型中。（2）在更极端的情况下，我们比较了在开放领域指令-响应对上训练的相同LFT模型与在MedInstruct ${}_{{52}\mathrm{k}}$ 上训练的领域特定模型在MedInstruct-test ${}_{216}$ 上的性能。值得注意的是，即使在这种情况下，LFT模型表现更好。表13显示，LLaMa-2 7B-chat模型（META开源的已IT版本）在所有我们微调的模型中表现最佳。我们将其归因于RLHF或用于微调的更好、更大的IT数据集。

关键要点：LFT即使在扩展规模下，也主要依赖预训练知识而未获取新信息。相比之下，SFT的显著标记分布偏移表明新知识的获取。然而，基于预训练知识的LFT响应始终优于基于SFT新学习信息的响应，表明SFT往往降低整体知识质量。

4. 模式复制（通常）损害性能

在我们探索SFT过程中显著标记分布偏移的后果时，我们更深入地研究了模式复制的概念。我们将模式复制定义为LLM学习模仿IT数据集中响应特征的情况。我们将模式复制细分为两种不同类型：（1）语调模仿：在这种情况下，生成的响应倾向于使用IT数据集中的标记。这些可以是风格标记或普通标记。（2）风格模仿：响应反映了IT数据集中存在的更广泛的风格特征。例如，如果IT数据包含全面、结构良好且冗长的答案，LLM在其响应中也可能表现出类似的特征。研究表明，LLM可以学习这些特征（Gudibande et al., 2023; Lin et al., 2023）。我们展示了IT后的标记分布偏移，特别是使用偏离预训练知识的标记，表明模型对IT数据集具体特征的适应程度。此外，SFT和风格模仿导致模型在其响应中不准确地包含IT数据集中的标记，从而负面影响响应质量。

发现1. LFT和SFT以不同方式学习语调模仿。如第3节所示，LFT主要学习响应启动，大部分响应来自预训练知识。另一方面，SFT使用了大量新标记。这促使我们研究LFT是否学习语调模仿以及使用两种训练范式微调的模型在语调模仿上的差异。图12a和12b展示了LLaMa-2 7B-SFT_Alpaca 52k 和 LLaMa-2 7B-LFT_Alpaca 52k 在偏移和边际位置的常见标记分布。分析偏移位置的标记有助于我们理解IT如何影响模型输出与未进行IT时不同的标记。我们清楚地看到，对于LFT，偏移主要发生在风格标记（如“通常”）和响应启动标记（如“然而”）上。另一方面，对于SFT，偏移发生在各种标记上。为了进一步研究这些标记的来源，我们在IT数据集中进行了字符串搜索。令我们惊讶的是，我们发现约81.2%以偏移标记开头的单词和66.7%以边际标记开头的单词来自IT数据集本身。这表明，使用SFT时，模型在响应生成中增加了从IT数据集中借用标记的现象。我们可能将其归因于对IT数据集的过拟合。第5节的进一步研究表明，这些标记常常不准确地被借用，导致幻觉。

发现2. 风格模仿可能损害响应质量。我们现在研究风格模仿是否会影响响应质量。我们的动机是发现IT数据集中响应长度与微调LLM在我们评估集上输出响应长度之间存在正相关关系（详细结果见表11）。为此，我们使用LIMA IT数据集，该数据集包含来自社区问答论坛的响应，以其全面性、专业性和长度著称（参见表11）。当LLaMa使用SFT在LIMA数据集上微调时，即使预训练知识可能不足，它也会生成冗长且详细的响应。这往往导致幻觉，因为模型努力生成扩展答案。图5展示了这一现象的示例，每个框展示了一个来自LLaMa-2 7B-SFT_LIMA 1K的响应及其更简洁的版本。我们总结了风格模仿的发现：（1）如指令1所示，风格模仿有时可以提高响应质量而不导致幻觉，特别是在模型对主题有足够知识时。（2）如指令2所示，仅风格模仿本身可以改变开放式推理指令响应的性质。（3）模型最初提供事实信息，但在缺乏足够主题知识时，转向幻觉以延长响应或事实。这些幻觉可能包括随机生成的事实或从IT数据集中提取的内容，如前所述并在第5节进一步讨论。

图6. 人工研究比较在LIMA 和LIMA-Simple 上微调的模型的响应

图6. 人工研究比较在LIMA ${}_{1\mathrm{\;K}}$ 和LIMA-Simple ${}_{1\mathrm{k}}$ 上微调的模型的响应。1. 两个响应都准确，但前者更详细，更受青睐。2. 两个响应都准确，但信息不同。3. 两个响应完全不准确。4. 前者试图延长响应而产生幻觉事实，而后者没有。5. 前者在核心事实上产生幻觉，而后者没有。定性示例见附录B。

提出的解决方案：简化IT数据集中的响应。减轻风格模仿导致的幻觉问题的一个可能解决方案是使用LFT而非SFT，因为LFT倾向于仅学习风格元素。然而，如第3节的发现3所示，LFT不能有效扩展，而SFT在更大规模上可能作为知识增强器（从图3中的LLaMa-2 7B_LFT_Tulu-V2-Mix 326k可以看出）。我们提出了一种结合LFT和SFT优势的方法。鉴于LLM拥有充足的预训练知识用于准确响应生成（第3节的发现4），但在模式复制模式下难以进行全面回答，我们假设在简洁但准确的响应的IT数据集上进行SFT可以减少幻觉。我们使用GPT-4简化 ${\text{LIMA}}_{1\mathrm{\;K}}$ ，通过去除冗余信息创建简洁响应，并称之为LIMA-Simple ${}_{\mathbf{{lk}}}$ 。该模型与原始LLaMa-2 7B-LFT_LIMA ${}_{1\mathrm{\;K}}$ 在幻觉倾向方面进行比较，如图5所示。结果显示，幻觉显著减少，且简洁性提高。表13中的定量结果（第49-50行）确认，尽管简化模型可能缺乏深度，但在事实性和有用性方面优于原始模型。我们另外展示了两个特殊情况：（1）指令1展示了一个模型实际上拥有足够知识进行全面回答并提供更深入事实响应的情况。（2）指令2展示了从不同类型数据集采用模式复制导致对单一开放式推理指令产生不同响应的情况。图6展示了由四位专家人工评估员进行的人工研究结果，他们手动比较了LLaMa-2 7B-SFT_LIMA 1K和LLaMa-2 7B-SFT_LIMA-Simple 1k的响应，针对5个预定义类别。我们展示了简化IT数据集中的响应显著减少了幻觉的可能性。定量结果见表13。

图7. 幻觉及其来源的示例

图7. 幻觉及其来源的示例。我们展示了使用SFT在不同IT数据集上微调的LLM在just-eval-instruct ${}_{\mathbf{{lk}}}$ 两个实例上的响应，并展示了幻觉源于响应与IT数据集中实例之间的错误因果关系。使用SFT训练的模型倾向于错误地从描述相似概念的IT数据集实例中借用标记。左：LLaMa-2 ${}_{78}$ 在databricks-dolly ${}_{{15}\mathrm{k}}$ 上微调的响应（1）虽然事实性但无用，因为它描述了观赏北极光的地方而非其成因。答案直接从IT数据集中借用。Alpaca ${}_{{52}\mathrm{k}}$ 中没有与北极光相关的实例。右：两个响应各有2个事实幻觉，我们展示了每个幻觉源于IT数据集中的不同实例。偏移和边际标记（详见第3节）表明幻觉是在IT过程中学习的。注意使用LFT微调的模型提供的事实答案源于预训练知识。

关键要点：模式复制增加了模型幻觉。IT数据集中响应的全面性和深度应根据模型现有的实际知识进行表述。此外，模式复制使模型从IT数据集中借用标记用于响应。

5. 幻觉的因果分析

早前，我们观察到使用SFT微调的模型在幻觉中生成的错误标记通常可以追溯到IT数据集本身。然而，这引出了两个问题：这种幻觉是否特定于风格模仿，以及错误标记是从IT数据集中随机借用还是因果驱动的？为了回答这些问题，我们通过因果分析的视角对幻觉进行细致分析。

发现1. SFT增加了模型的幻觉。这些幻觉源于训练数据集与响应之间的错误因果关系。图7展示了3个幻觉示例，这些幻觉不发生在模式复制模式中，即模型甚至在简洁响应中也会产生幻觉。与图5中描述的幻觉场景不同，图7中的指令2展示了基础预训练模型在IT后尽管拥有正确知识仍产生幻觉的示例。与先前发现类似，这些标记源自IT数据集。

接下来，我们建立了一个正式框架，对这些幻觉进行详细分析。我们请四位专家人工评估员通过标记响应中与指令无关或无用的事实片段来识别幻觉。简单的字符串搜索显示，平均约 ${72}\%$ 的标记片段存在于IT数据集中，其中约 ${89}\%$ 的标记可以分类为偏移或边际标记。接下来，为了确定这些幻觉短语是否偶然从任何IT实例中借用，我们从因果分析的角度审视这些幻觉，将幻觉视为效应，将IT数据集中错误借用短语的实例的特定属性或特征视为原因。

四位专家人工评估员手动审查了IT数据集中所有出现幻觉短语的实例。令人惊讶的是，他们发现模型倾向于使用描述类似概念的IT数据集中实例的错误借用标记进行响应。例如，图7中指令2的响应①寻求关于英语中最长和最短单词的信息，部分内容源自一个不相关的关于最长篮球锦标赛的指令和另一个关于最小原子的指令。同样，同一指令的响应2从讨论“语言”相关概念的指令中借用内容。最后，指令2的响应1展示了微调模型如何从IT数据集中与同一抽象概念“关于北极光”相关的实例生成改写响应，但与输入指令无关，而是与IT数据集中的实例相关。我们还展示了使用LFT微调的模型的响应，并显示与预训练知识对齐的响应倾向于输出事实正确且有用的答案。表8显示，专家人工评估员发现使用SFT微调的模型在1000个随机选择的幻觉短语中平均有 ${87}\%$ 与IT数据集因果相关。对于500个短语，LFT的这一数字仅为 ${13.9}\%$ 。

发现2. 其他发现。我们进一步报告了关于模型幻觉的发现：（1）检测幻觉背后的因果关系具有挑战性，无论是通过人工努力还是自动化方法。仅依赖语义或词汇分析往往无法追踪影响幻觉响应或其片段的确切IT数据集实例。（2）量化概念相似性对导致幻觉的贡献程度很困难。我们的分析显示，评估集实例与专家人工评估员识别为幻觉内容来源的IT数据集实例之间的平均语义相似度得分为0.418（详见附录D）。此外，我们观察到幻觉响应中的关键词出现在其来源IT数据集实例中的概率仅为 ${61.6}\%$ （详见附录D）。此外，我们想强调的是，基于SFT的IT后，LLM倾向于使用IT数据集中的标记产生幻觉，这并不取决于IT数据集的质量，我们在分析中使用的所有IT数据集中都观察到了这一现象。

定性示例和案例研究。附录B展示了幻觉的更多示例，包括反事实分析和案例研究，我们还展示了模型甚至在编码和总结等程序性任务中也会产生类似的幻觉。

图8. 人工研究LIMA 和databricks-dolly 上训练的LLaMa-2 在just-eval-instruct 上的幻觉

图8. 人工研究LIMA ${}_{1\mathrm{\;K}}$ 和databricks-dolly ${}_{{15}\mathrm{k}}$ 上训练的LLaMa-2 ${}_{7\mathrm{\;B}}$ 在just-eval-instruct ${}_{1\mathrm{k}}$ 上的幻觉。人工评估员发现，使用SFT模型在响应中产生的幻觉短语平均有 ${87}\%$ 的概率源于IT数据集中的因果关系。这种现象在LFT模型中较少见。

图9. 文献中提出的各种改进IT方法的比较

图9. 文献中提出的各种改进IT方法的比较。我们展示了使用简单LFT训练的模型在所有指标和任务上均优于这些方法。

6. 改进IT的方法效果不佳

文献中提出了几种增强IT的方法，以提高模型响应质量。在本节中，我们研究了一些常见方法，包括使用数据集过滤的AlpaGa-sus（Chen et al., 2023）、增加指令复杂性的Wiz-ardLM（Xu et al., 2023a）和在微调过程中向嵌入向量添加噪声的NEFTune（Jain et al., 2023）。图9比较了使用这些方法（如原始论文所建议）进行SFT微调的模型、在类似设置下微调的模型以及主要使用预训练知识生成响应的LFT训练模型的性能。AlpaGasus和WizardLM是Alpaca数据集的改进版本，对于NEFTune，我们也使用Alpaca。正如我们所见，尽管所有方法在Alpaca上的表现优于SFT（如原始论文所建议），但LFT模型在所有情况下均优于这些模型，无论是按单个指标还是任务类型平均。这表明预训练知识仍然占主导地位，这些方法带来的确切好处需要更深入的研究。我们假设性能下降主要是由模型增加的从IT数据集中借用标记产生幻觉的倾向引起的，我们敦促社区在解决这个问题之前，深入研究这些技巧是否能提高响应质量。超出本节范围，表13（第45-50行）还显示，LFT性能仅在这些方法下略有提升。

7. 相关工作

尽管大量研究引入了新的IT数据集、模型和增强方法（Zhang et al., 2023a），但很少有研究探讨IT的局限性。同期工作Gudibande et al.（2023）表明，从强大的专有模型合成的IT数据集仅导致模仿其风格，而非其知识。同样，Lin et al.（2023）表明对齐仅教授风格，并提出上下文学习作为IT的替代方法，优于多个微调模型。这可以归因于我们对LFT的发现，即模型使用预训练知识响应，不会像SFT那样导致知识退化。这支持了Zhou et al.（2023）提出的浅层对齐假设，即模型在预训练中获得知识，对齐塑造用户交互中使用的格式。最后，Kung & Peng（2023）表明，在简化的任务定义或误导性示例上训练的模型在原始指令上训练的模型表现相当。与所有这些工作相比，我们研究了这些局限性的确切原因，从新颖的角度调查了模式复制和幻觉，并强调了仅利用预训练知识的LFT的有效性。

8. 结论

本文揭示了IT的各种失败模式，包括LFT无法扩展、SFT和模式复制增加幻觉，以及LFT模型优于文献中提出的各种方法。作为未来工作的一部分，我们希望提出一个正式框架，用于检测和缓解由SFT引起的幻觉，并研究可能超越预训练知识提升模型性能的新颖IT方法。

9. 局限性和未来工作

我们的工作有明显的局限性，包括（1）我们的分析仅关注开放领域指令遵循，我们承认针对特定领域或任务的微调可能使模型获得新技能和知识。（2）我们的分析仅限于单模态语言IT。（3）我们没有研究更高级对齐方法如DPO（Rafailov et al., 2023）和RLHF的影响，并将其留作未来工作。（4）我们没有探索检索增强生成，这使知识提取与模型解耦。（5）最后，本文的发现仅限于通用IT数据集（包含各种通用日常指令-响应对的数据集）和针对特定任务改进的IT数据集（例如，为模仿逐步思考以改进数学推理而定制的IT数据集）可能不符合我们的发现。

10. 可重复性

本文评估的所有LLMs均使用LLaMA-Factory（Zheng et al., 2024b）进行训练。对于评估，我们在附录A中提供了所有提示。我们想强调的是，本文中数字的确切复制需要结合gpt-4-1106-preview使用提示，这取决于OpenAI的可用性。这与大量使用LLM作为自由形式LLM响应评估的法官的先前工作类似。然而，如果使用其他版本，大多数趋势和核心发现仍将保持。标记分布分析的代码直接借用自Lin et al.（2023）开源的仓库。如有任何问题，我们请求读者联系相应的作者。