生成式人工智能会导致人工智能崩溃吗

news2026/3/1 12:20:50

况可能很快就会发生变化。

从定义上讲，LLM 需要大量数据，而且所使用的数据集越来越大。根据缩放定律[2]，要提高性能，必须同时增加参数数量和训练标记数量（后者被认为是最重要的因素）。

这些数据集包含人类产生的数据，但一些研究表明，这是一种有限的资源。人类产生的数据规模也不及我们，因为我们通过 LLM 培训增加了数据消耗。一项最近发表的研究认为，我们无法支持未来十年的扩展 [3]。

LLM模式崩溃

图片来源：[3]

随着 ChatGPT 和开源模型的出现，人工智能模型生成的文本量正在不断增长。例如，最近发表的一项研究 [1] 表明，随着低成本机器翻译 (MT) 的出现，网络上的内容通常可以使用 MT 算法快速翻译成多种语言。

机器生成的多向并行翻译不仅占据了可用机器翻译的资源较少的语言的网页翻译内容总量，还构成了这些语言网页内容总量的很大一部分。 —来源

然而，这会导致几个问题：

这些翻译的内容存在一些偏见，并且主题分布不同（质量低下，并且表明它们只是为了产生广告收入）。
翻译的语言越多，平均质量越低

LLM模式崩溃

图片来源：[1]

人工智能产生的文本数量在各个领域（互联网、科学文章、学校学生）都在增加，而且越来越难以识别 [4–6]。如果未来的模型是用从网络上抓取的文本进行训练的，那么它们将不可避免地用前辈产生的数据进行训练。

当使用 AI 生成的文本训练模型时会发生什么？如果大多数文本都是由 ChatGPT 生成的，会发生什么？

根据《自然》杂志最近发表的一篇文章，这会导致模型崩溃 [7]。模型崩溃是一个退化过程，其性能下降，产生错误并变得无用。从统计学的角度来看，这分为两个阶段：

早期模型崩溃，模型开始丢失有关分布尾部的信息。
后期模型崩溃，模型收敛到与原始分布完全不同的分布，因此不再产生任何有用的东西。

之前已经证明，模型无法在自训练循环中进行训练（在使用真实数据进行第一次迭代后，模型将使用自生成数据进行训练）。使用模型本身生成的数据会导致系统崩溃。

LLM模式崩溃

模型崩塌。图片改编自：[8]

如上所示，模型首先开始偏离训练数据，忘记原始数据和代表性不足的类别的元素（早期崩溃），然后无法产生有意义的数据（晚期崩溃）。

因此，研究表明，不断从生成的数据（或被生成的数据毒害的数据）中学习会导致模型崩溃。因此，一些作者警告说，互联网上生成的数据爆炸式增长可能会导致崩溃：

模型崩溃警告称，生成模型的民主化访问可能会污染训练未来生成模型迭代所需的数据。——来源，[9]

然而，到目前为止，我们既没有用文本模型对问题进行严格的描述，也没有发现导致这种崩溃的原因。在本研究中 [7]，当存在 AI 生成的数据时，三种错误会导致崩溃：

统计近似误差。初始数据是有限的，但是一旦训练数据趋于无穷大，数据就会分散，因此在进一步训练的每一步中，信息都会开始丢失。
函数表达力误差。Transformer 具有表达力限制，因此在近似初始分布时会出现一些误差。
函数近似误差。这种误差来自于学习过程，作为随机梯度下降的结构偏差。

上述每个因素都会导致模型崩溃，并且其影响会随着代代推移而不断加剧。

在本文中，作者 [7] 采用预先训练的模型并对数据集进行微调。这是 LLM 的常见用途（尤其是因为从头开始训练模型的成本太高）。作者测试的是如果这个微调数据集是由另一个微调模型生成的，会发生什么。作者从 HuggingFace 中获取一个模型，使用 wikitext2 数据集对其进行微调，在测试集上对其进行评估，然后使用它来生成数据，从而生成一个人工数据集。然后在人工数据集上对模型进行迭代训练。

LLM模式崩溃

图片来自[7]，许可证：此处

通过对模型进行 5 个 epoch 的训练，我们发现模型的性能逐渐下降，生成的样本中逐渐出现了一条长尾，这些样本是其他模型生成样本引入的误差的产物。

LLM模式崩溃

图片来自[7]，许可证：此处

作者指出，通过保留原始数据集中一定比例的数据，可以减少这种退化。在生成的数据上训练的模型可以学习一些原始任务，但错误率会更高（困惑度增加表明）。对于作者来说，随着困惑度较低的样本在几代中积累，模型开始崩溃（因此产生复合效应）。继续循环，这种影响将导致模型最终崩溃。

LLM模式崩溃

图片来自[7]，许可证：此处

在检查下，模型开始生成原始模型以更高可能性生成的那些示例。这种效果与以下事实相一致：在训练过程中，如果不重复（从那些较稀有的知识开始），模型就会丢失部分知识。在模型看到一个示例后，该示例的知识会最大化，但随后该知识就会逐渐消失 [10]。因此，继续训练模型会首先开始丢失稀有知识，并且只产生具有最大可能性的示例。

LLM模式崩溃