[AI OpenAI] 提取GPT-4中的概念

news2025/4/18 9:05:29

总结：

研究人员采用新的可扩展方法，将GPT-4的内部表示分解为1600万个通常可解释的模式，这些模式被称为“特征”，目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器，研究人员能够识别与特定概念相关的特征，例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性，但仍然存在挑战，包括特征的准确解释、自编码器对原始模型行为的完整捕捉，以及对模型如何计算和使用这些特征的理解。

我们使用新的可扩展方法将GPT-4的内部表示分解为1600万个通常可解释的模式。

稀疏自编码器封面

目前，我们还不理解如何理解语言模型内部的神经活动。今天，我们分享了改进的方法来找到大量“特征”——我们希望这些活动模式对人类来说是可解释的。我们的方法比现有工作更具可扩展性，我们使用它们在GPT-4中找到了1600万个特征。我们与研究社区分享了论文（打开新窗口）、代码（打开新窗口）和特征可视化（打开新窗口），以促进进一步的探索。

解释神经网络的挑战

与大多数人类创造物不同，我们并不真正理解神经网络的内部工作原理。例如，工程师可以根据组件的规格直接设计、评估和修复汽车，确保安全和性能。然而，神经网络并不是直接设计的；我们设计的是训练它们的算法。产生的网络并不被很好理解，也不能轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理AI安全。

为了理解和解释神经网络，我们首先需要找到神经计算的有用构建块。不幸的是，语言模型内部的神经激活以不可预测的模式激活，似乎同时代表了许多概念。它们也密集地激活，意味着每个激活在每个输入上总是被触发。但是现实世界的概念是非常稀疏的——在任何给定的上下文中，只有一小部分概念是相关的。这促使了稀疏自编码器的使用，这是一种方法，用于识别神经网络中对产生任何给定输出重要的少数“特征”，类似于一个人在推理情况时可能想到的一小组概念。它们的特征显示出稀疏的激活模式，自然地与人类易于理解的概念对齐，即使没有直接的解释性激励。

博客稀疏自编码器神经光

然而，训练稀疏自编码器仍然存在严重挑战。大型语言模型代表了大量概念，我们的自编码器可能需要相应地巨大，以接近前沿模型的概念全覆盖。学习大量稀疏特征是具有挑战性的，过去的工作并没有显示出良好的可扩展性。

我们的研究进展：大规模自编码器训练

我们开发了新的最先进的方法论，允许我们将稀疏自编码器扩展到前沿AI模型上的数千万个特征。我们发现我们的方法论展示了平滑和可预测的扩展，比先前技术有更好的规模回报。我们还引入了几个新的特征质量评估指标。

我们使用我们的配方在GPT-2小型和GPT-4激活上训练了各种自编码器，包括GPT-4上的1600万特征自编码器。为了检查特征的解释性，我们通过展示特征激活的文档来可视化给定特征。这里是我们找到的一些可解释特征：

…

限制

我们对可解释性最终能够提高模型的可信度和可控性感到兴奋。然而，这仍然是一项早期工作，存在许多限制：

与之前的工作一样，许多发现的特征仍然难以解释，许多特征在没有明显模式的情况下激活，或者表现出与它们似乎通常编码的概念无关的虚假激活。此外，我们没有好的方法来检查解释的有效性。
稀疏自编码器并没有捕捉到原始模型的所有行为。目前，将GPT-4的激活通过稀疏自编码器处理得到的结果相当于一个计算量减少约10倍的训练模型。为了全面映射前沿大型语言模型中的概念，我们可能需要扩展到数十亿甚至数万亿个特征，即使使用我们改进的扩展技术，这也是一项挑战。
稀疏自编码器可以在模型的某一点找到特征，但这只是解释模型的一步。需要更多的工作来理解模型是如何计算这些特征的，以及这些特征是如何在模型的其余部分中被使用的。

展望未来，并开放我们的研究

尽管稀疏自编码器研究令人兴奋，但前面还有一条漫长的道路和许多未解决的挑战。短期内，我们希望我们发现的特征能够实际用于监控和引导语言模型的行为，并计划在我们前沿模型中测试这一点。最终，我们希望有一天，可解释性能够为我们提供新的方式来推理模型的安全性和鲁棒性，并通过提供关于它们行为的强大保证，显著增加我们对强大AI模型的信任。

今天，我们分享了一篇论文（打开新窗口），详细介绍了我们的实验和方法，我们希望这将使研究人员更容易大规模训练自编码器。我们正在发布一套完整的GPT-2小型自编码器，以及使用它们的代码（打开新窗口），和特征可视化工具（打开新窗口），以了解GPT-2和GPT-4特征可能对应的内容。