Tracing the thoughts of a large language model
这篇论文通过电路追踪方法(Circuit Tracing)揭示了大型语言模型Claude 3.5 Haiku的内部机制,其核心原理可归纳为以下几个方面:
1. 方法论核心:归因图与替换模型
- 替换模型(Replacement Model)
使用跨层转码器(CLT)将原始模型的神经元替换为稀疏激活的“特征”(features)。这些特征通常代表可解释的概念(如“Texas”“capital”等),从而构建更易理解的计算图。 - 归因图(Attribution Graphs)
通过分析特征间的因果关系,构建从输入到输出的计算路径,揭示模型内部的中间推理步骤。归因图需通过干预实验(如抑制特定特征)验证其真实性。