TTT架构超越Transformer，ML模型替代RNN隐藏状态！

news2025/7/13 17:31:09

01 算法原理

02 骨干架构

03 实验结果

一种崭新的大语言模型（LLM）架构有望取代当前主导 AI 领域的 Transformer，并在性能上超越 Mamba。

论文地址：https://arxiv.org/abs/2407.04620

本周一，关于 Test-Time Training（TTT）的研究论文在人工智能社区引发了广泛讨论。

该研究由斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta 的研究人员共同完成。他们设计了一个新架构 TTT，利用机器学习模型取代了 RNN 的隐藏状态。

通过输入 token 的梯度下降，该模型能够压缩上下文。

研究作者之一 Karan Dalal 表示，他相信这将彻底改变语言模型的方法。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

TTT 层直接取代了 Attention，并通过表达性记忆实现了线性复杂性架构，使模型能够在上下文中训练数百万甚至数十亿个 token 的 LLM。

在对比 125M 到 1.3B 参数规模的大模型时，研究发现 TTT-Linear 和 TTT-MLP 均能匹敌或超越最强大的 Transformers 和 Mamba 架构方法。

TTT 层作为一种新的信息压缩和模型记忆机制，可以直接替代 Transformer 中的自注意力层。

这不仅在理论上具有线性复杂度，而且在实际运行时间上也更快。

在论文上线后，作者公开了代码与 jax 以供人们训练和测试：https://github.com/test-time-training/ttt-lm-jax

还有 PyTorch 推理代码：https://github.com/test-time-training/ttt-lm-pytorch

01 算法原理

长上下文的挑战是 RNN 层本质上所固有的：与自注意力机制不同，RNN 层必须将上下文压缩为固定大小的隐藏状态，更新规则需要识别数千甚至数百万个 token 之间的底层结构和关系。

研究团队首先观察到，自监督学习可以将大量训练集压缩为 LLM 等模型的权重，而这些模型通常对其训练数据之间的语义联系有深刻理解。

受此启发，团队设计了一类新的序列建模层，其中隐藏状态是一个模型，更新规则是自监督学习的一个步骤。

由于更新测试序列上的隐藏状态过程相当于在测试时训练模型，因此这种新层被称为测试时训练（Test-Time Training, TTT）层。

团队引入了两个简单的实例：TTT-Linear 和 TTT-MLP，其中隐藏状态分别是线性模型和两层 MLP。TTT 层可以集成到任何网络架构中并进行端到端优化，类似于 RNN 层和自注意力。

为了让 TTT 层更加高效，该研究采取了一些改进措施：

首先，类似于在常规训练期间对小批量序列采取 gradient step 以获得更好的并行性，该研究在 TTT 期间使用小批量 token。

其次，该研究为每个 TTT 小批量内的操作开发了一种双重形式，以更好地利用现代 GPU 和 TPU。双重形式的输出与简单实现等效，但训练速度快了 5 倍以上。

如图 3 所示，TTT-Linear 在 8k 上下文中比 Transformer 更快，与 Mamba 相当。

研究团队认为：所有序列建模层都可以看作将历史上下文存储到隐藏状态中，如图 4 所示。

例如，RNN 层（如 LSTM、RWKV 和 Mamba 层）将上下文压缩为跨时间的固定大小状态。这种压缩会产生两种后果：

一方面，将输入标记 x_t 映射到输出 token z_t 是高效的，因为每个 token 的更新规则和输出规则都需要恒定的时间。

另一方面，RNN 层在长上下文中的性能受限于其隐藏状态 s_t 的表现力。

自注意力也可以从上述角度来看待，只不过它的隐藏状态（通常称为 Key-Value 缓存）是一个随 t 线性增长的列表。

它的更新规则是将当前的 KV 元组追加到该列表中，而输出规则则扫描 t 前的所有元组，以形成注意力矩阵。

隐藏状态明确存储了所有历史上下文，无需压缩，这使得自注意力在长上下文方面比 RNN 层更具表现力。

然而，扫描这个线性增长的隐藏状态所需的时间也是线性增长的。为了保持长上下文的高效和表现力，研究者需要一种更好的压缩启发式。

具体来说，需要将成千上万或上百万的 token 压缩到一个隐藏状态中，从而有效捕捉它们的底层结构和关系。这听起来似乎有些高难度，但实际上很多人都对这种启发式非常熟悉。

02 骨干架构

将任何 RNN 层集成到更大架构中的最简洁方法是直接替换 Transformer 中的自注意力，在这里称为骨干。

然而，现有的 RNN（如 Mamba 和 Griffin 等）都使用了与 Transformer 不同的骨干层。最值得注意的是，它们的骨干层在 RNN 层之前包含了时间卷积，这可能有助于收集跨时间的局部信息。

在对 Mamba 主干网进行试验后，研究者发现它也能改善 TTT 层的困惑度，因此将其纳入了建议方法中，详见图 16。

03 实验结果

在实验中，研究人员将 TTT-Linear 和 TTT-MLP 与两种基线模型——Transformer 和 Mamba 进行了比较。

从图 11 中可以得出以下结论：

2k 上下文：TTT-Linear (M)、Mamba 和 Transformer 的性能相当，因为它们的曲线大多重叠。在 FLOP 预算较大的情况下，TTT-MLP (M) 的性能略显不足。尽管 TTT-MLP 在各种模型大小下的困惑度比 TTT-Linear 更优，但额外的 FLOPs 成本抵消了这一优势。

8k 上下文：TTT-Linear (M) 和 TTT-MLP (M) 的表现显著优于 Mamba，这与 2k 上下文中的观察结果形成鲜明对比。即使是使用 Transformer 主干网络的 TTT-MLP (T) 在 1.3B 参数规模时也略胜 Mamba。一项显著发现是，随着上下文长度的增加，TTT 层相对于 Mamba 层的优势也在扩大。

当上下文长度达到 8k 时，Transformer 在每种模型尺寸下的困惑度表现依旧良好，但由于 FLOPs 成本的增加，其竞争力已明显下降。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard