揭秘Transformer的无限可能,Meta研究发现Transformer其实是多状态RNN
引言:重新定义Transformer的视角
在自然语言处理(NLP)的领域,Transformer架构自2017年提出以来,已经成为了一种主流的模型,它在多种任务中取得了前所未有的成功。与此同时,循环神经网络(RNN)这一曾经的主流架构逐渐被边缘化。然而,本文的研究提出了一个颠覆性的观点:即使Transformer在概念上与RNN有所不同,但在某些情况下,仅包含解码器的Transformer实际上可以被视为一种无限多状态的RNN(MSRNN)——一种具有无限隐藏状态大小的RNN变体。
通过将预训练的Transformer转换为有限的MSRNN,我们可以通过固定其隐藏状态的大小来实现这一点。这种转换不仅揭示了Transformer在实践中常常表现为RNN的行为,而且还为缓解其最大的计算瓶颈之一——缓存大小提供了可能的解决方案。本研究提出了一种名为TOVA的新策略,它通过仅基于注意力分数来选择保留哪些令牌,相比于现有的缓存压缩技术,TOVA更为简单。实验结果表明,TOVA在多个长期任务中的表现超越了所有其他基线策略,同时与完整(无限)模型几乎持平,有时仅使用原始缓存大小的1/8。
我们的研究不仅重新定义了Transformer的理解,还为减少推理过程中的内存消耗提供了实际的方法,有望在硬件资源受限的情况下推广Transformer模型的使用。
本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。
「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。
传送门:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
论文标题、机构、论文链接和项目地址(如有)
论文标题:Transformers are Multi-State RNNs
机构:The Hebrew University of Jerusalem, FAIR, AI at Meta
论文解读链接:
https://www.saibomaliang.com/generate?session_id=210b194f-c5c4-4a1c-8d81-8ddae744aa4a
项目地址:未提供具体链接,但论文中提到公开发布了相关代码。
Transformer与RNN的联系:一种新的视角
1. Transformer的无限多状态RNN(MSRNN)理论
在对自然语言处理(NLP)模型的发展历程进行回顾时,我们发现Transformer模型(Vaswani et al., 2017)已经取代了循环神经网络(RNNs; Elman, 1990)成为了NLP领域的首选架构。尽管Transformer与RNN在概念上被认为有着显著的不同——Transformer能够直接访问序列中的每个标记,而RNN则通过维护先前输入的递归状态来处理信息——我们在本工作中展示了,仅包含解码器的Transformer实际上可以被概念化为无限多状态的RNN(MSRNN),这是一种具有无限隐藏状态大小的RNN变体。随着每个解码步骤中先前标记数量的增加,Transformer对应于具有无限状态数的MSRNN。
2. 将Transformer转化为有限MSRNN的方法
我们进一步展示了,通过限制每一步处理的标记数量,预训练的Transformer可以被压缩成有限的MSRNN。我们观察到,一些现有的Transformer缓存压缩技术可以被视为这种转换策略,并引入了一种新的策略,即TOVA,这种策略相比于这些策略更为简单。我们的实验表明,TOVA在多个长期任务上的表现超过了所有其他基线策略,同时与完整的(无限)模型几乎持平,在某些情况下仅使用原始缓存大小的1/8。
提出TOVA策略:简化的有限MSRNN压缩方法
1. TOVA策略的工作原理
TOVA策略基于一个简单的原则:仅根据它们的注意力分数来选择保留在多状态中的标记。在每个解码步骤中,我们考虑当前查询对所有当前多状态中的标记以及当前标记的softmax归一化注意力分数。得分最低的标记将被丢弃。这种策略相比于上述策略做出了更少的假设:它既不固定最近的标记窗口,也不偏好序列中早期的标记。我们的分析表明,尽管TOVA策略存在轻微的近期偏见,但大量的近期标记被丢弃,而一些初始标记在数千个解码步骤中被保留,表明它们对于成功解码确实很重要。
2. TOVA策略与现有方法的对比
我们的实验结果表明,TOVA策略在长期任务的评估中超越了所有现有策略,并且在多数情况下,使用1/8至1/4的多状态大小就能与无限MSRNN模型(即常规预训练的Transformer)的性能相媲美。此外,我们的分析还发现,并非所有最近的标记都是重要的,有些可以安全地丢弃。我们还强调了在序列中保留第一个标记的重要性,并突出了其他一些可能令人惊讶的重要标记,例如所有格名词。我们的结果揭示了Transformer解码器LLMs的行为;虽然它们被训练为无限MSRNNs,但它们在实践中通常表现为有限MSRNNs。我们的结果还具有实际的好处——我们提出的方法在推理过程中大幅度减少了内存消耗,导致LLM缓存大小减少了多达88%。
实验设置:评估压缩策略的性能
1. 长范围评估的三种类型
在评估压缩策略的性能时,我们采用了三种长范围评估类型:语言建模、长范围理解和长文本生成。语言建模任务使用PG-19测试集,该测试集包含平均长度为70k令牌的100本完整书籍。长范围理解任务则采用了ZeroSCROLLS基准测试中的两个测试集,分别关注长范围摘要和长范围问答。长文本生成任务则通过提示促使模型生成长篇故事,并使用GPT-4作为评估器,比较不同种子生成的故事质量。
2. 选用的Transformer LLM家族
实验中选用了三个最先进的Transformer LLM家族:LLaMA-2、Mistral和Yi,每个家族提供了约7B参数的版本进行评估。对于语言建模任务,使用了模型的原始版本。对于长范围理解任务,还考虑了三个经过微调的版本:LLaMA-2-chat、Mistral-Instruct和neural-chat,这些版本在特定指令任务中表现出色。最后,对于文本生成任务,使用了专门为故事生成微调的MythoLogic版本。
实验结果:TOVA策略的表现
1. 语言建模任务的结果
在语言建模任务中,TOVA策略在所有多状态大小中均优于其他策略,并且在使用1/8至1/4的上下文大小时,与完整上下文的顶线模型的结果相当(图3)。这表明TOVA策略在保留关键信息的同时,大幅减少了所需的上下文长度。
2. 长范围理解任务的结果
在长范围理解任务中,TOVA策略在所有多状态大小中一致地优于其他基线策略。在SQuALITY数据集上,使用1/8至1/4的完整上下文大小,TOVA的结果与顶线模型相差不到一个点(图4)。在QASPER基准测试上,尽管TOVA策略需要一半的完整多状态大小才能与顶线模型的结果相当,但它仍然优于其他基线策略(图5)。
3. 长文本生成任务的结果
在长文本生成任务中,限制多状态大小会导致生成的文本更短。然而,TOVA策略在多状态大小为1024时,能够保持与完整模型相同的平均故事长度。通过GPT-4对生成的故事进行评估,TOVA策略在与顶线模型的比较中获得了平均胜率(图6)。尽管评估长篇故事的质量具有挑战性,但TOVA策略在生成长文本方面的表现仍然与无限MSRNN模型相当。
综上所述,TOVA策略在各项任务中表现出色,特别是在使用远小于原始缓存大小的情况下,仍能与完整模型相媲美,显示出其在压缩Transformer LLM缓存方面的巨大潜力。
分析:哪些Token更重要?
在深入探讨Transformer模型的行为时,了解哪些Token在模型中扮演关键角色是至关重要的。本章节将分析保留和丢弃Token的趋势,以及特定Token的重要性。
1. 保留和丢弃Token的趋势
研究表明,并非所有最近的Token都是重要的,有些可以安全地从记忆中丢弃。此外,研究还显示了序列中第一个Token的重要性,并强调了其他一些意外重要的Token,例如所有格名词。这些发现揭示了Transformer解码器LLMs的行为;虽然它们被训练为无限MSRNNs,但在实践中它们通常表现为有限MSRNNs。这些结果还具有实际的好处,它们提出的方法大幅度减少了推理过程中的内存消耗,导致LLM缓存大小减少了多达88%。
2. 特定Token的重要性
通过分析TOVA策略保留的Token,我们发现,尽管大多数压缩策略(如Sec. 3.3中提到的)保留了最近的Token,TOVA策略却显示出了明显的窗口趋势,表明了最近Token对解码的重要性。然而,我们也观察到许多较旧的Token被保留下来。实际上,只有73-76%的Token是最近的,其余的是较旧的。这表明,尽管最近的Token很重要,但远远不够。重要的是,与之前手工制作的最近窗口不同,我们的方法自动识别了它。
此外,通过将每个Token映射到其词性标记(POS-tag),我们发现标点符号和其他特殊符号往往被保留。然而,我们还发现了其他倾向于保留更长时间的Token,例如所有格名词(POS)和专有名词(NNPS)。研究这些Token的作用是一个令人兴奋的研究方向,我们将在未来的工作中探讨。
讨论:Transformer作为有限MSRNN的行为
Transformer模型通常被视为与RNNs不同的架构,因为它们可以直接访问序列中的每个Token,而不是像RNNs那样维护前一个输入的重复状态。然而,最近的研究表明,仅解码器的Transformer实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs(MSRNNs)。通过限制每一步处理的Token数量,Transformer可以被压缩成有限的MSRNNs。
本文介绍的TOVA策略,通过仅基于它们的注意力分数来选择保留哪些Token,表现出比现有策略更优越的性能。此外,我们的结果表明,在许多情况下,使用TOVA策略的有限MSRNNs在性能上与相应的无限MSRNNs相当,同时只需要1/8–1/4的多状态大小。值得注意的是,尽管Transformer没有被训练为这样,它们通常的功能类似于有限MSRNNs。
这些发现不仅揭示了Transformer的内部工作机制,以及它们与RNNs的联系,而且还具有实际价值——它们可以显著减少Transformer LLMs的缓存大小,从而可能增加它们被具有有限硬件访问的用户采用的可能性。
相关工作:Transformer、RNN和有限KV缓存
在自然语言处理(NLP)领域,Transformer模型自2017年由Vaswani等人提出以来,已经取代了循环神经网络(Recurrent Neural Networks, RNNs)成为了主流架构。与RNNs不同,Transformer模型能够直接访问序列中的每个token,而不是像RNNs那样维护一个反复出现的先前输入的状态。然而,最近的研究表明,仅包含解码器的Transformer(decoder-only transformers)实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs(infinite multi-state RNNs, MSRNNs)。
1. Transformer与RNN的关系
在本项工作中,我们展示了解码器仅包含Transformer的自回归性与RNNs的核心原则——保留从一个步骤到下一个步骤的状态——是一致的。基于这一观察,我们正式将仅包含解码器的Transformer重新定义为MSRNNs的一种形式。重要的是,随着每个解码步骤之前的tokens数量的增长,Transformers对应于具有无限数量状态的MSRNNs。我们进一步展示了通过限制每个步骤处理的tokens数量,Transformers可以被压缩成有限的MSRNNs。
2. 有限KV缓存
在先前的工作中,已经提出了几种压缩策略,这些策略有效地限制了预训练基于Transformer的大型语言模型(LLMs)的容量。这些压缩策略通常被称为KV缓存技术,例如H2O策略和Window+i策略,它们通过聚合整个序列的注意力分数并保留得分最高的tokens来动态选择非窗口tokens。我们的定义将这些工作框定为将预训练的Transformers从无限转换为有限的MSRNNs。
结论:Transformer作为MSRNN的实践意义
我们的研究结果表明,尽管Transformer模型在理论上被训练为无限的MSRNNs,但在实践中它们通常表现为有限的MSRNNs。我们提出的方法TOVA(Token Omission Via Attention)在多个长期任务中的表现超过了所有现有策略,并且与完整的(无限)模型相比,性能几乎相同,而在某些情况下只使用了原始缓存大小的1/8。
我们的分析还发现,并非所有最近的tokens都需要保留在内存中,有些可以安全地丢弃。此外,我们还展示了保留序列中的第一个token的重要性,并强调了其他一些可能令人惊讶的重要tokens,如所有格名词。这些发现不仅揭示了Transformer解码器LLMs的行为,并且还具有实际价值——我们提出的方法大幅度减少了推理过程中的内存消耗,导致LLM缓存大小减少了多达88%。
总的来说,我们的工作不仅阐明了Transformers的内部工作原理及其与RNNs的联系,还具有实际应用价值,可以显著减少Transformer LLMs的内存占用,从而可能增加其在硬件资源有限的用户中的采用率。
本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。
传送门:
赛博马良——懂流量密码的新媒体AI员工定制平台