近期,各方大佬在注意力机制上又“打起来了”。首先登场的是顶流DeepSeek,新论文梁文锋署名,提出了一种新的注意力机制NSA。同天,Kimi杨植麟署名的新注意力架构MoBA开源。紧接着,华为诺亚提出高效选择注意力架构ESA。
这神仙打架的场面太震撼(论文解析在下文),同时也证明注意力机制依然是2025最受追捧的研究热点之一,仍处于快速发展期,深度学习搞创新少不了。
这方向现有主流方法包括稀疏注意力优化(NSA和MoBA都属这类),多尺度与跨层融合、硬件与算法协同优化(如NSA的Triton内核)、注意力机制变体扩展。未来搞创新就需要结合跨学科理论和实际场景需求,可考虑动态稀疏性的深度探索、认知科学与类脑机制结合、可解释性与可控性增强等。
本文整理了11种新型注意力机制,以及40+即插即用注意力模块,方便各位复现找灵感改模型,需要的速领。
全部论文+开源代码需要的同学看文末
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
方法:论文研究了长上下文建模中稀疏注意力机制的设计,提出了一种名为NSA的原生可训练稀疏注意力机制,通过动态分层稀疏策略和硬件优化实现高效计算,在保留模型性能的同时减少了预训练开销。
创新点:
-
NSA通过动态分层稀疏策略结合粗粒度的token压缩和细粒度的token选择,提升了模型的全局上下文感知能力和局部精度。
-
通过算术强度平衡的算法设计和现代硬件的实现优化,NSA在64k长度序列上的解码、前向传播和后向传播过程中,显著提高了计算速度。
-
NSA采用空间连续块的选择策略,基于硬件效率和注意力分数的固有分布模式进行设计。
MoBA: Mixture of Block Attention for Long-Context LLMs
方法:本文介绍了一种新型注意力机制MoBA,通过将上下文分块并采用动态门控机制,有效降低了大规模语言模型处理长序列任务的计算复杂性,同时保持模型性能,显著提高了计算效率,并可无缝集成到现有模型中,成为增强长上下文处理能力的实用解决方案。
创新点:
-
MoBA 引入了一种新的注意力机制,将专家混合(MoE)的原则应用于注意力机制,而非传统的前馈网络层。
-
MoBA 架构中,作者探索了将上下文分割为更细粒度块的优势。
-
MoBA 的设计允许在全注意力与稀疏注意力之间进行平滑转换。在模型初始化阶段,每个注意力层可以选择使用全注意力或 MoBA,并在训练中根据需要动态调整。
Unshackling Context Length: An Efficient Selective Attention Approach through Query-Key Compression
方法:本文提出了一种高效的令牌级选择性注意力方法ESA,通过在每个步骤中选择固定数量的重要令牌来扩展大型语言模型的上下文长度,无需增量训练模型参数,显著提高了在长序列任务中的推理效率。
创新点:
-
ESA 提出了一种新颖的令牌级选择性注意机制,通过在令牌级别选择最重要的令牌来计算注意力,从而有效地扩展上下文长度。
-
通过对查询和关键向量进行降维,ESA 降低了令牌选择的计算复杂度。
-
引入邻近影响距离,通过选择具有语义连续性的令牌,改进了某些任务中直接选择排名靠前令牌导致的性能下降问题。
Demystify mamba in vision: A linear attention perspective
方法:论文提出了一种新型的注意力机制——MILA。这种机制结合了Mamba模型和线性注意力的优点,旨在解决传统线性注意力在视觉任务中表现不佳的问题,同时保持高效的计算复杂度和并行化能力。
创新点:
-
忘记门和块设计显著提升了模型的性能,其中忘记门在选择性状态空间模型中扮演了重要角色,并且可以通过适当的位置信息编码来替代,以适应视觉任务中的并行计算。
-
通过整合Mamba的关键设计到线性注意力Transformer中,提出了Mamba启发的线性注意力(MILA)模型。
-
MILA模型通过替换忘记门为位置信息编码,实现了更高的推理速度。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“注意力全新”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏