📖标题:When Attention Sink Emerges in Language Models: An Empirical View
🌐来源:arXiv, 2410.10781
🌟摘要
🔸语言模型(LM)将大量注意力分配给第一个标记,即使它在语义上并不重要,也被称为注意力汇。这种现象已被广泛应用于流媒体/长上下文生成、KV缓存优化、推理加速、模型量化等应用中。尽管它被广泛使用,但对LMs中的注意力吸收器仍然缺乏深入的了解。
🔸在这项工作中,我们首先证明了在具有各种输入的LMs中,即使在小模型中,注意力汇也普遍存在。此外,在LM预训练过程中观察到注意力汇的出现,这促使我们研究LM预训练中的优化、数据分布、损失函数和模型架构如何影响其出现。我们强调,在对足够的训练数据进行有效优化后,注意力汇就会出现。汇点位置与损失函数和数据分布高度相关。最重要的是,我们发现注意力汇更像是关键偏差,存储额外的注意力分数,这可能是非信息性的,对价值计算没有贡献。我们还观察到,这种现象(至少部分)源于softmax归一化后令牌对注意力得分的内在依赖。通过用其他注意力操作(如没有归一化的sigmoid注意力)替换softmax注意力来放松这种依赖性后,在1B参数以下的LM中不会出现注意力下沉。该代码可在以下网址获得https://github.com/sail-sg/Attention-Sink.
🛎️文章简介
🔸研究问题:在大语言模型(LLM)中,初始标记如何成为注意力汇聚点并导致了“注意力下沉”现象的出现?
🔸主要贡献:论文通过实证研究揭示了注意力下沉现象的机制和普遍存在性,并探讨了其与模型训练、数据分布、损失函数和模型架构之间的关系。
📝重点思路
🔺相关工作
🔸研究表明,LLM对初始标记给予了极大的关注,而不管它们的语义相关性如何,这种现象被称为注意力下沉,在流式/长上下文生成、KV缓存优化、高效推理和模型量化等都有应用。
🔸一系列工作试图理解注意力下沉,有研究表明只出现在第一个标记上,如LLaMA2中的早期FFN会破坏其隐藏状态的大范数,从而导致后面层的注意力下沉,也有研究认为可能出现在几个携带有限语义信息且没有固定位置的单词标记中。
🔺论文方案
🔸通过分析不同类型的位置嵌入(如绝对位置嵌入、相对位置嵌入等)对注意力机制的影响,来研究注意力下沉现象。
🔸使用不同的语言模型(如LLaMA2、GPT2、Mistral等)进行实验,观察和比较它们在注意力机制上的表现。
🔸提出了基于阈值的度量方法来量化注意力下沉现象,并通过可视化注意力分数来展示这一现象的具体表现。
🔎分析总结
🔸注意力下沉现象在自回归语言模型中普遍存在,即使在小型模型或随机标记序列中也是如此。
🔸注意力下沉在模型预训练阶段出现,且在持续指令调优之前就已经存在。
🔸不同类型的位置嵌入会影响注意力下沉现象的出现,相对位置嵌入和ALiBi等方法可以减少这一现象。
🔸通过实验验证了注意力下沉现象与模型性能之间的关系,发现引入可学习的下沉标记可以减少注意力下沉,但会显著降低模型性能。
🔸研究了窗口大小对注意力下沉现象的影响,发现较小的窗口大小可以防止注意力下沉的出现。
💡个人观点
论文的核心是分析注意力下沉现象的机制,并提出了优化方法。
🧩附录