从固定到可变：利用Deformable Attention提升模型能力

news2025/4/11 14:32:22

1. 引言

本文将深入探讨注意力机制的内部细节，这是了解机器如何选择和处理信息的基础。但这还不是全部，我们还将探讨可变形注意力的创新理念，这是一种将适应性放在首位的动态方法。

闲话少说，我们直接开始吧！

想象一下，在阅读一个长句子时，大家的注意力并不是平均分配到每个单词上的。相反，你会更专注于对理解至关重要的关键词。同样，神经网络中的注意力机制也是通过为输入序列的不同片段分配权重，根据它们对特定任务的重要性来确定优先级的。
在这里插入图片描述

标准注意力层的构成包括以下部分：

Query：就像模型在问："我在找什么？"它是一组向量，表示模型此刻好奇的内容。这些向量承载了模型所需的上下文特征，以便关注输入中的重要内容。
Key：作为一组线索，显示输入中的内容。注意力系统会将问题(Query)中的线索与输入(Key)中的线索进行比较，找出它们的匹配程度。这些关键线索能帮助模型找出输入内容中哪些部分对其试图回答的问题最为重要。
Value: 表示包含输入中每个部分的真实信息。它就像模型所观察到的与每个部分相关联的实际内容或特征。
Attention Scores：就像给模型对不同事物的关注程度打分一样。当模型查看信息时，它会给每个部分打分，决定哪些部分更重要。它们可以帮助模型找出需要重点关注的地方。从技术上讲，注意力分数指的是查询向量Query与给定向量key之间的相似性或相关性度量。
Attention weights: 通过对注意力得分使用softmax函数计算后得出，确保其总和等于 1。它们帮助模型决定如何权衡每个元素在全局中的价值。
Output：是value的加权之和，每个数值在相加之前都要乘以指定的注意力权重。最终结果包含了序列中对当前任务最重要的基本信息。

当Query、key和value由同一序列生成时，我们称之为自注意力机制。

在这里插入图片描述

可变形注意力机制(Deformable Attention)是一种通过在序列或图像输入中加入捕捉空间联系来增强自我注意力机制的方法。它最初是为计算机视觉任务而设计的，具有灵活性，能有效处理错综复杂的空间关系。
在这里插入图片描述

在常规的自注意力机制中，序列中的每个位置或图像中的每个空间点都以固定、预先定义的方式与其他位置相互作用。而 "可变形注意力机制 "则建议："让我们学习如何动态地转移注意力。这一创新机制使模型能够处理数据中复杂不均衡的关系，从而在识别图像或序列中的复杂模式时更加灵活和智能。

可变形注意力机制的组成如下：

Query, Key, Value: 与自注意力机制类似，不在累述。
Sampling Points: 作为起点，表示未进行变形调整时的位置
Sampling Offsets: 动态调整采样点可学习的向量。引入与每个位置相关的额外可学习参数。这些偏移量可控制每个位置"移动 "或变形其注意力区域的程度。
Deformed Sampling Points: 通过在原始位置上添加偏移量得到的模型最终应该关注位置。
Attention Scores: 衡量每个变形采样点与查询Query的相关性。
Attention Weights: 归一化分数，表示每个变形采样点的重要性。
Output：基于注意力权重的加权值之和

采样点偏移量的预测涉及一个小型神经网络。该模型会检查每个key的周围语义信息，并预测代表采样点偏移的向量，从而可以有效调整初始采样点。