self Attention为何除以根号dk？（全新角度）

news2025/3/23 0:34:19

全网最独特解析：self Attention为何除根号dk？

一、假设条件：查询向量和键向量服从正态分布

假设查询向量 $q_i$ 和键向量 $k_j$ 的每个分量均为独立同分布的随机变量，且服从标准正态分布，即：
$q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k)$
此时，每个分量的均值为0，方差为1。

二、点积的统计特性分析

查询向量 $q_i$ 和键向量 $k_j$ 的点积为：
$q_i \cdot k_j = \sum_{m=1}^{d_k} q_i^{(m)} k_j^{(m)}$
根据独立随机变量和的方差性质，点积的方差为：
$\text{Var}(q_i \cdot k_j) = \sum_{m=1}^{d_k} \text{Var}(q_i^{(m)} k_j^{(m)})$
由于 $q_i^{(m)}$ 和 $k_j^{(m)}$ 独立且均服从 $\mathcal{N}(0,1)$ ，乘积的方差为：
$\text{Var}(q_i^{(m)} k_j^{(m)}) = \text{Var}(q_i^{(m)}) \cdot \text{Var}(k_j^{(m)}) + [E(q_i^{(m)})]^2 \cdot \text{Var}(k_j^{(m)}) + [E(k_j^{(m)})]^2 \cdot \text{Var}(q_i^{(m)}) = 1$
因此，点积的方差为 $d_k$ ，标准差为 $\sqrt{d_k}$ 。

三、缩放的必要性：Softmax的输入敏感性

Softmax函数对输入值的量级极其敏感：

数值溢出问题：若点积的绝对值随 $d_k$ 增大而显著增大（例如 $d_k=64$ 时标准差为8），输入Softmax的值可能超出浮点数表示范围。
梯度消失问题：当某些点积值远大于其他值时，Softmax输出接近独热分布（Hard Attention），导致梯度趋近于零，阻碍参数更新。
分布退化问题：未经缩放的输入会使注意力权重集中在极少数位置，失去“软性关注”的优势。

四、除以 $\sqrt{d_k}$ 的数学解释

通过将点积除以 $\sqrt{d_k}$ ，可以将点积的标准差从 $\sqrt{d_k}$ 缩放至1，即：
$\text{Var}\left( \frac{q_i \cdot k_j}{\sqrt{d_k}} \right) = \frac{\text{Var}(q_i \cdot k_j)}{d_k} = 1$
此时，点积的分布被标准化为 $\mathcal{N}(0,1)$ ，实现了以下效果：

数值稳定性：Softmax输入的均值为0、方差为1，避免极端值。
梯度均衡性：Softmax输出的概率分布更平缓，梯度更新更稳定。
模型鲁棒性：注意力权重在多位置间合理分配，保留软性关注能力。

五、为何不是其他缩放因子？

若采用其他缩放因子（如 $d_k$ 或 $2\sqrt{d_k}$ ）：
• 除以 $d_k$ ：方差将缩小为 $1/d_k$ ，导致Softmax输入过小，注意力权重趋于均匀分布，失去区分性。
• 除以 $2\sqrt{d_k}$ ：方差将缩小为 $1/4$ ，输入量级过小，同样影响注意力权重的有效性。