自注意力公式解释

news2026/2/13 16:19:57

在这里插入图片描述
公式 (\mathbf{y}_i = f(\mathbf{x}_i, (\mathbf{x}_1, \mathbf{x}_1), \ldots, (\mathbf{x}_n, \mathbf{x}_n)) \in \mathbb{R}^d) 描述了自注意力机制中单个词元的输出表示如何生成。我们来逐步解释这个公式：

输入序列 (\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n):
- 这里，输入序列由 (n) 个词元（向量）组成，每个词元 (\mathbf{x}_i) 都是一个 (d) 维向量。
- 这些词元通常是通过嵌入层或其他方法从原始文本数据中提取出来的。
自注意力机制的作用:
- 自注意力机制的主要目的是让序列中的每个词元根据整个序列中的其他词元的信息进行重新表示。
- 每个词元 (\mathbf{x}_i) 不仅仅关注自己，还会关注序列中的其他词元。
注意力函数 (f):
- 注意力函数 (f) 是一个映射，它根据查询（query）、键（key）和值（value）的关系计算注意力得分，并生成新的表示。
- 在自注意力机制中，查询、键和值都是来自同一组输入词元。
公式解释:
- 对于序列中的第 (i) 个词元 (\mathbf{x}_i)，其新的表示 (\mathbf{y}_i) 是通过注意力函数 (f) 计算得出的。
- 公式 (\mathbf{y}_i = f(\mathbf{x}_i, (\mathbf{x}_1, \mathbf{x}_1), \ldots, (\mathbf{x}_n, \mathbf{x}_n))) 表示，计算 (\mathbf{y}_i) 时，(\mathbf{x}_i) 作为查询，整个序列 ((\mathbf{x}_1, \mathbf{x}_1), \ldots, (\mathbf{x}_n, \mathbf{x}_n)) 作为键和值。
- 具体来说，每个 (\mathbf{x}_i) 的表示 (\mathbf{y}_i) 是根据它自己以及整个序列的其他词元的信息来更新的。
实现过程:
- 首先，对输入序列中的每个词元进行线性变换，生成查询、键和值向量。
- 然后，计算查询和所有键的点积，得到注意力得分。
- 使用这些注意力得分对对应的值向量进行加权求和，生成新的表示 (\mathbf{y}_i)。
- 最后，对每个 (\mathbf{y}_i) 应用一些后处理（如线性变换和激活函数），得到最终的输出表示。
输出序列:
- 最终，输出序列 (\mathbf{y}_1, \mathbf{y}_2, \ldots, \mathbf{y}_n) 具有与输入序列相同的长度和维度 (d)，但每个词元的表示已经包含了序列中所有其他词元的信息。