深入理解深度学习——注意力机制（Attention Mechanism）：Bahdanau注意力

news2026/2/13 8:26:13

之前我们探讨了机器翻译问题：通过设计一个基于两个循环神经网络的编码器—解码器架构，用于序列到序列学习。具体来说，循环神经网络编码器将长度可变的序列转换为固定形状的上下文变量，然后循环神经网络解码器根据生成的词元和上下文变量按词元生成输出（目标）序列词元。然而，即使并非所有输入（源）词元都对解码某个词元都有用，在每个解码步骤中仍使用编码相同的上下文变量。

在为给定文本序列生成手写的挑战中， Graves设计了一种可微注意力模型，将文本字符与更长的笔迹对齐，其中对齐方式仅向一个方向移动。受学习对齐想法的启发，Bahdanau等人提出了一个没有严格单向对齐限制的可微注意力模型。在预测词元时，如果不是所有输入词元都相关，模型将仅对齐（或参与）输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。

下面描述的Bahdanau注意力模型。假设输入序列中有个词元，解码时间步的上下文变量是注意力集中的输出：
$c_{t'}=\sum_{t=1}^T\alpha(s_{t'-1}, h_t)h_t$

其中，时间步 $t^{'} - 1$ 时的解码器隐状态 $s_{t'-1}$ 是查询，编码器隐状态 $h_t$ 既是键，也是值，注意力权重 $\alpha$ 是使用《深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）》中所定义的加性注意力打分函数计算的。下图描述了Bahdanau注意力的架构。

一个带有Bahdanau注意力的循环神经网络编码器-解码器模型

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/624891.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！