接上文: 【NLP】多头注意力概念(01)
五、计算注意力
将 Q、K 和 V 拆分为它们的头部后,现在可以计算 Q 和 K 的缩放点积。上面的等式表明,第一步是执行张量乘法。但是,必须先转置 K。
展望未来,每个张量的seq_length形状将通过其各自的张量来识别,以确保清晰度、Q_length、K_length或V_length:
- Q 的形状为 (batch_size、n_heads、Q_length、d_key)
接上文: 【NLP】多头注意力概念(01)
将 Q、K 和 V 拆分为它们的头部后,现在可以计算 Q 和 K 的缩放点积。上面的等式表明,第一步是执行张量乘法。但是,必须先转置 K。
展望未来,每个张量的seq_length形状将通过其各自的张量来识别,以确保清晰度、Q_length、K_length或V_length:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/764473.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!