助你疯狂涨点！16种注意力机制魔改模型！

【注意力机制模型】是近年来在深度学习领域中备受关注的一项技术。它通过为输入数据中的重要部分分配更高的权重，从而增强模型对关键特征的识别能力。注意力机制在神经网络的不同层次上应用，可以动态调整注意力权重，从而提高模型的性能。该技术已经在图像处理、自然语言处理和语音识别等多个领域取得了显著成果，其独特的方法和有效的表现使其成为研究热点之一。

为了帮助大家全面掌握注意力机制模型的方法并寻找创新点，本文总结了最近两年【注意力机制模型】相关的16篇顶会顶刊的研究成果。这些论文的文章、来源以及代码都整理好了，希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

1、Attention Guided CAM: Visual Explanations of Vision Transformer Guided by Self-Attention

-文章首先介绍了ViT作为计算机视觉领域中广泛使用的一种模型，因其在各种任务上的优秀表现而受到关注。然而，由于ViT独特的结构，如使用[class] token和自注意力机制，导致传统的基于CNN的可视化方法并不适用于ViT。为了在各种应用中充分利用基于ViT的架构，需要适当的可视化方法来提供合理的定位性能。

-作者提出了一种新的注意力引导的可视化方法，用于解释ViT的决策过程。该方法通过选择性聚合直接从分类输出传播到每个自注意力的梯度，收集输入图像中每个位置提取的图像特征的贡献。这些梯度由标准化的自注意力分数引导，这些分数是成对的patch相关性分数，用于有效补充自注意力机制检测到的patch级上下文信息。

-文章详细描述了如何生成类激活映射（CAM），这是一种高语义解释的可视化技术。具体来说，作者关注了从分类输出到每个编码器块的梯度，这些梯度通过跳跃连接的反向路径传播。此外，这些关键梯度由自注意力分数矩阵的新标准化特征图引导，这些特征图通过sigmoid操作进行归一化。文章还解释了为何选择自注意力块中的梯度和特征图，以及如何通过自注意力机制保持输入图像的空间位置信息。

-作者在ImageNet ILSVRC 2012、Pascal VOC 2012和Caltech-UCSD Birds-200-2011（CUB 200）数据集上进行了实验，与现有的ViT可解释性方法（如Attention Rollout和基于LRP的方法）进行了比较。结果表明，新方法在弱监督定位任务中的表现优于先前的方法，并且在捕获目标类别对象的全部实例方面展现出了强大的能力。此外，通过像素扰动实验，作者还展示了新方法在提高可视化可靠性方面的优势。

-文章最后总结了所提出方法的优势，即通过注意力引导的梯度分析，实现了更好的弱监督定位性能。新方法不仅提供了ViT的高语义解释，而且在捕获给定类别对象的多个实例方面表现出色，为模型提供了可靠的解释，并使ViT能够更好地适应涉及计算机视觉领域目标定位的多种任务。

2、Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

文章的核心研究是关于人类视觉注意力的预测，特别是在人类观察者理解人与物体之间交互时产生的复杂交互导向注意力。这种注意力对于推动人机交互和以人为中心的人工智能发展至关重要，但目前尚未得到充分研究。

-为了填补这一空白，作者首先收集了一个名为IG（Interactive Gaze）的新注视点数据集，包含530,000个注视点，涵盖740种不同的交互类别，记录了人类观察者在认知交互过程中的视觉注意力。接着，作者引入了零样本交互导向注意力预测任务（ZeroIA），挑战模型在训练过程中未遇到的交互的视觉线索预测。此外，作者提出了一种交互注意力模型（IA），旨在模拟人类观察者的认知过程，解决ZeroIA问题。通过大量实验，证明所提出的IA模型在ZeroIA和全监督设置中的性能都超过了其他最先进的方法。

-最后，作者尝试将交互导向注意力应用于交互识别任务本身，进一步的实验结果显示，通过结合来自IG的真实人类注意力数据和IA生成的注意力标签，有潜力提升现有最先进HOI（Human-Object Interaction）模型的性能和可解释性。

-文章首先介绍了人类视觉注意力对理解人类如何感知、理解和与世界交互的重要性。然后，作者指出大多数现有的注意力预测研究都集中在显著的实例上，如人类和物体，而对由人类观察者理解实例间交互产生的更复杂的交互导向注意力的研究却很少。为了解决这个问题，作者创建了IG数据集，收集了32名人类观察者在740种交互类别中的注视点，这些类别包括80个物体和132个动作。IG数据集的创建，为视觉注意力和动作理解的研究提供了重要的桥梁。

-接着，文章介绍了交互注意力模型（IA）。该模型的设计灵感来源于人类观察者的认知过程，通过交互导向的提示块（PB）激活CLIP强大的知识表示能力，并通过两个小型可学习的适配器来模拟HOI认知任务，生成场景自适应的知识原型（KPs）和鲁棒的视觉特征。IA模型首先感知和理解单个实例，即人类和物体，然后进一步理解实例之间展开的交互，最终生成交互导向的注意力图。

-在实验部分，作者展示了IA模型在ZeroIA和全监督设置中的性能，并与其他10种最先进方法进行了比较。结果表明，IA模型在所有评估指标上均优于其他方法。此外，作者还探讨了如何将目标导向注意力反馈给目标本身，特别是建立了一个连接目标导向注意力和动作理解的双向路径，并提出了一种通用且有效的HOI训练策略。这种策略可以通过额外的交互导向注意力监督来补充大多数现有模型的损失，从而提升性能。

-文章最后总结了所提出的工作的贡献，包括引入ZeroIA问题和IG数据集，提出模拟人类认知过程预测高质量交互导向注意力的IA模型，以及引入一种通用简单的HOI训练策略，通过注意力对现有HOI模型进行增强。作者认为这项工作不仅对目标导向注意力的研究和应用具有启发性，而且在DNNs的可解释性评估、人工智能协作和价值观对齐研究等领域也具有潜在应用。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

3、HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

-HPNet旨在提高自动驾驶系统中道路参与者轨迹预测的稳定性和准确性。与现有主流方法不同，HPNet采用了一种动态的轨迹预测范式，不仅利用历史帧信息，还考虑了历史预测。

-文章指出，先前的轨迹预测方法通常独立地在相邻时间步进行预测，这可能导致潜在的不稳定性问题和时间上的不一致性。为了解决这些问题，HPNet引入了一个名为Historical Prediction Attention（历史预测注意力）的模块，该模块能够自动编码连续预测之间的动态关系。此外，HPNet还将注意力范围扩展到当前可见窗口之外，利用历史预测信息。

-HPNet由三个主要部分组成：时空上下文编码、三因素分解注意力和多模态输出。首先，通过模式查询聚合时空上下文，形成初步的预测嵌入。然后，三因素分解注意力（包括代理注意力、历史预测注意力和模式注意力）分别对代理、预测和模式之间的交互进行建模，以获得更丰富的预测嵌入。最后，嵌入被解码为多模态未来轨迹。

-文章通过在Argoverse和INTERACTION数据集上的实验表明，HPNet实现了最先进的性能，生成了准确和稳定的未来轨迹。HPNet的代码已在GitHub上公开。

-具体来说，HPNet利用图神经网络对代理和地图的特征进行编码，并采用相对时空位置编码。它通过两层MLP对代理的独立于位置的特征进行编码，并使用类似的MLP对地图特征进行编码。HPNet还采用了时空注意力机制，包括时间注意力和空间注意力，分别聚合代理的历史嵌入和模拟代理-车道交互。

-在三因素分解注意力中，代理注意力模块通过自注意力机制在每个模式和时间步骤上跨代理进行操作，以模拟代理之间的交互。历史预测注意力模块则通过自注意力机制将当前预测嵌入与历史预测嵌入相结合，动态地建模连续预测之间的内在相关性。模式注意力进一步在不同模式之间应用自注意力，增强多模态输出。

-最后，预测嵌入通过两层MLP解码为多个未来位置，并通过整个流程再次输入以进一步细化预测轨迹。训练目标采用winner-takes-all策略，优化模型。

-文章还进行了消融研究，分析了三因素分解注意力中各个注意力模块的重要性，并探讨了历史预测注意力对预测准确性和稳定性的影响。此外，还研究了历史预测注意力对反应及时性的影响。

-总之，HPNet通过引入历史预测注意力，显著提高了轨迹预测的准确性和稳定性，对自动驾驶系统的决策和安全性具有重要意义。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取