在处理复杂数据时,可以通过引入动态注意力机制,让模型根据输入数据的特点动态调整关注点,聚焦最关键的信息,来提高模型的处理能力和效率。
这种比传统方法更高效、灵活的技术足以应对各种复杂任务和挑战,具有强大的适应性,因此它的应用范围非常广泛,创新空间也很大,是深度学习领域的一个热门研究方向。
目前常见的关于动态注意力机制的创新思路有:自适应注意力、改进卷积操作、结合GNN、结合强化学习等。
为帮助想发论文的同学,我根据这些创新思路整理了11个最新的动态注意力创新方案,可参考的创新点和代码已附,希望能给各位的论文添砖加瓦。
论文原文+开源代码需要的同学看文末
自适应注意力
通过计算输入数据中不同部分之间的相关性或重要性,为数据部分分配不同的注意力权重,让模型更加专注于关键信息。
DyFusion: Cross-Attention 3D Object Detection with Dynamic Fusion
方法:论文提出了一种名为CADF的动态注意力机制。该机制用于3D目标检测任务中,特别是结合了激光雷达(LiDAR)和相机传感器数据的融合。通过这种机制,模型能够动态地结合来自不同传感器的数据,以提高3D目标检测的准确性和鲁棒性。
创新点:
-
提出了一种新颖的图像-点云融合方法DyFusion,并引入了CADF和SDA两种创新策略。
-
CADF策略利用交叉注意力机制动态地融合跨模态特征,通过动态加权校准模型,减少信息丢失和误差。
-
SDA策略用于异质数据的数据增强,提高模型的鲁棒性和泛化能力。
改进卷积操作
在卷积操作中引入动态注意力机制,或者将动态注意力与特定的改进卷积操作(如可变形卷积、深度可分离卷积等)结合,以更好地提取特征。
CAMixerSR: Only Details Need More "Attention"
方法:本文提出了一种内容感知混合器CAMixer,通过使用一个可学习的预测器来动态生成多个引导,其中包括窗口变形的偏移量、用于分类窗口的掩码以及卷积注意力。这些引导使得注意力机制能够自适应地包含更多有用的纹理,从而提高卷积的表示能力。
创新点:
-
引入了内容感知混合器(CAMixer),根据内容的复杂性,将不同复杂度的神经操作符(自注意力和卷积)路由到不同的模型中进行处理。简单的令牌由卷积处理,复杂的令牌则通过可变形自注意力进行额外处理。
-
轻量级模型设计策略,通过改进神经操作符(自注意力或卷积)和主干结构,以在有限的层中实现更强的特征表示能力。这些策略利用N-Gram减少计算量,增大感受野,并引入信息多蒸馏等方法。
结合GNN
通过引入注意力机制来自动学习图中各节点间的不同重要性,实现对邻居节点特征的加权聚合,从而提升模型处理图结构数据的性能和准确性。
Attention-based Dynamic Multilayer Graph Neural Networks for Loan Default Prediction
方法:论文提出了一种基于动态多层图神经网络的信用风险评估模型,该模型利用了图神经网络和循环神经网络构建的动态多层网络,并且特别采用了一种定制的注意力机制(attention mechanism)来加权不同时间快照的重要性。
创新点:
-
DYMGNN (Dynamic Multilayer Graph Neural Networks)提出了一种新颖的在多层网络中进行节点分类的方法。
-
提出了一种将DYMGNN应用于信用风险建模的方法,以抵押贷款违约预测为例。
-
结果表明,相比其他基准方法,DYMGNN模型在考虑动态性、多层效应和使用注意机制的情况下,具有更好的预测性能。
结合强化学习
引入动态注意力机制后,RL代理能够更加精准地评估环境状态和动作的重要性,从而加速学习过程并提升决策质量。
Learning Dynamic Attribute-factored World Models for Efficient Multi-object Reinforcement Learning
方法:论文提出了DAFT-RL框架,该框架结合了属性分解表示和对象中心表示学习,通过软注意力网络实现动作绑定与交互建模,以估计动态图的分解动态和奖励。
创新点:
-
DAFT-RL框架引入了Dynamic Attribute FacTored RL(DAFT-RL)的概念,通过学习属性因子化表示和动态图来提高多对象强化学习的效率。
-
DAFT-RL框架引入了DAFT-MDP模型,它是Factored(PO)MDPs、Relational MDPs和Object-Oriented(PO)MDPs的一种扩展模型,但在属性级别和动态图方面进行了更细粒度的因子分解。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“动态注意”获取全部论文+开源代码
码字不易,欢迎大家点赞评论收藏