来源:投稿 作者:xin
编辑:学姐
论文标题:
Multilevel Deformable Attention-Aggregated Networks for Change Detection in Bitemporal Remote Sensing Imagery
Motivation
本文指出:
(1)当前基于自注意力(Self-attention, SA)的变化检测方法只处理了单一特征层级的长期依赖,而忽略了跨多个特征级别的上下文依赖关系。所以模型不能充分的利用多尺度上下文信息而限制模型性能;
(2)此外提取全局依赖信息通常会有很高的计算复杂度。为了缓解上述问题,论文提出了多级可变形注意聚合网络(MLDANets)。
Method:
MLDANets的框架如下图所示,下面从特征提取、特征变换、多层变化感知变形注意力(MCDA Model)、解码器几方面进行介绍。
特征提取:在特征提取阶段,使用共享权重的VGG-16作为backbone提取多时相遥感图像特征,提取出各个层级对应的特征分别为,然后将对应层级的特征在channel维度拼接起来,得到合并后的双时相特征。
特征变换:在获取到拼接后的双时相特征后,为了将其输入到MCDA模块对特征进行了变换。首先使用1*1 的conv将多层次的双时相特征的通道变换到同一维度,然后将其摊平得到变换后的特征。操作过程如公式(1)所示:
接着,将得到不同尺度的变换特征进行堆叠,得到包含不同层次信息的双时相超特征(bitemporal deep feature hyperse-quence,BDFH)。
MCDA Model:
MCDA模块将作为输入,对特征进行参考系内归一化、位置编码、可变形采样、以及注意力特征聚合操作。下面将介绍具体操作。
坐标系内特征归一化: 为了规范多层特征中像素的位置,论文使用笛卡尔坐标系和参考点建立了参考系。参考系将二维图像空间划分为各个网格,然后使用公式(2)的方法进行归一化,确定图像中第z个像素的位置。
位置编码: 为了将空间信息注入到BDFH中并且确保每个查询特征(Query)都有唯一的一个位置向量,故对BDFH使用正弦函数、余弦函数进行了空间编码,其计算公式如下:
可变形采样: 受到可变形卷积启发,引入可变形采样策略,使得使MCDA模块根据每个查询元素的参考位置,逐步聚焦于一组包含信息特征的特定关键空间采样位置。给定查询元素,通过线性映射学习采样偏移量。接着通过便可得到最终的采样位置。将BDFH通过线性变换得到投影特征值V,接着利用类似于可变形卷积双线性差值的方式计算采样特征值。
注意力权重: 本文在计算注意力权重时使用了一种基于位置的函数,其中对齐分数仅从使用带有位置编码的查询特性计算。这简化了对齐评分函数,因为它只依赖于通过线性投影获得的位置嵌入查询特征。计算过程如公式(3)所示:
特征值聚合: 在得到采样特征值和注意力权重后,采用对应元素相加的方法便可得到单个注意力头的聚合特征,再将所有头的特征拼接起来,通过线性变换,便得到所有注意力头的特征值。
CNN解码器: 在获取到MCDA模块的输出特征后,使用转置卷积构成解码器将特征恢复到原图大小。
Results:
表1、表2、表3表明,论文提出的方法在Levir、LM以及SECOND数据集上达到了SOTA效果。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“500”获取AI必读高分论文合集
(包含目标检测等多个细分方向)
码字不易,欢迎大家点赞评论收藏!