1. 动机

如何将RGB和Depth充分挖掘和融合仍是一个关键问题。

第一个问题是如何从深度图中充分挖掘几何信息，从而可以可靠地反映场景的空间结构。

第二个问题是如何有效地融合外观信息和几何信息，即有效的RGB和深度特征，其中RGB图像和深度图的内在属性存在很大差异。

2. 方法

提出FANet,主要包括两个部分

1. 特征提取模块（非对称架构）

2. 特征聚合模块（主要特点），由两部分组成：REM（区域增强模块），HFM（分层融合模块）

REM（区域增强模块）：用于区分显著目标和背景

HFM（分层融合模块）：用于逐步整合高级语义信息和低级空间细节，其中K最近邻图神经网络 (KGNNs) 和非局部模块 (NLM) 嵌入HFM中，以分别挖掘几何信息并增强高级外观特征。

3. 网络框架

KGNN（K最近邻图神经网络）：充分挖掘几何信息。

NLM（非局部模块）：获取全局语义特征。

为什么深度分支只有3层？

深度数据包含更丰富的空间位置信息，并且通常被视为RGBD显着性检测的辅助组件。同时，浅层的深层特征通常传达空间信息，而深层特征则呈现丰富的语义信息。因此，我们的模型部署了浅层结构来提取深度特征，这足以使depth branch从深度图中获取空间线索。

3.1 REM（区域增强模块）

REM作用：初步融合，大致定位显著目标并融合跨模态特征。

具体过程：针对于提取前三层的RGB和深度特征

1. 元素求和：用于初步融合。

2.sigmoid激活函数：将特征值范围映射为从0-1。

3.做大池化：特征选择。

4.反向最小池化：突出非显著区域。（“-”表示反向操作）

以上操作的作用：能够更加关注显著对象和背景

5. FFG和FBG元素求和：得到关注引导特征 𝐅𝐴，它充当注意力图，分别突出显示显著目标和抑制非显著区域。

6.将特征𝐅𝐼𝐷 𝑖 与特征 𝐅𝐴 相乘再相加：得到深度特征𝐅𝑅𝐸 𝑖，关注显著对象，同时保留原始信息。

REM使模型能够产生更准确的显着性预测结果，因为它不仅可以增强显着对象，而且可以有效地抑制非显着区域。

3.3 KGNNs (K-最近邻图神经网络)

重点是为了充分挖掘几何信息.。。。。。。。（不太关注省略）

3.4 HFM (分层融合模块)

具体地，图3所示的HFM是基于池化的结构，它引入了多尺度体系结构，并以粗到精的方式集成了多级深度特征。图2中，HFM 𝑖 (𝑖 = 2, 3，4) 努力对HFM(𝑖 +1)的输出进行据聚合（意思就是第4层聚合第5层，第3层聚合第4层，第2层聚合第3层），jX 表示上采样与同样空间大小。

具体而言，首先，对于每个HFM 𝑖 (𝑖 = 2,3，4)，它包含四个子分支: 一个本身和三个子分支，它们是平均池化 (降采样) 层，采样率分别为2、4和8。然后，在每个平均池化层之后，有一个3 × 3卷积层和一个双线性插值层。依次通过元素求和来融合四个子分支的特征图。接下来，部署双线性插值层 (upsample) 和3 × 3卷积层以进一步促进深度特征。这样，前面的分层融合模块HFM(𝑖 +1) 的输出 (即) 首先用这个结构进行处理，我们就可以得到初始的深度融合特征

最后，如前所述，REM(𝑖 − 1) 的输出 (即) 和高级外观特征 (即 ) 也被馈送到，产生融合的深度特征，也是的输入。总的来说，这个过程可以定义如下:

当 𝑖 = 4时，我们将与使用KGNNs生成的结合起来，为分层深度特征融合产生了更具代表性的深度特征。因此，HFM4的输入，即，可以表述如下:

其中，图2所示的 𝐅𝐼𝐷𝐺 表示完全集成了外观信息和几何信息的混合特征，[⋅] 表示串联操作。

此外，包括HFM5和HFM1 ∗ 的第5和第1分层融合模块与HFM 𝑖 不同 (𝑖 = 2、3、4)。具体地说，首先，根据图2，我们可以发现HFM5的输入包含来自RGB分支的深层特征，包括 𝐅𝐼 5和 𝐅𝐼 4，以及NLM特征。对于HFM1 ∗，其输入仅包括HFM2的输出 (即 𝐅𝐻𝐹 2)。其次，HFM5和HFM1 ∗ 仅配备3 × 3卷积层。因此，整个计算过程可以定义为