【CVPR2022】Detecting Camouflaged Object in Frequency Domain
论文有一个非官方的实现:https://github.com/VisibleShadow/Implementation-of-Detecting-Camouflaged-Object-in-Frequency-Domain
感觉这个论文是CVPR2022 Learning in the frequency domain 论文的延续。为了将频率域信息很好地融入到CNN模型中,作者设计了一种新的频率增强模块(FEM),以在频域中挖掘伪装物体的线索,它包含浮点离散余弦变换,然后是可学习的增强。
整体框架如下图所示,核心创新点为:frequency enhancement module (FEM) 和 high-order relation module (HOR)。
1、Frequency enhancement module
FEM模块对于RGB图像的处理与CVPR2020那篇论文使用的方法一样,都是将图像变换到 DCT空间形成新的特征,这部分叫做 offline DCT,如下图 step 1 所示,这部分是图像变换,没有参数学习的。
然后,特征的高频、低频分别进行注意力的计算,这部分是可学习的。
2、 High order frequency channel selection
如下图所示,对于输入为CHW的特征X,先转化为 C x HW, 然后计算与 ψ ( X ) \psi(X) ψ(X) 计算相似性,并用 softmax 归一化,得到 positional attention weight。 ψ ( X ) \psi(X) ψ(X) 表示X后面的卷积层(越靠后的网络层感受野越大)。接着通过 gating 操作,得到空间位置增强的特征A。在此基础上,再计算通道维度的注意力,得到最终的输出。