引言
边缘检测是计算机视觉中最基本的问题之一,具有广泛的应用,例如图像分割[8,23,39,44,45,47]、对象检测[23]和视频对象分割[5,57,59]。给定输入图像,边缘检测旨在提取精确的对象边界和视觉上显著的边缘。由于许多因素,包括复杂的背景、不一致的注释等等,这是具有挑战性的
边缘检测与图像的上下文和语义线索密切相关。因此,获得适当的表征来捕捉高和低水平的视觉线索是至关重要的。传统方法[6,14,28,34,41,63]大多基于低级局部线索,例如颜色和纹理来获得边缘。受益于卷积神经网络(CNN)在学习语义特征方面的有效性,边缘检测已经取得了重大进展[3,4,29,48]。随着感受野的扩大,CNN的特征逐渐捕捉全局的和有语义意识的视觉概念,同时许多重要的细节不可避免地逐渐丢失。为了包括更多的细节,在[22,36,37,65,66]中的方法集合了深层和浅层的特征。然而,这种浅层特征主要反映局部强度变化,而没有考虑语义上下文,导致噪声边缘。
受视觉变形器最近成功的启发[9,16,61,72],特别是它们模拟远程上下文信息的能力,我们建议为边缘检测定制变形器。然而,有两个主要挑战需要解决。首先,由于计算方面的考虑,变换器通常应用于相对较大尺寸的面片,而粗粒度的面片不利于学习边缘的精确特征。在不增加计算负担的情况下对细粒度补丁执行自关注是至关重要的。第二,如图1 (d)所示,从相交的薄物体中提取精确的边缘是具有挑战性的。所以有必要设计一个有效的用于生成边缘感知高分辨率特征的编码器。
为了解决上述问题,我们开发了一个两阶段框架(图2),称为边缘检测转换器(EDTER),以探索全局上下文信息和挖掘局部区域中的细粒度线索。在第一阶段,我们将图像分割成粗粒度的小块,并在其上运行全局转换器编码器来捕获大范围的全局上下文。然后,我们开发了一种新的双向多级聚合(BiMLA)解码器来产生高分辨率的边缘检测表示。在第二阶段,我们首先通过使用非重叠滑动窗口进行采样,将整个图像分成多个细粒度块序列。然后,局部变换器依次对每个序列进行工作,以探索短程局部线索。之后,所有局部线索被整合并馈入局部BiMLA解码器以获得像素级特征图。最后,来自两个阶段的信息通过特征融合模块(FFM)进行融合,然后被送入决策头以预测最终的边缘图。通过以上努力,EDTER可以生成清晰、噪音更少的边缘图。
在第一阶段,我们首先将图像输入到全局变换编码器中,以计算全局关注度。然后,全局BiMLA解码器(见图3)生成高分辨率特征,用于通过决策头预测边缘图。在阶段II中,类似于阶段I,分块的补丁被输入到局部变换编码器中以产生局部关注。连接的注意力被用于解码高分辨率特征。最后,决策头预测融合了FFM第一阶段和第二阶段特征的边缘图。
我们的贡献概括如下:(1)我们提出了一种新的基于变换的边缘检测器——边缘检测变换(EDTER ),用于检测自然图像中的物体轮廓和有意义的边缘。据我们所知,这是第一个基于变压器的边缘检测模型。(2) EDTER被设计成有效地探索长范围的全球背景(阶段I)和捕捉细粒度的局部线索(阶段II)。此外,我们提出了一种新的双向多级聚合(BiMLA)解码器来提高变压器中的信息流。(3)为了有效地整合全局和局部信息,我们使用一个特征融合模块(FFM)来融合从阶段I和阶段II提取的线索。(4)在三个著名的边缘检测基准上,包括BSDS500、NYUDv2和Multicue,大量的实验证明了EDTER的优越性
相关工作
最近,卷积神经网络(CNN)被成功地引入边缘检测研究[3,4,11,12,26,29,40,46,48,52,66]。DeepEdge [3]利用多级CNN提取的物体感知线索进行轮廓检测。[48]中的方法首先将轮廓面片划分为子类,然后学习模型参数以适合每个子类。最近,一些方法通过使用分级多尺度特征来改进边缘检测[22,36,37,65,66]、分割[8,54,70]和对象检测[35]。受[65]开创性工作的启发,大多数边缘检测器[22,36,37,66]通过多级学习从分层特征中生成对象边界。具体来说,HED [65]通过对侧输出层执行监督来学习丰富的分层特征,这提高了边缘检测的性能。RCF [36]将所有卷积层的分层特征组合成一个整体架构。为了获得有效的结果,BDCN [22]使用从双向级联结构推断出的特定层监督来指导每一层的训练。PiDiNet [53]将传统的边缘检测算子集成到CNN模型中,以提高性能