作为视觉变换器的核心构建模块,注意力是一种强大的工具,可以捕捉长程依赖关系。然而,这种强大的功能付出了代价:计算负担和内存占用巨大,因为需要在所有空间位置上计算成对的令牌交互。一系列的研究尝试通过引入手工制作和与内容无关的稀疏性来缓解这个问题,例如将注意力操作限制在本地窗口、轴向条纹或扩张窗口内。与这些方法不同,我们提出了一种新颖的基于双层路由的动态稀疏注意力,以实现更灵活的计算分配和内容感知。具体而言,对于一个查询,无关的键-值对首先在粗略的区域级别进行过滤,然后在剩余候选区域的并集中应用细粒度的令牌-令牌注意力(即路由区域)。我们提供了所提出的双层路由注意力的简单而有效的实现,它利用稀疏性来节省计算和内存,并且只涉及GPU友好的密集矩阵乘法。基于所提出的双层路由注意力,我们还提出了一种新的通用视觉变换器,称为BiFormer。作为一种对查询自适应的方式,BiFormer只关注一小部分相关的令牌,而不会受到其他无关令牌的干扰,从而在性能和计算效率方面都表现出色,尤其在密集预测任务中。在多个计算机视觉任务(如图像分类、目标检测和语义分割)上的实证结果验证了我们设计的有效性。
论文地址:https://arxiv.org/pdf/2303.08810.pdf