CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV、cs.AI、cs.CL
1.Deep Intra-Image Contrastive Learning for Weakly Supervised One-Step Person Search
标题:深度图像内对比学习用于弱监督的单步人物搜索
作者:Jiabei Wang, Yanwei Pang, Jiale Cao, Hanqing Sun, Zhuang Shao, Xuelong Li
文章链接:https://arxiv.org/abs/2302.04607v1
项目代码:https://github.com/jiabeiwangtju/dicl
摘要:
弱监督人像搜索的目的是在仅有人像边界框注释的情况下进行联合行人检测和重新识别(re-id)。最近,对比学习的理念被初步应用于弱监督人像搜索,其中两种常见的对比策略是基于记忆的对比和图像内对比。我们认为,目前的图像内对比是浅层的,它受到了空间级和遮挡级差异的影响。在本文中,我们提出了一个使用连体网络的新型深度图像内对比学习。两个关键模块是空间不变量对比(SIC)和遮挡不变量对比(OIC)。SIC在暹罗网络的两个分支之间进行多对一的对比,在暹罗网络的一个分支中进行密集预测对比。通过这些多对一和密集的对比,SIC倾向于学习鉴别性的尺度不变量和位置不变量特征,以解决空间层面的差异。OIC通过掩蔽策略加强了特征的一致性,以学习闭塞不变的特征。我们分别在CUHK-SYSU和PRW两个人物搜索数据集上进行了大量的实验。我们的方法在弱监督的一步式人物搜索方法中取得了最先进的性能。我们希望我们简单的图像内对比学习能够为弱监督的人物搜索提供更多的范式。
2.Efficient Attention via Control Variates(ICLR 2023)
标题:通过控制变量实现高效的注意力
作者:Lin Zheng, Jianbo Yuan, Chong Wang, Lingpeng Kong
文章链接:https://arxiv.org/abs/2302.04542v1
项目代码:https://github.com/hkunlp/efficient-attention
摘要:
基于随机特征的注意力(RFA)是对softmax注意力的有效近似,具有线性运行时间和空间复杂性。然而,RFA与传统的softmax注意力之间的近似差距还没有得到很好的研究。在以往RFA的进展基础上,我们通过控制变量的视角来描述这一差距,并表明RFA可以分解为序列中每个元素的多个控制变量估计的总和。这个新框架显示,通过操纵每个控制变量,可以从RFA中恢复精确的softmax注意力。此外,它允许我们开发一种更灵活的控制变量形式,从而形成一种新的注意力机制,在保持线性复杂度的同时大大降低了近似差距。广泛的实验证明,我们的模型在视觉和语言任务上都优于最先进的高效注意力机制。
3.Reversible Vision Transformers(CVPR 2022)
标题:可逆式视觉变形器
作者:Karttikeya Mangalam, Haoqi Fan, Yanghao Li, Chao-Yuan Wu, Bo Xiong, Christoph Feichtenhofer, Jitendra Malik
文章链接:https://arxiv.org/abs/2302.01660v2
项目代码:https://github.com/facebookresearch/SlowFast
摘要:
我们提出了可逆视觉变换器,这是一种用于视觉识别的内存高效架构设计。通过将GPU的内存需求与模型的深度解耦,可逆视觉变换器能够以高效的内存使用方式扩大架构的规模。我们将两种流行的模型,即视觉变形器和多尺度视觉变形器,调整为可逆变体,并在模型大小和图像分类、物体检测和视频分类的任务上进行了广泛的基准测试。在模型复杂度、参数和准确度大致相同的情况下,可逆视觉变换器实现了高达15.5倍的内存占用,证明了可逆视觉变换器作为硬件资源有限的训练机制的有效骨干的前景。最后,我们发现重新计算激活的额外计算负担对于更深层次的模型来说是可以克服的,其吞吐量可以比非可逆的对应模型增加2.3倍。完整的代码和训练好的模型可在https://github.com/facebookresearch/slowfast。一个更简单、易于理解和修改的版本也可在https://github.com/karttikeya/minREV。