1、GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model
中文标题:GroupMamba:参数高效且准确的群体视觉状态空间模型
简介:我们的论文探讨了基于状态空间模型(SSM)在计算机视觉任务中的稳定性和效率挑战。最近,SSM模型展示了在建模长期依赖关系方面的有效性,但复杂度仍然较高。
为解决这一问题,我们引入了调制组Mamba层。该层将输入通道分为四组,并对每组独立应用我们提出的基于SSM的高效视觉单选择扫描(VSSS)块,每个VSSS块沿四个空间方向之一进行扫描。调制组Mamba层还将四个VSSS块包装成一个通道调制运算符,以改善跨通道通信。
此外,我们引入了一种基于蒸馏的训练目标,以稳定大型模型的训练,从而导致一致的性能提升。
我们的综合实验证明,所提出的方法在ImageNet-1K图像分类、MS-COCO目标检测和实例分割,以及ADE20K语义分割等任务上均优于现有方法。我们的23M参数微小变体在ImageNet-1K上达到了83.3%的分类top-1准确率,在参数效率方面比同等大小的最佳现有Mamba设计高26%。
我们的代码和模型可在https://github.com/Amshaker/GroupMamba 获得。
2、Training-Free Model Merging for Multi-target Domain Adaptation
中文标题:用于多目标域适应的免训练模型合并
简介:本文研究了场景理解模型在多个目标域之间的自适应。之前的方法通过使用域内一致性损失取得了不错的结果,但它们通常假设可以同时访问所有目标域的图像数据,忽略了诸如数据传输带宽限制和数据隐私等现实世界的限制。针对这些挑战,我们提出了一个问题:如何在不直接访问训练数据的情况下合并独立适应于不同域的模型?我们提出的解决方案包括两个关键组件:模型参数合并和模型缓冲区(如归一化层统计量)合并。对于参数合并,我们的实证分析发现,当使用相同的预训练骨干网络时,简单的线性合并就足够了。对于缓冲区合并,我们使用高斯先验来模拟现实世界的数据分布,并从独立训练的模型中估计新的统计量。我们的方法简单高效,在无需访问训练数据的情况下,仍能达到与基于联合训练数据的方法相当的性能。项目页面:https://air-discover.github.io/ModelMerging
3、Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
中文标题:街景:使用自回归视频扩散生成大规模一致街景视图
简介:我们提出了一种基于即时合成的方法来生成长序列的街景视图。我们的生成过程由语言输入(如城市名称、天气条件等)和包含所需轨迹的底层地图/布局信息所驱动和控制。与最近的视频生成或3D视图合成模型相比,我们的方法可以扩展到跨越数个城市街区的更长距离相机轨迹,同时保持视觉质量和一致性。为实现这一目标,我们借鉴了最近关于视频扩散的研究,采用自回归框架,可以轻松扩展到更长的序列。特别地,我们引入了一种新的时间插值方法,防止自回归模型从真实城市图像分布中偏离。我们在Google Street View的大规模数据集上训练了Streetscapes系统,并利用上下文地图数据,使用户能够生成基于任何所需城市布局的城市视图,并控制相机姿态。更多结果请访问我们的项目页面: https://boyangdeng.com/streetscapes