【论文速看】DL最新进展20241009-图像生成、多模态、医学扩散模型、行人重识别

news2025/12/21 1:45:01

【图像生成】

[2024] CAR: Controllable Autoregressive Modeling for Visual Generation

论文链接：https://arxiv.org/pdf/2410.04671

代码链接：https://github.com/MiracleDance/CAR

可控生成能够对生成输出进行细粒度控制，已成为视觉生成模型中的一个重要焦点。目前，在视觉生成领域有两种主要的技术方法：扩散模型和自回归模型。扩散模型，如ControlNet和T2I-Adapter所示，提供了先进的控制机制，而自回归模型尽管展示了令人印象深刻的生成质量和可扩展性，但在可控性和灵活性方面仍然未被充分探索。这项研究引入了可控自回归建模（CAR），这是一个新颖的即插即用框架，将条件控制集成到多尺度潜在变量建模中，使得在预训练的视觉自回归模型内实现高效的控制生成成为可能。CAR逐步精炼并捕捉控制表示，这些表示被注入到预训练模型的每个自回归步骤中，以指导生成过程。所提方法在各种类型的条件上展示了出色的可控性，并且与之前的方法相比，生成的图像质量更高。此外，CAR在显著减少训练资源的情况下实现了稳健的泛化。这是第一个为预训练的自回归视觉生成模型提出的控制框架。

在这里插入图片描述

【多模态】

[NeurlPS 2024] OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

论文链接：https://arxiv.org/pdf/2406.19389

代码链接：https://github.com/lxtGH/OMG-Seg

当前的通用分割方法在像素级图像和视频理解方面展现了强大的能力。然而，它们缺乏推理能力，不能通过文本指令进行控制。相比之下，大型视觉-语言多模态模型展示了强大的基于视觉的对话和推理能力，但缺乏像素级理解，并且在灵活的用户交互中难以接受视觉提示。本文提出了OMG-LLaVA，这是一个新颖而优雅的框架，结合了强大的像素级视觉理解与推理能力。它可以接受各种视觉和文本提示，以实现灵活的用户交互。具体来说，使用一种通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示整合到提供给LLM的视觉token中。LLM负责理解用户的文本指令，并根据视觉信息提供文本响应和像素级分割结果。作者提出了感知先验嵌入，以更好地将感知先验与图像特征集成在一起。OMG-LLaVA在一个单一模型中实现了图像级、对象级和像素级的推理和理解，在多个基准测试上的性能达到或超过了专门方法的表现。作者的研究目标是对一个编码器、一个解码器和一个LLM进行端到端训练，而不是使用LLM连接每个专家模块。

在这里插入图片描述

【医学扩散模型】

[MICCAI 2024] DiffuseReg: Denoising Diffusion Model for Obtaining Deformation Fields in Unsupervised Deformable Image Registration

论文链接：https://arxiv.org/pdf/2410.05234

代码链接：https://github.com/YutaZhuo/DiffuseReg

可变形图像配准旨在精确对齐来自不同模态或时间点的医学图像。传统的深度学习方法虽然有效，但通常缺乏解释性、实时观察性和在配准推断期间的调整能力。去噪扩散模型通过将配准重新定义为迭代图像去噪提供了另一种选择。然而，现有的扩散配准方法并未充分利用这些能力，忽视了关键的采样阶段，该阶段使得在推断过程中能够连续观察。因此，作者引入了DiffuseReg，这是一种创新的基于扩散的方法，通过对变形场进行去噪而不是对图像进行去噪，以改善透明度。还提出了一种基于Swin Transformer的新型去噪网络，它在整个去噪过程中更好地将移动和固定图像与扩散时间步长结合起来。此外，通过新颖的相似性一致性正则化增强了对去噪配准过程的控制。在ACDC数据集上的实验表明，DiffuseReg在Dice分数上比现有的扩散配准方法高出1.32。DiffuseReg中的采样过程实现了实时输出观察和调整，这是以前的深度模型无法比拟的。

在这里插入图片描述

【行人重识别】

[2024] DenoiseReID: Denoising Model for Representation Learning of Person Re-Identification

论文链接：https://arxiv.org/pdf/2406.08773

本文提出了一种新颖的去噪模型用于表示学习，并以人员再识别（ReID）作为基准任务，命名为DenoiseReID，通过联合特征提取和去噪来提高特征的区分性。在深度学习时代，由级联嵌入层（例如卷积或变换器）组成的主干网络逐渐流行，这些嵌入层逐步提取有用的特征。首先将主干中的每个嵌入层视为一个去噪层，处理级联嵌入层就像我们在逐步递归地去噪特征一样。这统一了特征提取和特征去噪的框架，前者从低层到高层逐步嵌入特征，后者逐步递归地去噪特征。然后，设计了一种新颖的特征提取与特征去噪融合算法（FEFDFA），并在理论上证明了融合前后的等效性。FEFDFA将去噪层的参数合并到现有的嵌入层中，从而使特征去噪计算免费。这是一种无标签的算法，可以逐步改进特征，如果标签可用，还可以补充标签信息。此外，它有两个优点：1）它是一种无需计算和标签的插件，可逐步改善ReID特征；2）如果标签可用，它可以补充标签信息。在各种任务（大规模图像分类、细粒度图像分类、图像检索）和主干（变换器和卷积）上的实验结果表明了所提方法的可扩展性和稳定性。在4个ReID数据集和多种主干上的实验结果也显示了其稳定性和显著改进。还将对所提出的方法扩展到大规模（ImageNet）和细粒度（如CUB200）分类任务，证明了类似的改进效果。

在这里插入图片描述