【论文速看】DL最新进展20241008-多模态、医学图像分割、扩散模型

news2025/7/8 10:28:43

【多模态】

PaliGemma: A versatile 3B VLM for transfer

研究机构：google

论文链接：https://arxiv.org/pdf/2407.07726

模型及其说明链接：https://huggingface.co/google/paligemma-3b-pt-224

PaliGemma 是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放视觉-语言模型（VLM）。它经过训练成为一个多功能且知识广泛的基础模型，适用于多种任务迁移。在各种开放世界任务中，PaliGemma 表现出色。我们在将近 40 个多样化的任务上评估了 PaliGemma，包括标准的 VLM 基准测试，以及更专业的任务如遥感和分割。

在这里插入图片描述

【医学图像分割】

[NeurlPS 2024 通用分割模型] SegVol: Universal and Interactive Volumetric Medical Image Segmentation

论文链接：https://arxiv.org/pdf/2311.13385

代码链接：https://github.com/BAAI-DCAI/SegVol

精确的图像分割为临床研究提供了指导性信息。尽管在医学图像分割领域取得了显著进展，但仍然缺乏一个能够通过简单的用户交互对广泛解剖类别进行分割的三维基础分割模型。这篇论文提出了一个名为SegVol的三维基础分割模型，支持通用且交互式的体积医学图像分割。通过将训练数据扩展到90K个未标记的CT（计算机断层扫描）体积和6K个标记的CT体积，这个基础模型支持使用语义和空间提示对超过200个解剖类别进行分割。为了便于高效且精确地推断体积图像，设计了一个zoom out-zoom in机制。在22个解剖分割任务上的大量实验验证了SegVol在19个任务中的表现优于竞争对手，与次优方法相比改进幅度高达37.24%。消融研究展示了特定设计的有效性和重要性。

在这里插入图片描述

[MICCAI 2024] DB-SAM: Delving into High Quality Universal Medical Image Segmentation

论文链接：

代码链接：https://github.com/AlfredQin/DB-SAM

最近，分割一切模型（SAM）在各种下游分割任务中展示了有前景的分割能力。然而，在通用医学图像分割的背景下，直接应用SAM时存在显著的性能差距，这是由于自然数据与二维/三维医学数据之间的领域差异。这项工作提出了一种双分支适应的SAM框架，命名为DB-SAM，旨在有效弥合这一领域差距。双分支适应SAM包含两个并行的分支：一个ViT分支和一个卷积分支。ViT分支在每个冻结的注意力块之后引入了一个可学习的通道注意力块，以捕捉特定领域的局部特征。另一方面，卷积分支采用轻量级的卷积块，从输入医学图像中提取特定领域的浅层特征。为了执行跨分支特征融合，设计了一个双边交叉注意力块和一个ViT卷积融合块，动态结合两个分支的多样化信息用于掩码解码器。在大规模医学图像数据集上进行的大量实验揭示了所提出的模型的优点。在21个三维医学图像分割任务中，DB-SAM相比文献中最近的医学SAM适配器实现了8.8%的绝对增益。

在这里插入图片描述

【扩散模型】

[2024 3D扩散模型综述] Diffusion Models in 3D Vision: A Survey

论文链接：https://arxiv.org/pdf/2410.04738

近年来，三维视觉已成为计算机视觉领域的重要研究方向，广泛应用于自动驾驶、机器人技术、增强现实（AR）和医学成像等领域。该领域依赖于从图像和视频等二维数据源准确感知、理解和重建三维场景。扩散模型最初设计用于二维生成任务，它们提供了更灵活的概率方法，能够更好地捕捉现实世界三维数据的变异性和不确定性。然而，传统方法在效率和可扩展性方面往往面临挑战。本文回顾了利用扩散模型进行三维视觉任务的最新方法，包括但不限于三维物体生成、形状补全、点云重建和场景理解。作者深入讨论了扩散模型的数学原理，概述了它们的正向和反向过程，以及使这些模型能够处理三维数据集的各种架构改进。还讨论了将扩散模型应用于三维视觉的关键挑战，例如处理遮挡和点密度变化，以及高维数据的计算需求。最后，探讨了潜在的解决方案，包括提高计算效率、增强多模态融合，以及探索使用大规模预训练以更好地泛化到三维任务。本文为这一快速发展领域的未来探索和发展奠定了基础。
在这里插入图片描述