【读点论文】ASAM: Boosting Segment Anything Model with Adversarial Tuning，对抗学习提升性能

ASAM: Boosting Segment Anything Model with Adversarial Tuning

Abstract

在不断发展的计算机视觉领域，基础模型已成为关键工具，对各种任务表现出卓越的适应性。其中，Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而，SAM 与其他同类模型一样，在特定的细分应用中也遇到了限制，这促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM，这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力，灵感来自它们在自然语言处理中的成功实现。通过利用稳定的扩散模型，我们增强了 SA-1B 数据集的一个子集 (1%)，生成了更能代表自然变化而不是传统不可察觉的扰动的对抗性实例。我们的方法保持了对抗性示例的照片级真实感，并确保与原始掩模注释对齐，从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中都表现出显著的改进，而无需额外的数据或架构修改。我们广泛的评估结果证实，ASAM 在分割任务中建立了新的基准，从而有助于计算机视觉基础模型的进步。我们的项目页面位于 GitHub - luckybird1994/ASAM，https://asam2024.github.io/。
论文地址：[2405.00256] ASAM: Boosting Segment Anything Model with Adversarial Tuning (arxiv.org)
由 Meta AI 开发的 Segment Anything Model（SAM）在图像分割任务中表现杰出。然而，和其他类似模型一样，SAM 在某些特定的细分应用中也遇到了限制，这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略。ASAM，这是一种通过对抗性调整来放大SAM性能的新方法。作者利用自然对抗样本的潜力，这受到了自然语言处理中成功实施的启发。通过使用稳定的扩散模型，作者对SA-1B数据集的一个子集（1%）进行增强，生成更能代表自然变化而非传统不可感知扰动的对抗实例。
ASAM 只是提高了 SAM 的性能，而无需修改架构。ASAM 也是资源友好的，因为它只需要 8 个 A6000 GPU，不需要额外的数据（1% SA-1B 数据）。与 SAM（Segment Anything、SAM、ICCV2023）和 EfficientSAM（EfficientSAM：Leveraged Masked Image Pretraining for Efficient Segment Anything、ESAM、CVPR2024）相比，我们提出的 ASAM 和 EASAM 对资源更友好。ASAM主要包含三个步骤。第一步是对抗性潜在优化。第二步是可控对抗样本生成。第三步是使用对抗性样本微调 SAM。更强的SAM。与 PGD-Tuning SAM、DAT-Tuning SAM、DatasetDM-Tuning SAM 相比。在所有 14 个测试数据集中，ASAM 明显优于其他调优方法，并且与原始 SAM 相比实现了性能改进。

Introduction

基础模型的概念在推动自然语言处理 (NLP) 领域以及最近的计算机视觉领域中发挥了关键作用。这些模型起源于 NLP，具有影响力的模型包括 BERT 、GPT 系列、LLaMA 和 PaLM ，它们展示了对未见过的任务的出色零样本泛化能力。这一成功刺激了计算机视觉领域类似范式转换模型的发展。这些视觉基础模型，例如 DINOv2 、CLIP 、BLIP 、SAM 和 Stable Diffusion ，展示了出色的零样本能力和跨各种任务的广泛泛化能力。
其中，Segment Anything Model (SAM) 脱颖而出，成为专门用于图像分割的开创性视觉基础模型。SAM 使用来自海量视觉语料库的超过 10 亿个掩码进行训练，凭借在各种场景中分割各种物体和结构的能力，彻底改变了该领域。尽管 SAM 的性能令人印象深刻，但与任何基础模型一样，它仍有可以进一步增强的地方。一个重要的研究方向是确定 SAM 在某些下游任务上的局限性，并开发技术来提升其性能。许多技术已经探索出来，例如微调 [SAM-PARSER] 和适配器模块，以使 SAM 专门用于特定的下游任务。虽然微调可以释放 SAM 在特定任务中的潜力，但它会损害模型固有的泛化能力 。替代方法保留了 SAM 的原始参数，增加了适配层或后处理模块。这些方法，虽然有效，但需要额外的参数和带注释的训练数据，从而限制了其可扩展性和效率。
上述挑战将我们引向了这项工作的核心动机：我们如何才能进一步提升 SAM 作为基础视觉模型的泛化能力，而无需依赖大量额外数据、改变其基础架构或损害其零样本能力？这样我们就可以释放 SAM 的潜力，同时保持其在视觉任务中的广泛适用性。现有的解决方案虽然在特定情况下有效，但并未解决在各种场景中增强 SAM 固有性能的根本挑战。
为了应对这一挑战，我们从 NLP 领域中汲取灵感，尤其是它在基础模型研究方面的开创性进展。NLP 中对抗训练 (AT) 取得的独特成功为我们提供了一个新的视角。在视觉领域，标准对抗训练通常需要在鲁棒性和模型性能之间做出妥协，而 NLP 中的 AT 不仅增强了模型鲁棒性，还同时提高了泛化能力和准确性。这种差异被认为归因于自然语言中的对抗性示例与现实世界的文本场景（例如常见的人类拼写错误）更接近。我们推测，对抗性训练在 NLP 中的成功源于其生成的对抗性示例的“真实性”和“自然性”。这一见解促使我们探索将在 NLP 中取得成功的对抗性训练技术应用于 SAM 等视觉基础模型的可能性。这种方法旨在创新地应用跨学科见解来改进计算机视觉中的特定任务。
将上述概念应用于 SAM，我们的方法旨在利用类似于 NLP 中的“自然”对抗样本来提升视觉基础模型。受 NLP 中有效调整方法的启发，我们建议使用这些更“自然”的对抗样本对 SAM 进行微调，从而避免传统对抗训练通常带来的高成本。传统的视觉对抗样本生成方法通常遵循 lp 范数约束，导致扰动不完全自然，并表现出与现实世界噪声的域偏移。这导致此类对抗样本与现实世界场景中遇到的真正具有挑战性的样本之间存在差异。
为了生成既自然又逼真的对抗样本以调整 SAM，我们受到近期对抗攻击的启发，并假设可以通过生成模型将自然图像投影到低维流形上。该流形经过自然图像训练，可确保内容的真实感和丰富性。通过将图像映射到此流形上，然后沿流形内的对抗方向移动它，我们可以生成既自然又逼真的对抗样本。为了在反向映射过程中保持对象形状与原始掩码标签的一致性，我们在生成模型中加入了额外的掩码提示分支。这种集成确保对抗性示例不仅真实对齐，而且准确对应于其原始掩码标签。最终，通过使用这些自然逼真且准确对齐的对抗性示例对大型视觉模型中的选定参数子集进行微调，我们实现了性能的显著提升。总之，我们的工作做出了几个关键贡献：
- 受 NLP 成功经验的启发，我们引入了一种称为对抗性调优的新框架，旨在增强 SAM 等视觉基础模型的泛化能力。这种方法代表了跨学科见解的创新应用，旨在解决计算机视觉任务中的特定挑战。
- 通过使用生成模型将自然图像投影到低维流形上，我们生成了既自然又逼真的对抗样本。我们通过将掩码提示分支集成到生成模型中来进一步增强这种方法，确保对抗样本在物体形状方面与原始掩码标签保持一致。
- 利用我们的方法，我们使用仅来自 SA-1B 数据集 1% 的“自然”对抗样本对 SAM 进行微调，从而生成增强版本 ASAM。为了验证 ASAM 的有效性，我们进行了广泛的定量和定性分析。如下图所示，ASAM 在广泛的分割数据集和各种下游任务中实现了 SAM 性能的显著提升。
- 在不同下游任务的不同分割数据集上 ASAM 和 SAM 的性能比较。

Related Works

Segment Anything Model (SAM)

Meta Research 团队发布了“Segment Anything”项目。该项目开发了 SAM 和一个广泛的数据集 SA-1B，其中包含 1100 万张获得许可且尊重隐私的图像上的超过 10 亿个蒙版。SAM 专为基于提示的分割而设计，能够对新的图像分布和任务进行零样本适应。作为一种开创性的视觉基础模型，其零样本分割能力和基于提示的方法促进了不同领域的快速应用，超越了图像分割，扩展到 3D 理解和视频处理等任务。
虽然 SAM 的能力令人印象深刻，但它在现实场景（例如医学图像和其他具有挑战性的分割条件）中的有效性一直是研究的主题。在分割微小和细长的物体、边界模糊的物体、伪装的物体和透明物体时会出现困难。与任何基础模型一样，SAM 也有可以进一步增强的地方。为了应对这些挑战，研究人员引入了各种方法。例如，有研究提出了一种简单的微调方法来定制 SAM 以用于一般医学图像分割。对 3D 和 2D 分割任务的严格实验表明，MedSAM 超越了默认的 SAM。SAM-Adapter 利用领域特定信息或视觉提示，通过使用简单但有效的适配器来增强分割网络。通过将特定于任务的知识与大型模型学习到的一般知识相结合，SAM-Adapter 可以显著提高 SAM 在具有挑战性的任务中的表现。虽然微调可以释放 SAM 在特定任务中的潜力，但它会损害模型固有的泛化能力。替代方法保留了 SAM 的原始参数，添加了适配层或后处理模块，如 SAM-HQ 和 Semantic-SAM 。这些方法虽然有效，但需要额外的参数和带注释的训练数据，从而限制了其可扩展性和效率。此外，除了直接修改 SAM 的参数之外，优化 SAM 的输入提示或输出也是可行的策略。
我们的方法与现有方法不同，旨在进一步增强 SAM 作为基础视觉模型的泛化能力。我们力求在不大量依赖额外数据、不改变其架构或不损害其零样本能力的情况下实现这一目标。

Adversarial Examples & Adversarial Training

在计算机视觉中，对抗样本是故意修改的输入，旨在导致模型错误分类。这些扰动最初定义为小 l1、l2 和 l∞ 范数（统一称为 lp）内图像像素的不可察觉变化，构成了理解视觉模型中对抗性漏洞的基础。 对抗样本作为一种有效的防御机制提出，旨在通过使用这些对抗样本训练模型来增强鲁棒性 。然而，据观察，对抗样本通常会导致对抗鲁棒性和准确率之间的权衡，这对模型泛化提出了挑战。尽管已经做出了巨大努力来缓解这种权衡，但到目前为止，对抗样本的糟糕泛化仍然无法完全解决。
相比之下，NLP 领域则呈现出不同的趋势：AT 被发现可以增强语言模型的泛化和鲁棒性。最近的研究（如 [Freelb] 中的工作）表明，AT 甚至可以提高基于 Transformer 的语言基础模型的性能。[Enhance the visual representation via discrete adversarial training] 中的工作希望直接复制 AT 在 NLP 中的成功来增强视觉特征，并提出离散表示是一个关键因素。尽管它们生成的对抗性示例比传统的 LP 扰动具有更多不可察觉的扰动，但这些扰动仍然不是完全自然的，并且表现出与现实世界噪声的域转移。在本文中，我们推测 AT 在 NLP 中的胜利源于其对抗性示例的“真实性”和“自然性”。
值得注意的是，人们曾尝试使用 AT 来提高视觉任务的干净准确率。[Adversarial examples improve image recognition] 一文采用拆分批量规范来分离干净和对抗性示例统计数据，从而增强对抗性特征学习的泛化能力。然而，此操作不适用于基于 Transformer 的现代基础模型。另一项与我们相关的工作是 [A simple fine-tuning is all you need]，虽然名称相似，但侧重于使用微调来代替对抗性训练，以低成本获得对抗性鲁棒性。受 [Content-based unrestricted adversarial attack, High-resolution image synthesis with latent diffusion models] 一文和 NLP 的启发，我们引入了一个新颖的框架 ASAM，使用“自然”对抗性示例对 SAM 进行微调。这种方法为增强视觉基础模型开辟了一条新道路，利用对抗性示例的“真实性”和“自然性”来增强 SAM 的泛化能力，而无需大量额外数据或重大架构更改。

Method

Overview

我们的目标是从 SA-1B 数据集生成“自然”对抗图像，然后使用这些生成的图像以及相应的 SA-1B 掩码来微调 SAM。请注意，在微调 SAM 期间，我们不会修改 SAM 结构并合并任何额外的注释数据。因此，我们提出的 ASAM 框架仅基于其固有数据和结构特征就实现了增强 SAM 通用性的目标。我们提出的 ASAM 框架主要包含两个步骤，下面将详细介绍。
对抗性潜在优化。现有的对抗性图像生成方法通常遵循 lp 范数约束，导致扰动不完全自然，并且表现出与现实世界噪声的域偏移。在本文中，为了生成既自然又逼真的对抗性示例以调整 SAM，我们假设可以首先通过生成模型（例如 Stable Diffusion ）将自然图像投影到低维流形上。随后，通过优化低维流形，我们能够搜索合适的对抗性潜在表示，从而有效地重新投影到自然图像域中。我们在第 3.2 节中说明了优化对抗性潜在表示的过程。
可控对抗样本生成。上述优化过程对潜在表示添加了轻微的扰动。因此，简单的重新投影可能会导致生成的对抗图像与相应的 SA-1B 掩模无法正确对齐。为了解决这个问题，在优化完成后，我们进一步设计了控制分支，该分支利用 ControlNet 来指导重新投影过程。有关此过程的更多详细信息，请参见第 3.3 节。
我们提出的 ASAM 框架的架构。第一步，我们将输入图像投影到潜在空间，然后使用对抗技术优化潜在空间。第二步，我们使用优化后的潜在空间生成受掩码控制的对抗样本。最后，我们使用生成的“自然”对抗样本对 SAM 进行微调。

Adversarial Latent Optimization

在此，我们展示了在生成模型的低维流形空间中搜索 SA-1B 图像的对抗性潜在表示的方法。考虑到计算成本和图像质量之间的平衡，我们选择 Stable Diffusion 作为我们的生成模型来生成低维潜在表示。随后，我们优化生成的潜在表示，从而能够创建多样化的对抗性图像。

Projecting Image to Diffusion Latent

扩散反演通常用于将图像投影到低维潜在空间。在扩散模型中，我们采用 DDIM 反演技术，该技术利用使用 CLIP 文本编码器从提示 P 中得出的条件嵌入 C = ψ§，前提是常微分方程程序在有限步骤内是可逆的：
- 给定图像 x0，我们使用一个调度 ${β_1, . . . , β_T \} ∈ (0, 1)$ ，其中 $α_t =\prod ^t _{i=1}(1 − β_i)$ 遵循 [Denoising diffusion implicit models]。这种方法有效地以与去噪过程相反的方向运行（即 x0 → xT 而不是 xT → x0），将图像 x0 投影到 xT 处的潜在空间中。每幅图像的文本描述都是通过 BLIPv2 生成的。
文本到图像的合成经常强调提示的作用，最终引入了无分类器指导方法。该方法生成无条件的预测，并将其与以特定输入为条件的预测合并。令 ω 表示指导比例因子，∅ = ψ(“”) 表示空文本提示的嵌入，则无分类器指导的公式表述如下：
- $\bar ϵ_θ(x_t, t, C, ∅) = ω · ϵ_θ(x_t, t, C) + (1 − ω) · ϵ_θ(x_t, t, ∅).$
- ω = 7.5 被用作稳定扩散的标准设置。在 DDIM 采样的反向过程中，模型 ϵθ 会预测噪声，这可能会在每一步引入微小的误差。鉴于其相当大的指导尺度参数 ω，无分类器指导方法很容易放大这些小误差，导致误差累积。因此，在无分类器指导的同时使用反向 DDIM 采样过程不仅会破坏高斯噪声分布，还会产生损害真实感的视觉异常。
为了减轻误差的积累，我们的方法受到了 [Null-text inversion for editing real images using guided diffusion models] 中概述的策略的启发，其中我们为每个时间步 t 优化一个不同的空文本嵌入 $_t$ 。最初，以 ω = 1 执行 DDIM 逆采样过程会产生一系列连续的潜在表示$ {x^ ∗_ 0 , …, x^∗ T }$，从 $x^ ∗ 0 = x_0 $ 开始。随后，我们开始对时间步 $t = \{T, ..., 1\}$ 进行优化过程，采用 ω = 7.5 并设置 $\bar x_T = x^ ∗_ T$ ：
- $\min _{∅_t} ||x ^∗ _{t−1} − x_{t−1}(\bar x_t, t, C, ∅_t)||^2_ 2$
- 为了便于理解，令 $x_{t−1}(\bar x_t, t, C, ∅_t) $ 表示 DDIM 采样步骤，其中 $\bar x_t$ 为输入潜在向量，∅t 为空文本嵌入，C 为文本嵌入。完成每个步骤后，x¯t−1 根据以下公式进行更新：
- $\bar x_{t−1} = x_{t−1}(\bar x_t, t, C, ∅_t).$
- 最后，我们利用扩散模型生成的优化空文本嵌入$ {∅_t}^ T _1$ 得到潜在表征 $\bar x_T = x^ ∗_ T$ 。我们利用低维流形中的这个潜在表征来生成对抗性图像。

Adversarial Optimization of Latent

在本节中，我们对潜在表示进行了优化，以增强自然对抗图像的生成。在第 3.2.1 节建立的潜在空间中，空文本嵌入 $_t$ 确保了重建图像的质量，而文本嵌入 C 保留了图像的语义内容。因此，同时优化两个嵌入可能不会产生最佳结果。考虑到噪声 x¯T 在潜在空间中显著地封装了图像的细节，我们选择将优化工作重点放在它上面。基于第 3.2.1 节中生成的潜在表示，我们将扩散模型的去噪过程描述为 Ω(·)，通过 DDIM 采样步骤实现。此过程包含 T 次迭代：
- 这里， $x_t$ 表示第 t 次迭代中的潜在变量，T 表示总迭代次数，C 代表附加条件变量， $\{∅_t\}^ T_ 1$ 表示每次迭代应用的空文本嵌入序列。该过程以重建图像结束，表示为 $\bar x_0 = Ω(\bar x_T , T, C, \{∅_t\}^T_1 )$ 。由于变分自动编码器 (VAE) 具有可微分性质，本文不对其操作进行详细说明。我们将对抗性目标优化框架如下：
- $\max_ δ L(S_θ(\bar x_0), y), s.t. ||δ||_∞ ≤ κ,$
- 在这个等式中，δ 表示潜在空间内的对抗性扰动，y 表示从 SA-1B 数据集获得的掩码标签，Sθ 表示具有固定参数集 θ 的 SAM。损失函数 L 是均方误差、二元交叉熵损失和骰子损失的融合，表示为 $L = L_{mse} + L_{bce} + L_{dice}$ 。为了保持原始图像 x0 与其重建对应图像 x¯0 之间的一致性，我们假设扰动 δ 对这种一致性的影响最小，前提是其幅度非常小，即 $δ||_∞ ≤ κ$ 。主要挑战是确定增加分割损失的最佳 δ。与传统对抗策略的方法相呼应，我们利用基于梯度的方法来近似δ，公式为： $δ≈η∇_{\bar x_T }L(S_θ(\bar x_0), y)$ ，其中 η 是与梯度方向一致的扰动尺度。通过应用链式法则展开 $∇_{\bar x_T} L(S_θ(\bar x_0), y)$ ，我们描绘出每个导数分量
- $∇\bar x_T L(S_θ(\bar x_T ), y) =\frac {∂L }{∂\bar x_0} ·\frac {∂\bar x_0}{ ∂\bar x_1} ·\frac {∂\bar x_1 }{∂\bar x_2} · · · \frac {∂\bar x_{T −1}}{ ∂\bar x_T} . (7)$

Controllable Adversarial Samples Generation

在获得对抗性潜在表示后，可以采用反向扩散过程来生成最终的对抗性示例。但是，稳定扩散空间中的优化过程会对对抗性潜在变量引入轻微的干扰，从而导致生成的图像形状与其对应的标签不一致。直观地讲，这个问题可以通过在扩散模型中使用更精确的提示来解决。尽管如此，文本提示控制图像空间形状的能力是有限的，因为仅通过文本很难描述物体的确切形状。为了克服这一限制，我们额外训练了一个插入反向过程的 mask-to-image ControlNet，它提供了增强的空间塑造能力。
ControlNet 调整了去噪 U-Net 架构中的特定任务条件，旨在更精确地控制扩散模型的整体行为。稳定扩散模型的核心架构是 U-Net，由编码器、中间块和利用跳过连接的解码器组成。编码器和解码器各有 12 个块，包括中间块后总共有 25 个块。ControlNet 用于生成稳定扩散模型中 12 个编码器块和单个中间块的可训练副本。这 12 个块分布在四种不同的分辨率上（64 × 64、32 × 32、16 × 16、8 × 8），每种分辨率包含三个块。然后，这些块生成的输出被集成到扩散 U-Net 的 12 个跳过连接和中间块中，从而增强了其更精细地操纵图像特征的能力。ControlNet 的操作表示为 Z(·; ·)，它允许重新配置去噪 U-Net：
- $n = Dec(Enc(x_t, T, C, ∅_t), Z(x_t, T,M, C, ∅_t)),$
- 其中 M 是掩码提示。基于去噪 UNet，我们表示对抗性示例重建：
- $Ω(\bar x_t, T,M, C, \{∅_t\}^ T _1 ) = x_0(x_1(...,( \bar x_T , T,M, C, ∅_T ), ..., 1,M, C, ∅_1), 0,M, C, ∅_0).$

Fine-tuning SAM with Adversarial Samples

与之前改变 SAM 结构的方法不同，我们的目标是在不进行任何结构修改的情况下增强 SAM 的整体功能。选择合适的微调参数需要仔细考虑，要考虑效率和过度拟合风险等因素。在这方面，我们特意选择微调 SAM 的输出标记和掩码标记，这仅占 SAM 总参数的约 0.001%。此外，为了确保在对抗样本上快速收敛同时保持泛化，我们采用了学习率调度策略“慢启动快衰减”。此外，我们提出的 ASAM 表明，仅使用 SA-1B 数据集中的 1% 样本就已经带来了显着的性能提升。

Experiment

Experimental Setting

实施细节。我们使用在 LAION5B 数据集上预训练的 stable-diffusion-v1-5 。使用 BLIPv2 自动生成每个训练图像的描述。我们使用 ControlNet v1.0 来控制生成过程。我们使用带有 vit-base 主干的 SAM。本文使用的训练数据集是 SA-1B 数据集的 sa_000000 子集。对于对抗性示例生成过程，我们将 DDIM 步骤 T 设置为 50，将空文本嵌入的优化步骤数设置为 10，将对抗性样本的攻击次数设置为 10，将攻击大小 κ 设置为 0.02。我们使用 Adam 优化器对 SAM 进行了 10 次微调。学习率首先从 0.01 线性增加到 0.05，然后呈指数衰减。我们采用 8 个 NVIDIA 48G A6000 GPU 进行训练。
评估数据集。遵循 SAM ，我们在训练期间未见过的数据集和任务上评估 ASAM。评估数据集可能包括新颖的图像分布，例如水下或以自我为中心的图像，据我们所知，这些图像不会出现在 SA-1B 中。我们使用新编译的 14 个数据集套件，这些数据集在 mIoU 评估下具有不同的图像分布，如下表所示。
- 使用框提示在 14 个数据集上进行零样本分割结果 mIoU 比较。

Quantitative and Qualitative Comparison

为了全面评估我们提出的 ASAM 的有效性，我们将其与四种不同的方法进行了比较：原始 SAM、使用 PGD Tuning 进行微调的 SAM 、使用 DAT Tuning 进行微调的 SAM 以及使用通过 DatasetDM 生成的新数据进行微调的 SAM 。如上表所示，ASAM 明显优于其他调整方法。与原始 SAM 相比，ASAM 在所有 14 个测试数据集上都实现了性能提升，平均性能提升了 1.3 mIoU。这种在各种数据集上的持续增强凸显了我们方法的稳健性和有效性，证明了它能够在各种情况下显着提升模型的能力。这种优越性的关键原因是 SAM 已经在大规模数据集上进行了训练。因此，简单地向某些样本添加噪声扰动或生成新样本来调整 SAM 不会给 SAM 带来明显不同的数据分布。事实上，重新调整可能会破坏 SAM 原本训练良好的参数。与 PGD 和 DAT 等现有方法不同，我们的对抗样本是在 SAM 梯度引导下从经过良好优化的低维流形中重建的。这种方法使我们能够更有效地解决 SAM 原始训练中的不足之处。它提供了与 SAM 学习范式更一致的精细输入，使其能够更有效地推广到新的或具有挑战性的场景。从下图中的视觉比较中可以看出，我们提出的 ASAM 提高了原始 SAM 不足的样本的性能。
- 对提出的 ASAM 与其他方法进行定性比较。黄色框代表框提示。

Ablation Studies

在此，我们对上述 14 个数据集进行消融研究，以表明 ASAM 的有效性。主要组成部分。如下表所示，如果我们仅依赖潜在投影（第 3.2.1 节）而不采用潜在优化（第 3.2.2 节），则性能会下降，因为它缺乏 SAM 梯度的指导。这种方法错过了根据模型反馈细化潜在表示的关键步骤，这对于将投影与模型学习到的模式和复杂性对齐至关重要。此外，如果我们仅使用潜在投影，然后用 ControlNet 进行重建，但仍省略潜在优化，性能也会再次下降。这种组合虽然稍微复杂一些，但仍然未能利用潜在优化提供的特定于模型的洞察力，因此无法充分利用投影过程中的潜在改进。最后，当潜在优化与 ControlNet 结合时，我们实现了最佳分割结果。
- ASAM中主要组件的消融研究。
对抗样本可视化。为了验证本研究中产生的对抗样本对 SAM 微调的实用性，我们采用了定量方法进行图像质量评估。具体来说，我们为此采用非参考感知图像质量指标。所选指标包括 NIMA 、HyperIQA 、MUSIQ 和 TReS 。NIMA-AVA 和 MUSIQ-AVA 均已在 AVA 数据集上进行训练，使用 PyIQA 框架 [Iqa-pytorch: Pytorch toolbox for image quality assessment]。如下表所示，我们工作中生成的反演图像保持了与干净图像相当的图像质量。值得注意的是，ASAM 在图像质量评估方面优于其他方法。
- 图像质量评估。
我们通过下图中展示的对抗样本进一步说明了这一点。需要强调的是，通过 ASAM 引入的扰动旨在自然，而其他技术（例如 DAT 或 PGD 调整方法）通常采用较为人为的更改。这种生成自然扰动的方法旨在创建类似于现实场景中遇到的真实且具有挑战性的示例，从而有可能提高模型的泛化能力。
- ASAM 与其他攻击方法的对抗性示例比较。
框架可转移性。为了进一步评估 ASAM 框架的可转移性，我们在另一个大型视觉基础模型 EfficientSAM (ESAM) 上进行了实验，这是 Meta 在 CVPR2024 中提出的新型大型视觉基础模型。下表中的结果证实了该框架能够显著提升 ESAM 的性能。这些发现验证了我们的框架在不同大型模型中的有效性，为提升大型视觉基础模型的能力铺平了道路。
- ESAM 与 AESAM 在微细骨干上的比较。

Discussion & Future work

虽然我们已经通过大量的实证实验证明了我们方法的有效性，但除了直接受到 NLP 研究的启发外，我们方法特有的理论基础似乎仍然是一个有待进一步探索的领域。幸运的是，我们发现了一些现有的理论工作，虽然它们不直接适用于我们的任务，但可以提供一些理论证据。具体来说，我们发现我们在 ASAM 中的方法与 Wong 和 Kolter [Learning perturbation sets for robust machine learning] 提出的理论框架相一致，该框架强调弥合现实世界扰动与对抗性防御之间的差距。
本文强调了直接从数据中学习扰动集的价值，这与我们使用稳定扩散模型生成自然对抗样本的方法相似。此外，本文使用条件变分自动编码器 (CVAE) 进行扰动学习支持了我们操纵潜在空间表示的方法。这些理论见解强化了使用生成模型创建对抗样本的有效性，这些对抗样本不仅对模型具有挑战性，而且还反映了现实世界的复杂性和变化。虽然本文不能作为我们工作的直接理论证明，但这种理论支持补充了我们的实证研究结果，强调了使用现实对抗样本来增强 SAM 在不同现实场景中性能的有效性。
然而，这种联系只是更广泛的理论探索的开始。我们未来的工作旨在深入研究对抗性微调的理论方面，特别是在基础模型的背景下。我们计划研究和形式化我们方法有效性背后的原理，这可能会产生一种更通用的理论，用于在计算机视觉领域使用对抗性示例来增强模型性能。通过建立坚实的理论框架，我们可以进一步使此类技术的使用合法化，并可能发现在各种实际应用中改进基础模型能力的新途径。

Conclusion

本研究中引入的 ASAM 代表了 SAM 通过创新使用对抗性调整而取得的重大进步。我们采用稳定的扩散模型来增强 SA-1B 数据集的一部分，生成了自然、逼真的对抗性图像，从而显著提高了 SAM 在各种任务中的分割能力。这种方法受到 NLP 中对抗性训练技术的启发，在增强 SAM 性能的同时，保留了 SAM 的原始架构和零样本优势。我们的研究结果表明，ASAM 不仅在分割任务中设定了新的基准，而且还有助于对抗性示例在计算机视觉领域的更广泛应用和理解，为提升大型视觉基础模型的能力提供了一种新颖而有效的方法。