【提示学习论文】BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning论文原理

news2025/7/8 6:13:35

BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning

BlackVIP:稳健迁移学习的黑盒视觉提示

问题

黑盒白盒？
黑盒和白盒的概念与对预训练模型内部参数的了解程度相关。黑盒指的是对预训练模型的参数和结构缺乏详细了解，通常只能通过使用其API或者专有软件进行模型调用，而无法直接访问模型内部的参数。相反，白盒则指的是对模型的参数和结构有充分的了解，可以直接访问和修改模型的参数。

在这里插入图片描述

FT和VP？
FT（Fine-Tuning）和VP（Visual Prompting）的区别是预训练模型参数的更新方式和参数数量不同
FT（Fine-Tuning）：通过反向传播算法直接更新整个预训练模型的参数，以适应特定的下游任务（涉及整个预训练模型的参数）
VP（Visual Prompting）：在输入像素空间中添加少量的参数作为视觉提示，来引导预训练模型的适应（涉及添加的少量提示参数）

0 Abstract

在 BlackVIP 中，VP 是由协调器（Coordinator）设计的，并且通过黑盒优化算法（SPSA-GC）来进行优化。

1 Introduction

现实世界中的许多AI应用程序都是作为API和专有软件服务的，由于商业侵犯模型所有权问题，不透露实现级别的信息或完整的参数。BlackVIP设计了与原始给定图像相同形状的提示，以覆盖整个图像视图。

我们提出了coordinator协调器，这是一种非对称的自编码器风格的网络，它接收原始图像并为每个单独的图像产生相应的视觉提示。
优化重新参数化的模型而不是提示本身：不优化提示，优化产生提示的coordinator
采用SPSA-GC，基于扰动参数的输出差异估计目标黑盒模型的梯度，然后以基于动量的前瞻方式校正初始估计值。
通过对参数进行随机扰动，观察模型输出的变化来估计目标模型的梯度，不需要直接访问目标模型的内部结构或参数，只通过观察输出的变化来推断梯度信息。

2 Related work

ZOO是一种无导数优化算法，主要通过对输入进行随机扰动，并观察输出的变化来推断目标函数的梯度信息，从而实现优化。

3 Preliminary

4 Methodology

在这里插入图片描述

4.1 Coordinator

一个冻结的编码器 $f (\cdot)$ ，在ImageNet 上进行了预训练
一个轻量级的可学习解码器 $g_{ϕd}(⋅)$ 组成
构造带提示的图像
视觉提示 $h ϕ (x) = g ϕ d$ (图像 $x$ 的特征向量，提示触发向量)
带有提示的图像 $x_{head}=clip$ ( $x$ 原始输入图像+ $ϵ$ 超参数*视觉提示 $h ϕ (x)$ )

4.2 端到端的黑盒视觉提示

4.2.1 SPSA

在这里插入图片描述

$L (\cdot)$ 是待优化的损失函数
$ϕ i$ 表示第 $i$ 步的参数向量
$Δ i$ 是一个随机扰动向量
$ai$ 是正衰减序列，可以类比学习率，是一个正数序列，控制着每次参数更新的步长大小，并且随着迭代次数增加而逐渐减小。
SPSA 使用两个相反方向的扰动来估计梯度的差异，并根据该估计进行参数更新。这种方法在高维空间中能够高效地估计梯度，因此在黑盒优化等问题中得到了广泛应用。

4.2.2 带梯度矫正的SPSA

在这里插入图片描述

5 Results

实验设置

在这里插入图片描述
为了研究提示设计的重要性，我们考虑了两个合成数据集:Biased MNIST和Loc-MNIST。

优化算法的比较

在这里插入图片描述
SGD-NAG：使用真梯度
SPSA-GC：比Random Gradient- free (RGF)更快更稳定

分布移位的鲁棒性

在这里插入图片描述

合成数据集的即时可视化，与VP不同，我们的BlackVIP设计了输入依赖的条件提示，有助于在分布/对象位置转移下的鲁棒性。

6 Conclusion

我们开创了黑盒视觉提示，用于预训练模型的现实和稳健适应。我们提出了BlackVIP，它将输入空间提示重新参数化为条件生成网络协调器，并配备了我们的新ZOO算法SPSA-GC，而不是反向传播。BlackVIP不需要模型架构或参数的任何可访问性，并有效地将预训练的模型适应目标下游任务。大量的实证结果表明，BlackVIP在最小参数、最小内存容量、最小API查询和最小成本的情况下，持续提高了少量射击适应、分布移动和对象位置移动的性能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1610066.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！