【提示学习】PromptSync论文问题汇总

news2024/11/17 4:55:15

文章目录

  • PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination(2024CVPR)
  • 1 Introduction
  • 2 Related Work
    • 2.1 CLIP
    • 2.2 TPT
  • 3 Methodology
    • 3.1 提出方法PromptSync
    • 3.2 类感知原型生成(视觉原型?语言原型?)
        • Q:为什么不包括class token?
    • 3.3 原型判别损失
      • 3.3.1 正对样本损失
      • 3.3.2 负对样本损失
        • Q:为什么不用计算𝑐𝑘的增强视图和其他所有类别增强视图的相似度?
      • 3.3.3 最终的优化目标
    • 3.4 原型对齐损失
      • 3.4.1 振幅对齐损失
      • 3.4.2 角度对齐损失
      • 3.4.3 合并
    • 3.5 算法的细节
      • 3.5.1 计算原型判别损失
      • 3.5.2 测试时间适应过程
      • 3.5.3 多次迭代更新
  • 4 实验
    • 4.1 baseline对比
    • 4.2 实施细节
    • 4.3 领域泛化
    • 4.4 Base to Novel
    • 4.5 跨数据集转移性能
  • 5 消融实验
  • 6 性能和延迟
  • 7 敏感性比较
  • 8 LAION400M代理数据集分析
  • 9 Conclusion
  • TPT(2022 NeurIPS)
  • PromptAlign(2023 NeurIPS)

PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination(2024CVPR)

  • 提出类别级的原型对齐方法,将每个测试样本与源分布对齐,减轻类间分布迁移的影响
  • 我们在文本和视觉分支上都进行了提示调整
  • 将测试样本的原型与预先计算的类原型对齐
  • 按照从增强视图中获得的每个类的平均概率加权来调整可学习的提示令牌

1 Introduction

  • 提出了一种面向类别的原型对齐技术,用于对齐每个测试样本的上下文与类别源分布基础上,从而减轻类别之间的分布偏移效应。
  • 提出了面向类别的原型判别,以发现有效对齐的类别分布。此外,我们还提出了从代理源数据集进行类别原型的离线计算,用于基础V-L模型。
  • 提出了针对文本和视觉分支的多模态测试时提示调整。基于从基础到新颖的泛化、领域泛化以及跨数据集转移的实证评估显示了我们方法的效率高于现有方法。
    在这里插入图片描述

2 Related Work

clip里面取max,PromptSync变成了取平均?

2.1 CLIP

在这里插入图片描述

  • Clip测试阶段,图像特征与文本特征做余弦相似度计算,相似度最大的即为对应的类别。

2.2 TPT

在这里插入图片描述
在这里插入图片描述

  • 在过滤后的增强视图上,模型产生的向量类概率的平均值,即为平均类概率,平均类概率作为权重,对齐类原型与过滤增强试图。

3 Methodology

3.1 提出方法PromptSync

3.2 类感知原型生成(视觉原型?语言原型?)

代理数据集:用于训练模型的数据集,在本文中指定了代理数据集
原型:对于每个类别原型,定义为该类别所有样本特征向量的平均值
生成类感知原型:

在这里插入图片描述

  • h x t h_x^t hxt:样本x在文本t上的原型向量
  • h x v h_x^v hxv:样本x在视觉v上的原型向量
  • h C L S , x v h_{CLS,x}^v hCLS,xv:样本x在视觉v上 [CLS] token的原型向量
  • ET (x, ei):样本x的第i个token在文本编码器T的输出
  • EV (x, ei):样本x的第i个token在图像编码器V的输出
  • P=所有tokens的数量(包括可学习、不可学习、文本、图像)(不包括SOS、EOS、CLS)
  • token:文本数据中的基本单元,通常是一个词或一个字符,每个token都会被映射成一个对应的向量表示,向量表示了token的语义信息。

在这里插入图片描述

Q:为什么不包括class token?

在文本原型计算时,每个类别计算都去掉了SOS、EOS、CLS,用的是(t1、t2、…、tL),那计算出来的文本原型,都是一样的?

3.3 原型判别损失

训练可学习提示,使用对比学习的方法,拉近同一类别样本在嵌入空间中的距离,将不同类别的样本推开,实现更好的样本分类和原型分布

3.3.1 正对样本损失

在这里插入图片描述

L p o s ( c k ) \mathcal{L}_{pos}(c_k) Lpos(ck) :正对样本positive的损失,拉近同类别原型和增强视图
计算了每个增强视图𝑎𝑢𝑔与类别 𝑐𝑘的原型向量 ℎ𝑐𝑘𝑚之间的相似度,将相似度值取指数,进行加权平均

3.3.2 负对样本损失

在这里插入图片描述

L n e g ( c k ) \mathcal{L}_{neg}(c_k) Lneg(ck) :负对样本negative的损失,推开不同类别原型和增强视图
分成三部分

  • 𝑐𝑘原型向量和其他所有类别原型向量hcm的相似度
  • 𝑐𝑘的增强视图和其他所有类别的原型向量hcm的相似度
  • 𝑐𝑘原型向量和其他所有类别增强视图的相似度
Q:为什么不用计算𝑐𝑘的增强视图和其他所有类别增强视图的相似度?

3.3.3 最终的优化目标

在这里插入图片描述
在这里插入图片描述

L D \mathcal{L}_{D} LD :正对样本损失和负对样本损失的比率的负对数,即最终的优化目标

  • 最小化ld,即为最大化求和的部分
  • 最大化lpos(拉近本身与增强图像的相似度)
  • 最小化lneg(减小本身与其他类别的相似性)

3.4 原型对齐损失

  • Ld能够有效区分不同的类别,但无法调整测试样本的提示
  • 提出测试样本及其增强视图,与源分布中类原型的对齐
  • 对于每个测试样本𝑥𝑖,以及每个类别𝑐,计算测试样本𝑥𝑖的原型
  • p x i m p_{xi}^m pxim与类别𝑐的类原型 𝑝𝑐𝑚之间的振幅对齐损失和角度对齐损失
  • pˆp[c] :测试样本最可能的类别,均值概率,作为LA的权重,作者后面会讲到

3.4.1 振幅对齐损失

测试样本的原型与类原型之间的距离
在这里插入图片描述

3.4.2 角度对齐损失

测试样本的原型与类原型之间的角度相似度
在这里插入图片描述
我们要最大化他们的角度相似度,因此最大化L’ang

3.4.3 合并

在计算损失时,均方误差损失对于一定范围内的误差增加会给予相等的惩罚,而我们希望在小范围内的误差增加时给予更大的惩罚,因此作者将损失取对数。
在这里插入图片描述

在这里插入图片描述
其中,最大化角度相似度,因此最大化L’ang,最小化Lang
在这里插入图片描述

3.5 算法的细节

3.5.1 计算原型判别损失

在源数据集上计算原型判别损失需要使用 CLIP 模型的预训练数据集,CLIP 模型是在超过 4 亿个图像文本对上进行训练的,数据不公开可用。因此,为了近似源数据集,作者选择使用了 ImageNet 数据集。在 ImageNet 上计算出每个类别的原型,这些原型是离线计算的,包括了样本和其增强视图。

3.5.2 测试时间适应过程

在每次迭代的测试中

  • 元训练阶段:使用原判别目标函数LD进行训练,计算梯度,得到更新后的提示
  • 元测试阶段:使用更新后的提示,设置置信度阈值,过滤增强视图的预测概率,计算在F上的均值概率p,并作为LA中的权重。计算梯度。
  • 计算梯度平均值,使用组合目标更新提示
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

3.5.3 多次迭代更新

n>1时,会累计平均梯度,然后进行最终的提示更新

4 实验

数据集:

  • 作者在ImageNetV2、ImageNet-Sketch、ImageNet-A 和 ImageNet-R进行评估
  • 还考虑了Photorealistic Unreal Graphics (PUG) 数据集(包括不同的纹理、大小、方向和背景)
  • 对于跨数据集转移设置,作者考虑了10个不同的图像分类数据集,包括 Caltech 101、StanfordCars、Food101、Flowers102、FGVC-Aircraft、OxfordPets、SUN397、DTD、UCF101 和 EUROSAT

4.1 baseline对比

包括 CoOp、CoCoOp、TPT 、 PromptAlign、MaPLe

4.2 实施细节

  • 在单个 NVIDIA A100 40GB GPU 上运行了所有实验
  • 在 ImageNet 上进行了训练,使用随机选择的 16 张图像作为每个类别的训练数据
  • 使用 2 个提示标记进行 3 层深度的训练
  • 图像增强:使用随机裁剪、背景替换、水平翻转增强和视觉损坏,对每个测试图像进行了 127 个不同视图的增强
  • 文本增强:作者使用了 WordNet 中的同义词、反义词和部分词

4.3 领域泛化

在这里插入图片描述

表1,对比了各种方法在不同数据集上的性能,平均值表示了对所有领域的平均性能。

表2中,着重比较了在领域泛化设置下针对分布对齐的性能,具体指标包括相机姿态、姿势、尺度、纹理、光照和世界。

4.4 Base to Novel

在这里插入图片描述

MaPLE+TPT后部分会下降

4.5 跨数据集转移性能

在这里插入图片描述

5 消融实验

在这里插入图片描述

表5,熵损失、对齐损失、判别损失的消融实验
在这里插入图片描述
表6,对齐损失的消融实验

6 性能和延迟

在这里插入图片描述
延迟:单个提示更新的时间(小时)
PromptSync*变体展示了更快的处理时间,而性能仅略有下降。这个结果强调了通过原型对齐实现的泛化。

7 敏感性比较

在这里插入图片描述
图2a,随着增强视图数量的增加,准确率上升
图2b,准确率随着提示更新步次数的增加而提高

8 LAION400M代理数据集分析

我们选择ImageNet作为可行的代理源数据集,使用LAION400M的子集

9 Conclusion

总之,PromptSync显著改善了视觉语言模型中的zero-shot泛化。我们的方法解决了类优势和方差问题,总体上比现有方法高出2.33%,在领域泛化基准上,从基础到新的泛化提高了1%,跨数据集传输提高了2.84%。这强调了PromptSync在增强视觉语言模型稳健性方面的有效性。

TPT(2022 NeurIPS)

imagenet里面没有的类别,怎么对齐?

PromptAlign(2023 NeurIPS)

多模态测试时间提示调优方法
将视觉分支中测试样本的令牌分布与完整代理源数据集的预计算统计数据对齐,而不考虑一个类分布可能具有与其他类不同的均值和方差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1625426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cgicc搭建交叉编译环境(移植到arm)

Cgicc GUN Project官网连接:Cgicc- GNU Project - Free Software Foundation 1. 下载源码 Cgicc下载地址: [via http] Index of /gnu/cgicc [via FTP] ftp://ftp.gnu.org/gnu/cgicc/ 目前最新版:3.2.20 2. 源码构建原理 一般&#xff…

POCEXP编写—EXP编写实战(1)

TOC 1. 前言 通过上一篇文章的了解,应该都了解了POC是怎么编写的,而且POC和EXP的区别就是POC只能验证漏洞,简单来说就是通过判断特定的响应值来判断是否存在漏洞,而且EXP就需要将响应的内容给返回回来,但是整体在编写…

vue中的mixin(局部混入、全局混入)

一、mixin是什么 Mixin是面向对象程序设计语言中的类,提供了方法的实现。其他类可以访问mixin类的方法而不必成为其子类;Mixin类通常作为功能模块使用,在需要该功能时“混入”,有利于代码复用又避免了多继承的复杂 Vue中的mixin…

低空经济概念

低空经济是指利用低空空域资源,通过低空交通工具和技术创新发展,促进航空产业、旅游、物流、紧急救援等多领域经济增长和产业融合。随着科技的不断进步和航空产业的快速发展,低空经济正逐渐成为全球经济的重要组成部分。 一、低空经济的主要特…

大数据计算引擎中的Calcite

1.Calcite介绍 Calcite是一个动态数据库管理框架,具备数据库管理系统的功能 Calcite具备SQL解析、校验、优化、生成、连接查询等功能 Calcite能够为不同平台和数据源提供统一的查询引擎 2.Calcite能力 比如,对于HBase而言,没有SQL查询的能力…

✨“光纤通信新篇章:BiDi单纤模块的原理与应用”

💡目录 ❓什么是BiDi单纤模块? 🔧BiDi光模块的工作原理 🌟BiDi光模块的优势 🌵BiDi光模块类型介绍 🌠BiDi SFP光模块 🌠BiDi SFP光模块 🌠BiDi X2光模块 🌠BiDi …

科技论文网站:中国科技论文在线

文章目录 1. Intro2. Main3. Cons Evaluation彩蛋:科学素质 这是作者最后一次发这种级别的科普文章 1. Intro 中国科技论文在线是经教育部批准,由教育部科技发展中心主办, 利用现代信息技术手段,打破传统出版物的概念&#xff0c…

NLP step by step -- 了解Transformer

Transformer模型 Transformer相关历史 首先我们先看一下有关Transformer模型的发展历史,下面的图是基于Transformer架构的一些关键模型节点: 图片来源于Hugging Face 图片来源于Hugging Face Transformer 架构 于 2017 年 6 月推出。原本研究的重点是…

GITEE 基于OAuth2的API V5版本

为了构建更好的码云生态环境,我们推出了基于OAuth2的API V5版本。 API V5接口使用方式以及Url都参照GitHub,为了各位开发者更好的兼容已经存在的第三方应用。 API 使用条款 OSCHINA 用户是资源的拥有者,需尊重和保护用户的权益。不能在应用…

信创需求激增,国产服务器操作系统赋能数字化转型

信创,即信息技术应用创新,是指在关键领域和环节推进信息技术的自主创新,构建安全可控的信息技术体系。随着数字化转型的加速,信创需求激增,国产服务器操作系统在其中扮演着至关重要的角色。国产服务器操作系统如何赋能…

TikTok营销攻略:如何精准测试与优化品牌营销策略

在当今数字营销的世界中,社交媒体平台已成为吸引目标受众的重要工具。而TikTok,作为一个快速崛起的视频分享平台,在年轻人中享有巨大的流行度。对于那些希望利用这一平台进行营销的品牌和营销人员来说,了解如何在TikTok上测试营销…

[Rust开发]在Rust中使用geos的空间索引编码实例

geos的空间索引用的是STRTree,这是一种基于STR算法的四叉树索引,有如下特点: 使用Sort-Tile-Recursive (STR) 算法创建的仅查询的R-tree空间索引 STR(Sort-Tile-Recursive,递归网格排序) 基本思想是将所有的矩形以“tile”的方式分配到r/n&a…

使用Azure AI Search和LlamaIndex构建高级RAG应用

RAG 是一种将公司信息合并到基于大型语言模型 (LLM) 的应用程序中的常用方法。借助 RAG,AI 应用程序可以近乎实时地访问最新信息,团队可以保持对其数据的控制。 在 RAG 中,您可以评估和修改各个阶段以改进结果&#x…

大型企业高效内部协同,向日葵SDK私有化部署案例解析

大型集团企业的内部,沟通协作的重要性不言而喻,我们时常能听到关于所谓“大企业病”的吐槽,多数也是源于企业内部沟通协作效率低,进而导致内耗加重。甚至我们可以这么说,越是发展壮大的集团企业,其内部的沟…

力扣刷题学习(跟随视频学着刷)

使用入门 视频链接 【手把手带你刷Leetcode力扣|各个击破数据结构和算法|大厂面试必备技能【已完结】-哔哩哔哩】 https://b23.tv/vIcRT61 时空复杂度 时间: 空间:主要有O(1)和O(n)两种,只用计算开辟的内存&#xff…

3月份牛奶线上市场数据分析:销售额累计近18亿元

随着消费者健康意识的提升,牛奶作为日常营养补充品,其市场需求逐年增加。线上市场具有购买便捷性、价格透明性等优势,越来越多的消费者倾向于线上购买。 今年3月份,牛奶乳品市场呈现稳定发展状态。根据鲸参谋数据显示&#xff0c…

深度解析1688关键字搜索API接口:技术实现与应用探索

1688关键字搜索API接口的技术实现主要依赖于阿里巴巴开放平台提供的API服务。商家和开发者通过调用这些API接口,可以实现商品的搜索、排序、筛选、分页等功能。具体来说,技术实现主要包括以下几个步骤: 注册并获取API密钥:首先&am…

python爬虫插件XPath的安装

概要 XPath Helper是一款专用于chrome内核浏览器的实用型爬虫网页解析工具。XPath可以轻松快捷地找到目标信息对应的Xpath节点,获取xpath规则,并提取目标信息,并进行校对测试;可对查询出的xpath进行编辑,正确编辑的结…

一文解析golang中的协程与GMP模型

文章目录 前言1、线程实现模型1.1、用户级线程与内核级线程1.2、内核级线程模型1.3、用户级线程模型1.3、两级线程模型 2、GMP模型2.1、GMP模型概述2.1、GMP v1版本 - GM模型2.2、GMP v2版本 - GMP模型2.3、GMP相关源码2.4 调度流程2.5 设计思想 3.总结 前言 并发(并行&#x…

Golang-Gin 框架写的免杀平台,内置分离、捆绑等多种BypassAV方式

Golang-Gin 框架写的免杀平台,内置分离、捆绑等多种BypassAV方式 Golang-Gin 框架写的免杀平台,内置分离、捆绑等多种BypassAV方式。 cool 时间线: Golang Gin 框架写的免杀平台- (2021.11.12)Golang Gin 框架写的免杀平台,更…