CVPR24_ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

news2025/1/22 17:58:00

Abstract

尽管软提示微调在调整视觉语言模型以适应下游任务方面表现出色,但在处理分布偏移方面存在局限性,通过属性引导提示微调(Attribute-Guided,ArGue)来解决这个问题

Contributions

  • 与直接在类名之前添加软提示的传统方法相比,通过大型语言模型(LLM)生成的原始视觉属性对齐模型,模型在这些属性上表达高置信度意味着其辨别正确类别理由的能力
  • 引入属性采样来消除不利属性,只有语义上有意义的属性被保留下来
  • 提出负提示,列举类别无关的属性以激活虚假相关性,并鼓励模型相对于这些负特征生成高度正交的概率分布

Intro.

在典型的分类任务中,提示微调直接在类名之前引入可学习的上下文。然而,零样本识别强调了将描述类别的视觉属性加入输入的重要性。尽管类名捕捉了高级语义,但在推断过程中,原始属性(例如,长尾/黑色爪子)提供了更精确的正则

本文通过识别VL模型中存在的捷径(shortcuts)来分析视觉属性对迁移学习的影响。这些模型在适应新任务时往往会提供不正确的决策理由。例如,正确地将天空中的物体分类为鸟,并不是因为它理解了语义特征,而是因为它检测到了鸟和天空之间的虚假相关性。一个主要突出虚假相关性的模型,例如背景,往往无法有效地推广到分布外数据。

与直接将图像特征与类名对齐的传统提示微调方法不同,ArGue鼓励模型在识别由LLMs生成的相关视觉属性时表现出高置信度。能够识别这些原始属性的模型捕捉到了类的正确理由,而不是受到虚假相关性的影响

关键优势:

  • 仅基于类名生成的属性自然地避免了图像中存在的捷径
  • 原始属性可能被其他类共享,增强模型的泛化能力

尽管经过细致的提示调整,直接从LLMs生成的属性的固有质量仍不稳定。提出了属性采样来选择最具代表性和非冗余的属性,使其与相应的图像对齐。利用属性池聚类来选择每个簇中最具代表性的属性,同时避免冗余。根据簇在特征空间中与图像的相似性对属性进行排名,选择最相关的属性。该过程为图像选择最具语义相关性的视觉属性,实验表明减少80%的属性数量会使准确性的提高,同时减少计算资源开销。

在属性引导提示调整的基础上,引入了负提示 ArGue-N。当提供一个不具有类别特定语义并激活虚假相关性的负属性时,模型应该避免偏向于任何类。**ArGue-N 提供了一个通用的负提示,即“the background of a {class}”,背景激活了与类别不相关的区域。在使用负提示时,强制模型产生均匀的预测概率分布。**尽管通用负提示假设较弱,但在分布外数据集上观察到了稳定性能提升。


Method

在这里插入图片描述

ArGue: Attribute-Guided Prompt Tuning

传统的训练方法使CLIP实现高准确度,但可能并没有找到图像中的对应属性的一种“捷径”。当提供鸟类的类名时,CLIP可能会与天空建立语义相关,引入了对背景而不是捕捉鸟类语义的依赖,对虚假相关性的依赖大大削弱了泛化能力。提出训练一个对相关视觉属性表现出高置信度的模型:

  • 与高级类别名称相比,明确与视觉属性对齐鼓励模型优先考虑类的内在语义
  • 表示低级特征的视觉属性可能与多个类共享,从而促进对新类别或分布外数据的泛化
    在这里插入图片描述
    直接获取这些视觉属性的一种方法是查询LLMs关于特定类别的视觉特征。LLM的输入仅包括类别名称,从根本上规避了图像中存在的学习捷径。形式上,给定任何标签 c c c,得到一系列属性。优化Eq.4意味着期望模型对标签的每个属性表现出高置信度,同时最小化其与任何其他属性的关联
    在这里插入图片描述

Attribute Sampling

虽然LLMs可以生成与类名相关的属性,但一些属性与视觉特征的语义相关性比其他属性更强。移除无效属性不仅减少了内存消耗,还提高了模型的准确性

  • 所选属性应既具有代表性又不重复
  • 所选属性应在语义上与特定类别的图像相关联

给定来自属性池的与类别 c c c 相关的属性 a t t r c attr_c attrc,根据它们在CLIP空间中的特征相似性将它们分成 N N N个簇,旨在确保每个簇代表一个不同信息,例如颜色或形状。在每个簇内,通过评估它们与CLIP空间内视觉特征的相似性来对属性进行排名,并选择与之最相关的属性,基于此过滤了:

  • 非视觉属性,例如“甜”,“可食用”
  • 与图像在语义上不相关的不正确的视觉属性

Prompt Regularization

少样本设置中,软提示学习的一个问题是模型可能会过拟合训练样本,在测试时导致未见数据的性能下降。提示正则化使软提示在特征空间中与自然文本接近,从而处理过拟合

Negative Prompting

使用负提示目标是明确列举缺乏特定类别信息的属性,期望模型在提供这些负属性时不偏向任何类别。当引入负提示,例如“the background of a cat”时,模型应该提供一个没有主导类的均匀预测。“the background of a [CLASS]"代表了一种典型的负属性,缺乏特定类别的信息,同时激活了图像中的虚假相关性。虽然可能提供更具体的负属性,但是为每个类手动标记开销较大,并且实验结果表明尽管“the background of a [CLASS]"是一个弱假设,其在大多数数据集上表现较好。

当模型过于依赖类别名称时,属性的影响往往会减弱。考虑到负提示包括类名,模型被设计为减弱负属性的影响,同时减弱类名的重要性。因此,模型能够识别并关注到由特定类别属性指示的区域,优先考虑这部分区域以获得精确的激活。为确保模型不偏向任何一个类,强制概率是均匀的(目标是最大化分布的熵)。

Experiments在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1569710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅析JavaWeb内存马基础原理与查杀思路

文章目录 前言Java内存马内存马分类&原理JavaWeb三大组件注入Servlet内存马注入Filter型内存马JAVA Agent内存马 哥斯拉木马0x01 WebShell0x02 MemShell0x03 FilterShell0x04 Arthas排查0x05 scanner查杀 总结 前言 几年前写过《Web安全-一句话木马》,主要介绍…

大意了MySQL关键字EXPLAIN

一、问题 然后explain带了单引号、以区别其关键字 二、报错如下 1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near explain, us.nickname AS user_send_nickname, ua.nickname…

探索未来智慧酒店网项目接口架构

在数字化时代,智慧酒店已成为酒店业发展的重要趋势之一。智慧酒店网项目接口架构作为支撑智慧酒店运营的核心技术之一,其设计和优化对于提升用户体验、提高管理效率具有重要意义。本文将深入探讨智慧酒店网项目接口架构的设计理念和关键要素。 ### 智慧…

上位机图像处理和嵌入式模块部署(qmacvisual并发执行)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 类似于qmacvisual这样的软件,其实价格并不便宜。比如大家熟知的halcon、vision pro、vision master这样的软件,最便宜的版本…

练习实践-TLS02-会话恢复的两种形式-Session ID/SessionTicket

参考来源: 书籍:深入浅出https-从原理到实战(作者:虞卫东) 抓包分析文件可下载,来自github上的作者上传资源 会话恢复机制的背景 当客户端和服务器端握手成功,建立了一个完整的 TLS 连接&…

基于keepalived+gtid+双vip半同步主从复制的MySQL高性能集群

项目名称:基于keepalivedgtid双vip半同步主从复制的MySQL高性能集群 目录 项目名称:基于keepalivedgtid双vip半同步主从复制的MySQL高性能集群 项目规划图 1.配置4台MySQL服务器(1台master,2台slave,1台backup&a…

【Django开发】0到1美多商城项目md教程第5篇:短信验证码,1. 避免频繁发送短信验证码逻辑分析【附代码文档】

美多商城完整教程(附代码资料)主要内容讲述:欢迎来到美多商城!,项目准备。展示用户注册页面,创建用户模块子应用。用户注册业务实现,用户注册前端逻辑。图形验证码,图形验证码接口设…

江协STM32:定时器定时中断和定时器定时闹钟

定时器中断 新建文件 按这个图来编写程序 第一步:RCC开启时钟,定时器到基准时钟和整个外设到工作时钟就会同时打开 第二步:选择时基单元的时钟源,对于定时中断选择内部时钟源 第三步:配置时基单元,ARR,P…

CSS设置网页背景

目录 概述: 1.background-color: 2.background-image: 3.background-repeat: 4.background-position: 5.background-attachment: 6.background-size: 7.background-origin: 8.background-…

【Linux】Ubuntu 磁盘管理

准备一个U盘或者SD卡(含读卡器),并将其格式化成 FAT32 格式,不要使用NTFS格式(这是微软的专利,大部分Linux系统不支持)和exFAT格式(有的Linux系统也不支持)。 如果Ubun…

Linux云计算之Linux基础2——Linux发行版本的安装

目录 一、彻底删除VMware 二、VMware-17虚拟机安装 三、MobaXterm 安装 四、Centos 发行版 7.9的安装 五、rockys 9.1的安装 六、ubuntu2204的安装 一、彻底删除VMware 在卸载VMware虚拟机之前,要先把与VMware相关的服务和进程终止 1. 在windows中按下【Windo…

【算法练习】28:选择排序学习笔记

一、选择排序的算法思想 弄懂选择排序算法,先得知道两个概念:未排序序列,已排序序列。 原理:以升序为例,选择排序算法的思想是,先将整个序列当做未排序的序列,以序列的第一个元素开始。然后从左…

Python快速入门系列-7(Python Web开发与框架介绍)

第七章:Python Web开发与框架介绍 7.1 Flask与Django简介7.1.1 Flask框架Flask的特点Flask的安装一个简单的Flask应用示例7.1.2 Django框架Django的特点Django的安装一个简单的Django应用示例7.2 前后端交互与数据传输7.2.1 前后端交互7.2.2 数据传输格式7.2.3 示例:使用Flas…

蓝桥杯23年第十四届省赛-异或和之和|拆位、贡献法

题目链接: 蓝桥杯2023年第十四届省赛真题-异或和之和 - C语言网 (dotcpp.com) 1.异或和之和 - 蓝桥云课 (lanqiao.cn) 参考题解: 蓝桥杯真题讲解:异或和之和 (拆位、贡献法)-CSDN博客 洛谷P9236 [蓝桥杯 2023 省 A]…

2024 年最新使用 Wechaty 开源框架搭建部署微信机器人(微信群智能客服案例)

读取联系人信息 获取当前机器人账号全部联系人信息 bot.on(ready, async () > {console.log("机器人准备完毕&#xff01;&#xff01;&#xff01;")let contactList await bot.Contact.findAll()for (let index 0; index < contactList.length; index) {…

STC89C51学习笔记(二)

STC89C51学习笔记&#xff08;二&#xff09; 综述&#xff1a;本文简要介绍了51单片机以及示例了如何成功运行一个程序&#xff08;点亮一个LED&#xff09;。 一、单片机介绍 单片机简称MCU&#xff0c;MCUCPURAMROM定时器中断系统通讯协议等单片机任务是信息采集、处理、…

Go 源码之互斥锁 Mutex

文章目录 一、总结二、源码&#xff08;一&#xff09;Mutex&#xff08;二&#xff09; Lock&#xff08;三&#xff09;Unlock 三、常见问题有劳各位看官 点赞、关注➕收藏 &#xff0c;你们的支持是我最大的动力&#xff01;&#xff01;&#xff01;接下来会不断更新 golan…

2.Swift基础控件:图标文字按钮

Swift图标标题按钮 一、自定义IconTitleButton类 import Foundation/* 枚举 设置 图片的位置 */ enum ButtonImagePosition : Int {case imageTop 0case imageLeftcase imageBottomcase imageRight } extension UIButton {/**type &#xff1a;image 的位置Space &#xff1…

代码审计-PHP原生开发篇SQL注入数据库监控正则搜索文件定位静态分析

文章目录 前言1、Bluecms-CNVD-1Day-常规注入审计分析2、emlog-CNVD-1Day-常规注入审计分析3、emlog-CNVD-1Day-2次注入审计分析 前言 挖掘技巧&#xff1a; -语句监控-数据库SQL监控排查可利用语句定向分析 -功能追踪-功能点文件SQL执行代码函数调用链追踪 -正则搜索-(update…

时序预测 | Matlab实现SOM-BP自组织映射结合BP神经网络时间序列预测

时序预测 | Matlab实现SOM-BP自组织映射结合BP神经网络时间序列预测 目录 时序预测 | Matlab实现SOM-BP自组织映射结合BP神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现SOM-BP自组织映射结合BP神经网络时间序列预测&#xff08;完整源码…