【视觉提示学习】3.21论文随想

news2025/3/22 6:57:09
. . Frontiers of Information Technology & Electronic Engineering. 2024, 25(1): 42-63 https://doi.org/10.1631/FITEE.2300389

中文综述,根据里面的架构,把视觉提示学习分成两类,一类是单模态提示学习(以vit为代表),一类是多模态提示学习(以clip为代表)接下来就是顺藤摸瓜去看对应的论文。

https://arxiv.org/pdf/2203.12119   Visual Prompt Tuning 

VPT:像是高效微调。图a是卷积神经网络适应新任务时的策略,仅微调部分参数,如检测头,偏置项等等,图b是vpt的工作,冻结backbone,在输入时引端入一部分参数作为prompt,微调输入参数与检测头。

探索了两个版本,一个浅提示,一个深提示,浅提示就是只在最开始的encoder层加一组p个连续的d维嵌入(即prompts),深提示就是每个encoder开始都会加。

【与主线无关的记录】:1.迁移学习在卷积神经网络(ConvNet)的视觉任务中已经得到了广泛研究,并引入了许多技术,包括侧调(side tuning)、残差适配器(residual adapter)、偏置调整(bias tuning)等。为了基准测试目的,我们重点关注以下两种代表性方法:适配器(Adapters)和BitFit。适配器在每个Transformer层内部插入额外的轻量级模块。一个适配器模块通常包括一个线性降维投影,随后是一个非线性激活函数,以及一个线性升维投影,同时带有残差连接。与插入新模块不同,[8]提出在微调卷积神经网络时,仅更新偏置项并冻结其余骨干网络参数。BitFit[5]将这种技术应用于Transformer,并验证了其在语言模型调整中的有效性。2.结果图有个蛮有意思的,mark一下 t-SNE.

Learning Common and Specific Visual Prompts for Domain Generalization

问题公式化定义:

CSVPT算法:说到底,原先VPT是一个任务训练一组常数prompt张量,现在变成了不仅仅是训练一组常数,还要训练一个网络,将输入的图片放到网络里面的输出作为prompt张量。【也就是文章中提到的特定提示和共通提示】最后把二者相加。【感觉这里有点像做了个残差连接 合起来的效果只会是只升不降的?后面看消融实验也是 只有特定提示的效果降了】

也是设计了两种具体的实现方式:CSVPT-Shallow和CSVPT-Deep。

【与主线无关的记录】:1.尽管深度学习在许多领域取得了显著的成功,但它依赖于训练和测试数据是独立同分布(i.i.d.)的假设。(5. Z. Shen, J. Liu, Y. He, X. Zhang, R. Xu, H. Yu, and P. Cui, “Towards out-ofdistribution generalization: A survey,” arXiv preprint arXiv:2108.13624, 2021. 4273)然而,这一假设在实际应用中并不总是成立。当在不同条件下或从不同来源收集数据时,测试数据往往来自与训练数据不同的分布。分布外(OOD)问题显著降低了深度模型的性能。近年来,DG算法取得了进展,其中最常见的是学习跨领域的不变特征和将模型参数分解为共享和领域特定的组件。然而,一些研究人员发现,在多样化的DG基准测试中,没有任何现有的DG方法能够显著优于简单的基线模型。这是因为训练和测试分布之间的差异太大,仅从训练领域中无法学习到领域不变特征或获得出色的共享 - 特定分解。2.分解学习可以分为以下三类:特征分解学习:尝试将特征表示分解为两部分,即领域特定部分和领域共通部分。之后,我们可以仅使用领域共通特征,或将其与增强的领域特定特征结合用于预测。预测器分解学习:例如CSD,它学习一个领域共通的预测器(有助于泛化)和一个领域特定的预测器(可能会损害泛化)。在训练完成后丢弃领域特定的预测器,仅使用共通预测器进行预测。梯度分解学习:例如AndMask,仅在不同领域的梯度指向同一方向时更新权重,即保留领域共通的梯度分量。3.当训练和测试数据是独立同分布时,全微调通常优于线性探测。然而,一些研究人员指出,全微调可能会扭曲预训练特征,并在分布外表现不佳,因为在分布内的训练数据特征被大幅更新,而分布外数据的特征变化较小。Ananya Kumar等人提出了一种两步方法(先线性探测,然后全微调)来解决这一问题。此外,一些研究人员利用预训练模型中的互信息正则化,称为互信息正则化与预训练模型(Mutual Information Regularization with Oracle,MIRO),以防止过拟合和特征扭曲。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2319407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(一)丶Windows安装RabbitMQ可能会遇到的问题

一丶可能会忘了配置ERLang的环境变量 二丶执行命令时报错 第一步 rabbitmq-plugins enable rabbitmq_management 第二部 rabbitmqctl status 三丶修改.erlang.cookie 文件 1.找到C盘目下的.erlang.cookie文件 C:\Users\admin\.erlang.cookie C:\Windows\System32\config\sys…

Mistral AI发布开源多模态模型Mistral Small 3.1:240亿参数实现超越GPT-4o Mini的性能

法国人工智能初创公司Mistral AI于2025年3月正式推出新一代开源模型Mistral Small 3.1 ,该模型凭借240亿参数的轻量级设计,在多项基准测试中表现优异,甚至超越了Google的Gemma 3和OpenAI的GPT-4o Mini等主流专有模型。 1、核心特性与优势 多…

springboot整合mybatis-plus【详细版】

目录 一,简介 1. 什么是mybatis-plus2.mybatis-plus特点 二,搭建基本环境 1. 导入基本依赖:2. 编写配置文件3. 创建实体类4. 编写controller层5. 编写service接口6. 编写service层7. 编写mapper层 三,基本知识介绍 1. 基本注解 T…

Qt之MVC架构MVD

什么是MVC架构: MVC模式(Model–view–controller)是软件工程中的一种软件架构模式,把软件系统分为三个基本部分:模型(Model)、视图(View)和控制器(Controll…

深度解析学术论文成果评估(Artifact Evaluation):从历史到现状

深度解析学术论文成果评估(Artifact Evaluation):从历史到现状 引言 在计算机科学和工程领域的学术研究中,可重复性和可验证性越来越受到重视。随着实验性研究的复杂性不断增加,确保研究成果可以被其他研究者验证和构建变得尤为重要。这一需…

二分查找上下界问题的思考

背景 最近在做力扣hot100中的二分查找题目时,发现很多题目都用到了二分查找的变种问题,即二分查找上下界问题,例如以下题目: 35. 搜索插入位置 74. 搜索二维矩阵 34. 在排序数组中查找元素的第一个和最后一个位置 它们不同于查找…

关于FastAPI框架的面试题及答案解析

FastAPl是一个现代、快速(高性能)的Web框架,用于构建API,基于Python3.7+的类型提示功能。它由Python开发者SebastianRamirez创建,并且使用了Starlette作为其核心组件以及Pydantic进行数据验证。 文章目录 基础篇1. FastAPI的核心优势是什么?2. 如何定义一个GET请求路由?…

HashMap添加元素的流程图

文章目录 JDK7 vs JDK8 的 HashMap 结构变化Java8 中哈希表的红黑树优化机制HashMap 添加元素的完整流程解析1. 计算 key 的哈希值并确定索引2. 检查该索引位置是否已有元素3. 处理哈希冲突4. 判断当前存储结构(链表还是红黑树)5. 判断链表长度是否超过 …

面向医药仓储场景下的药品分拣控制策略方法 研究(大纲)

面向医药仓储场景下的药品分拣控制策略方法研究 基于多机器人协同与智能调度的分拣系统设计 第一章 绪论 1.1 研究背景与意义 医药仓储自动化需求: 人工分拣效率低、出错率高(如药品批次混淆、过期风险)温控药品(如疫苗、生物制…

AI大模型介绍

大模型介绍 大模型是指具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数 开发大模型不是从0开始,是建立在已有的大模型基座模型上做开发,构建企业知识库(向量数据库…

OpenPCDet详细部署与复现

OpenPCDet简介 OpenPCDet是一个用于3D目标检测的开源工具箱,它提供了多种数据集的加载器,支持多种模型,并且易于扩展。 本人使用硬件与环境 Linux操作系统(Ubuntu20.04) Python环境(Anaconda下独立创建&…

同旺科技USB to I2C 适配器 ---- 指令之间延时功能

所需设备: 内附链接 1、同旺科技USB to I2C 适配器 1、指令之间需要延时发送怎么办?循环过程需要延时怎么办?如何定时发送?现在这些都可以轻松解决; 2、只要在 “发送数据” 栏的Delay单元格里面输入相应的延迟时间就…

网络华为HCIA+HCIP NFV

目录 NFV关键技术:虚拟化 NFV关键技术:云化 NFV架构 NFV标准架构 ​编辑 NFV架构功能模块 NFV架构接口 NFV关键技术:虚拟化 在NFV的道路上,虚拟化是基础,云化是关键。传统电信网络中,各个网元都是…

MySQL0基础学习记录-下载与安装

下载 下载地址: (Windows)https://dev.mysql.com/downloads/file/?id536787 安装 直接点next,出现: 点execute 然后一直next到这页: next 然后需要给root设置一个密码: 在next。。很多页…

集成学习(下):Stacking集成方法

一、Stacking的元学习革命 1.1 概念 Stacking(堆叠法) 是一种集成学习技术,通过组合多个基学习器(base learner)的预测结果,并利用一个元模型(meta-model)进行二次训练&#xff0c…

背包问题——动态规划的经典问题包括01背包问题和完全背包问题

01背包问题:给你多个物品每个物品只能选一次,要你在不超过背包容积(或者恰好等于)的情况下选择装价值最大的组合。如果没有动态规划的基础其实是很难理解这个问题的,所以看这篇文章之前先去学习一下动态规划的基本思想…

MyBatis 面试专题

MyBatis 面试专题 基础概念MyBatis中的工作原理MyBatis 与 Hibernate 的区别?#{} 和 ${} 的区别?MyBatis 的核心组件有哪些? 映射与配置如何传递多个参数?ResultMap 的作用是什么?动态 SQL 常用标签有哪些?…

Animation - AI Controller控制SKM_Manny的一些问题

一些学习笔记归档; 在UE5中,使用新的小白人骨骼:SKM_Manny,会跟UE4中的小白人有一些差别; 比如在用AI Controller控制使用该骨骼(配置默认的ABP_Manny Animation BP)角色的时候,需要…

安科瑞新能源防逆流解决方案:守护电网安全,赋能绿色能源利用

随着光伏、储能等新能源在用户侧的快速普及,如何避免电力逆流对电网造成冲击,成为行业关注的焦点。安科瑞凭借技术实力与丰富的产品矩阵,推出多场景新能源防逆流解决方案,以智能化手段助力用户实现安全、经济的能源管理&#xff0…

【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现全局状态管理

前言 在现代应用程序开发中,状态管理是构建复杂且可维护应用的关键。随着应用程序规模的增长,组件之间共享和同步状态变得越来越具有挑战性。如果处理不当,状态管理可能会导致代码混乱、难以调试,并最终影响应用程序的性能和可扩…