Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement

news2026/3/15 20:51:52

APE是ICCV2023的一篇文章，也是我在这个领域里接触的第一篇文章，这里主要做一下记录。

论文链接：2304.01195.pdf (arxiv.org)

代码链接：yangyangyang127/APE: [ICCV 2023] Code for "Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement" (github.com)

概述

对于多模态任务而言，大量数据的获得是耗费人力和物力的，因此few-shot的训练方式一直备受关注。目前已经证实了CLIP模型的超强性能，很多研究人员提出了基于CLIP的检测算法，然而多数都是在研究如何更好地利用CLIP提取出的features，本文则从“Not All Features Matter”的角度进行了新的探索，提出了一个Adaptive Prior rEfinement方法，用于处理特征中的冗余信息，除此之外还提出了无需训练的APE和需要训练的APE-T方法。

相关介绍

基于CLIP的few-shot的图像分类工作已经存在很多，大致可以分为两类——Non-prior Methods和Prior-based Methods。

如上图所示，图(a)就是前者[CLIP-Adapter]，这种方法随机初始化无CLIP先验的可学习模块，并在少量训练中进行优化。这种网络只引入了轻量级的可学习参数，但由于没有为附加模块明确考虑预训练的先验知识，因此其精度有限。图(b)为Prior-based Methods，基于先验的方法(Prior-based Methods)通过从少数镜头数据中提取clip提取的特征构建键值缓存模型，能够以不需要训练的方式进行识别，包括Tip-Adapter和Tip-X。他们可以进一步将缓存模型视为执行良好的初始化，并微调缓存键以获得更好的分类精度。这些基于先验的方法明确地将先验知识注入到训练过程中，但由于缓存大小大且可学习参数多，因此比较麻烦。而作者的想法就是将二者结合起来，提出了一个对the test image, the refined cache model, and the textual representations的三角关系进行探究的APE方法。

模型结构

Prior Refinement of CLIP

这个模块主要是通过提出的两个指标对特征进行去冗余操作，实现对不同的下游任务场景提取出重要的特征通道，从而改善特征质量。

Inter-class Similarity

如果直接按照上图计算，那么计算成本过大，由于预训练好的CLIP已经能够很好对视觉语言信息进行匹配，因此作者选择使用文本特征替代图像的计算。通过计算得到了特征通道之间的相似度，从而能够选择出相似度较小的一部分特征通道，作为重要信息。

Inter-class Variance

除了计算Inter-class Similarity，作者还引入了 Inter-class Variance用于提出差异度较大的一部分特征通道。

最后通过调节系数对二者进行调整，构成了文章所提出了Prior Refinement of CLIP。其实，可以看出这个操作和通道注意力存在类似的思想，都是在通道维度上进行信息加强，还有很多其他的工作也是基于了类似的思想，可以作为一个idea用于不同领域，值得借鉴。

Training-free APE

如上图所示，基于先验优化(PR)， APE以无训练的方式探索了视觉语言表征的三边关系。

Training-required APE-T

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/852719.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【深度学习注意力机制系列】—— SKNet注意力机制（附pytorch实现）

【深度学习注意力机制系列】—— SKNet注意力机制（附pytorch实现）

SKNet（Selective Kernel Network）是一种用于图像分类和目标检测任务的深度神经网络架构，其核心创新是引入了选择性的多尺度卷积核（Selective Kernel）以及一种新颖的注意力机制，从而在不增加网络复杂性的情况…

阅读更多...

立即开始使用 3D 图像

立即开始使用 3D 图像

一、说明这个故事介绍了使用这种类型的数据来训练机器学习3D模型。特别是，我们讨论了Kaggle中可用的MNIST数据集的3D版本，以及如何使用Keras训练模型识别3D数字。 3D 数据无处不在。由于我们希望构建AI来与我们的物理世界进行交互，因此使用3…

阅读更多...

安装LED透明屏需要注意这4点

安装LED透明屏需要注意这4点

随着LED显示屏的广泛应用，各种大屏幕随处可见。透明LED显示屏的安装方法多种多样，涵盖了屋顶式、立柱式、挂式、壁挂式和镶嵌式等多种方式。虽然安装LED透明屏不像安装空调等广告载体那样简单，但也并非极其复杂。考虑到LED透明屏的特殊性&…

阅读更多...

LM+retrieval

LM+retrieval

retrievalLM https://acl2023-retrieval-lm.github.io/ 在input层利用retrieval信息主要是通过通过相似度计算或者重要性计算在datasets中得到与询问x最相关的k个document,讲文档放在询问x前面组成新的LM的输入，获取额外知识以回答问题。在intermediate layer…

阅读更多...

nacos2.2.3 删除永久实例

nacos2.2.3 删除永久实例

问题描述在nacos2.2.3中删除非临时性实例报错解决方案在命令行下执行命令： curl -X DELETE "http://127.0.0.1:8848/nacos/v1/ns/instance?serviceNamenacos-restTemplate-stock&groupNameDEFAULT_GROUP&namespaceIdpublic&ip192.168.1…

阅读更多...

全网最牛，接口自动化-Linux系统安装Jenkins+Ant详细步骤

全网最牛，接口自动化-Linux系统安装Jenkins+Ant详细步骤

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言在Linux系统上安装…

阅读更多...

GPT-4助力数据分析：提升效率与洞察力的未来关键技术 | 京东云技术团队

GPT-4助力数据分析：提升效率与洞察力的未来关键技术 | 京东云技术团队

摘要随着大数据时代的到来，数据分析已经成为企业和组织的核心竞争力。然而，传统的数据分析方法往往无法满足日益增长的数据分析需求的数量和复杂性。在这种背景下，ChatGPT-4作为一种先进的自然语言处理技术，为数据分析带来了革命…

阅读更多...

FastAPI和Flask：构建RESTful API的比较分析

FastAPI和Flask：构建RESTful API的比较分析

Python 是一种功能强大的编程语言，广泛应用于 Web 开发领域。FastAPI 和 Flask 是 Python Web 开发中最受欢迎的两个框架。本文将对 FastAPI 和 Flask 进行综合对比，探讨它们在语法和表达能力、生态系统和社区支持、性能和扩展性、开发工具和调试支持、安…

阅读更多...

一键批量删除文件名中的空格，轻松整理您的文件

一键批量删除文件名中的空格，轻松整理您的文件

随着数字化时代的到来，我们的电脑里积攒了越来越多的文件，但是随之而来的问题是，文件名中的空格可能会导致一些不便和混乱。为了解决这一问题，我们开发了一款便捷实用的工具，可以一键批量删除文件名中的空格&#xff0…

阅读更多...

ORM 之阿里 Fluent-Mybatis主推动态SQL 你学废了吗？

ORM 之阿里 Fluent-Mybatis主推动态SQL 你学废了吗？

Mybatis作为在东亚开发者市场上占有绝对的使用优势，在中国大陆上讨论Mybatis优化的项目也是挺活跃。局限于原始Mybatis繁琐的流程，自动代码生成、声明式SQL、动态SQL，以及诸多细节的内容：多租户、多数据源、数据脱敏、SQL审计、…

阅读更多...

MyBatis查询数据库之三(#{}vs${}，like查询，resultMap，as，多表查询)

MyBatis查询数据库之三(#{}vs${}，like查询，resultMap，as，多表查询)

目录查询操作 1.单表查询 1.1 参数占位符#{}和${} 1.2 ${}的优点 1.3 sql注入问题编辑面试常问：${}与#{}的区别 1.4 like查询 2.多表查询 2.1 返回字典映射：resultMap 2.2 多表查询 （1）建立 Articalinfo 实体类&a…

阅读更多...

所有AI图都在这了

所有AI图都在这了

最近一直在玩AI生图，有点拔不出来了，喜欢生图的感觉，日积月累，已经有几千张图片了，想把这些图片都分享出来给大家欣赏，云盘、图片APP，感觉都不好用，最后熬夜码了一个属于自己的图片管…

阅读更多...

(树) 剑指 Offer 68 - II. 二叉树的最近公共祖先 ——【Leetcode每日一题】

(树) 剑指 Offer 68 - II. 二叉树的最近公共祖先 ——【Leetcode每日一题】

❓剑指 Offer 68 - II. 二叉树的最近公共祖先难度：简单给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：“对于有根树 T 的两个结点 p、q，最近公共祖先表示为一个结点 x，满足 x 是…

阅读更多...

2462. 雇佣 K 位工人的总代价

2462. 雇佣 K 位工人的总代价

题目描述： 主要思路： 分别维护两个堆，取左右两边最小的那个。 class Solution { public:long long totalCost(vector<int>& costs, int k, int candidates) {priority_queue<int,vector<int>,greater<int>> ql…

阅读更多...

清洗无效邮箱地址,让邮件营销更高效

清洗无效邮箱地址,让邮件营销更高效

作为一种低成本、高回报的营销手段，电子邮件营销因其传播效率高、营销范围广的特点被广泛应用。虽然现在短视频营销、搜索引擎营销、自媒体营销、内容营销等各种网络营销方式层出不穷。但是在整个网络营销宣传活动中，大多数企业还是会选择把邮件营销作为…

阅读更多...

【Java从入门到大牛】File和IO流上篇

【Java从入门到大牛】File和IO流上篇

🔥 本文由程序喵正在路上原创，CSDN首发！ 💖 系列专栏：Java从入门到大牛 🌠 首发时间：2023年8月9日 🦋 欢迎关注🖱点赞👍收藏🌟留言&#x1f43e…

阅读更多...

《合成孔径雷达成像算法与实现》Figure3.5

《合成孔径雷达成像算法与实现》Figure3.5

clc clear all close all%参数设置 TBP 100; %时间带宽积 T 10e-6; %脉冲持续时间%参数计算 B TBP/T; %信号带宽 K B/T; …

阅读更多...

如何简化大型网络服务提供商中的DDoS防护事宜

如何简化大型网络服务提供商中的DDoS防护事宜

分布式拒绝服务（DDoS）攻击对服务提供商构成重大威胁，它们有可能破坏关键基础设施并扰乱业务运营。然而对于大型服务提供商而言实施和管理有效的DDoS防护解决方案可能非常复杂且成本高昂。下面，火伞云将和大家一起探讨如何简化大型…

阅读更多...

【云原生】kubernetes控制器deployment的使用

【云原生】kubernetes控制器deployment的使用

目录编辑 1 Controller 控制器 1.1 什么是 Controller 1.2 常见的 Controller 控制器 1.3 Controller 如何管理 Pod 2 Deployment 2.1 创建 deployment 2.2 查看 deployment 2.3 扩缩 deployment 2.4 回滚 deployment 2.5 删除 deployment 1 Controller 控制器 …

阅读更多...

idea如何上传项目到github(超详细)

idea如何上传项目到github(超详细)

idea如何上传项目到github 1、IDEA配置2、项目上传到本地仓库2.1、创建本地git仓库2.2、Add操作2.3、Commit操作 3、项目上传到Github4、拿到登录Github的token 1、IDEA配置 File-Settings-VersionControl-Git Git的安装路径下bin目录下的git.exe可执行文件可以直接点 Gene…

阅读更多...

推荐文章

最新文章