LMC:通过大模型合作与互相评估来进行无需训练的开放集识别

news2024/12/23 13:50:16

论文名称:

LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition

论文链接:

https://readpaper.com/paper/4803888389338169345

非常高兴跟大家分享我们接收于NeurIPS 2023的工作LMC:通过大模型合作与互相评估来进行无需训练的开放集识别。在这个工作中我们首先观察到,尤其从去年开始各式各样的大模型已经出现在我们的日常生活中,这些大模型往往具有丰富的知识,并具有不同的能力:比如ChatGPT具有丰富的常识;DALL-E模型可以帮助我们生成丰富的图片 ;CLIP模型可以帮我们对齐相关的图文对;而DINO模型则可以帮助我们对齐相关的图片……

图片

基于此在这个工作中,我们想要知道,我们可不可以让这些不同的大模型互相合作来更好地帮助我们呢?或者更细致地讲 我们可以让不同的大模型通过它们各自不同的能力来互相评估 以达成更好的效果吗?

图片

在这篇工作中,我们是以开放集识别这个任务为例,来探索大模型互相合作与评估的可能性。这个任务的定义是给定一张属于某个分类的图片,我们需要判断分类器在训练阶段有没有见过这个分类。在这个任务中 一个重要的问题是如何减少对于spurious-discriminative特征的依赖。

那么什么是spurious-discriminative特征呢?spurious-discriminative特征指的是在训练集中具有区分度,但是实际并不是独属于某一类的特征。比如说在下面这张图里大角羊的有角就是这样一个特征,我们发现在训练集中,大角羊是唯一具有这个特征的分类,可是在训练集之外,有很多其他分类也都有角。

由此来说,如果模型应该只关注训练集而产生了 有角是独属于大角羊的特征的错觉的话,这就可能会误导模型对于开放集的判定。

图片

为了解决这个问题,我们利用了不同的大模型的合作与相互的评估。具体来说,给定在训练集中存在的类别。

我们首先借助ChatGPT丰富的知识来生成一些其他类别,从而使得这些类别也具有这种spurious-discriminative特征,由此我们就可以刻意显性地强调,这种spurious-discriminative特征 并不是某一类所独有的。

除此之外,考虑到类别的图像往往比名字具有更多的细节,我们进一步通过大模型间的cross-assessing,也就是相互评估来为每类生成各种各样的图像来使得每一类可以被更好地理解。

图片

具体来说,为了让ChatGPT可以更好地生成上一页中所说的,具有spurious-discriminative特征的虚拟开放集,我们在与ChatGPT的交互中给出了两个设计。

首先如右图所示,我们使用中间逻辑来一步步地引导ChatGPT来更好地理解我们的目的与需求。

图片

同时为了让ChatGPT更全面地考虑到更多的spurious-discriminative特征,我们也进一步地引导ChatGPT 在每一轮结束之后进行自检,关于以上两个设计的细节,我们也推荐感兴趣的读者阅读我的论文原文来更进一步的理解。

图片

在通过ChatGPT得到虚拟开放集中类别的名字之后,我们想要进一步通过为每一类生成多样图片的方式来捕捉到每一类的更多细节。在这里为了达成这个目的 一种简单的方式,就是直接使用ChatGPT为每一类生成多样的描述,再使用这些描述来引导DALL-E做图片生成。

然而就如下图所示,这种方式往往并不能生成很精确的图片:

图片

比如第一行中,基于描述生成的圣诞树这张图片就与我们常规意义上理解的圣诞树有所差距。

由此我们提出了一个cross-assessing模块,在这个模块中 我们通过引导具有不同知识与能力的大模型互相评估的方式来生成具有更高质量的图片。我们也在右图中展示了我们的模块是如何循环迭代的,一步一步地从上到下来提升图像质量的。

图片

我们的模块通过循环进行这三步来运转:

第一步用模型来提供反馈;第二步,引导ChatGPT模型基于反馈来改善生成的描述;第三步,让DALL-E模型使用改善后的描述来生成图像。

关于这一部分的更多细节基于时间的考量,我们同样建议感兴趣的读者阅读的原文。在这一页与下一页中,我们则展示了一些实验结果,如本篇的图中所展示的一样:

图片

我们提出的LMC框架可以有效地避免开放集图片被误认为属于训练集,同时,我们也在现有常用的数据集与评估指标上,以无需训练的方式达到了比之前需要训练的方式更好的结果。

 READ  PAPER 

Q1 论文试图解决什么问题?

本文试图降低开放集识别任务对于spurious-discriminative特征的依赖。

Q2 这是否是一个新的问题?

这不是一个由本文新提出的问题。

Q3 这篇文章要验证一个什么科学假设?

本文旨在探索,具有丰富且各异知识的不同的现有大模型,能否互相合作与相互评估,来使得问题得以被更好的解决。

Q4 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

与本文相关的研究主要可以被归为以下两类,即开放集识别任务上相关的现有研究,以及与大模型相关的现有研究。

Q5 论文中提到的解决方案之关键是什么?

本文解决方案的关键在于,通过大模型间合作的方式,生成也具有spurious-discriminative特征的虚拟开放集类别。

Q6 论文中的实验是如何设计的?

本文中的实验在设定上,主要沿用了之前开放集识别这一任务上的实验设定,主要采用AUROC与OSCR两种指标进行实验评估。

Q7 用于定量评估的数据集是什么?代码有没有开源?

沿用前文,本文使用CIFAR10,CIFAR+10,CIFAR+50,TinyImageNet四个数据集进行定量评估。代码已开源。

Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设?

本文实验发现,由多个大模型合作与互相评估得到的LMC框架,在各项指标上都取得了最优的结果。这彰显了这一我们提出的框架的有效性。

Q9 这篇论文到底有什么贡献?

我们工作的贡献概述如下。
1)我们提出的 LMC 是一个新颖的框架,它可以通过协作不同的现成预训练大模型的方式,以互补的方式利用它们的知识,以免训练的方式处理开放集物体识别任务。
2)我们在 LMC 中引入了几种设计,以有效地从大型模型中提取文本和图像信息。
3)在评估基准上,LMC 实现了最先进的性能。

Q10 下一步呢?有什么工作可以继续深入?

下面,我们列出了后续研究工作可以进一步探究的几种可能的新方法:(1)如何将大型模型与传统的开放集物体识别方法相结合,以进一步提高性能;(2)如何通过黑盒优化算法(如 CMA 进化策略)促进黑盒大型模型在我们框架中的使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1418655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小项目:使用MQTT上传温湿度到Onenet服务器

前言 我们之前分别编写了 DHT11、ESP8266 和 MQTT 的代码,现在我们将它们仨整合在一起,来做一个温湿度检测小项目。这个项目可以实时地将 DHT11 传感器获取到的温湿度数据上传到 OneNET 平台。通过登录 OneNET,我们随时随地可以查看温湿度数…

windows消息循环之手撸一个Win32窗口程序

Windows消息循环(Windows Message Loop) 在Windows操作系统中,一个程序通过不断地接收和处理消息来保持活动状态的一种机制。在Windows编程中,消息循环是处理用户输入、操作系统事件和其他消息的关键部分。 在Windows应用程序中…

python 基础知识点(蓝桥杯python科目个人复习计划26)

今日复习内容:基础算法中的前缀和 1.定义: 前缀和:对于一个长度为n的列表a,前缀和为: sum[i] a[1] ...a[i];例如:a [1,2,3,4,5],则它的前缀和数组sum为:[1,3,6,10,15]。 2.前缀和的性质 …

c语言实战之贪吃蛇

文章目录 前言效果展示游戏用到的图片游戏思路一览游戏前准备一、贪吃蛇、食物、障碍物节点坐标的结构体二、枚举游戏状态、和贪吃蛇的方向三、维护运行的结构体 游戏开始前的初始化一、学习图形库相关知识二、设置背景三、欢迎界面四、初始化贪吃蛇五、生成障碍物六、生成食物…

董仲舒是中国两千多年主流思想的总建造师

仕途不得志,董仲舒在家教书。董仲舒写了《春秋繁露》,用来解释《春秋》。 董仲舒把诸子百家的思想吸收之后,融入儒家,把儒家发扬光大。 儒家思想体系,孔子是总设计师,董仲舒是总建造师,朱熹是…

linux centos 查看端口是否打开与打开端口

查看端口是否打开 talnet talnet ip 端口linux查看防火墙开放情况 firewall-cmd --list-all打开端口 其中permanent表示永久生效,public表示作用域,443/tcp表示端口和类型,执行规则的重载 firewall-cmd --zonepublic --add-port443/tcp …

D6287F——正反转马达驱动电路,采 用 SOP8的 封 装 形 式 封 装 。驱动电流最高可达1.0A

D6287F 是 一 块 正 反 转 马 达 驱 动 电 路 ,两 种 逻 辑 输 入 方 式 可 控 制 马 达 的 正 转 、 反 转 、 停 止 、 中 断 等 。 内 置 马 达 停 止 时 省 电 电 路 及 热 保 护 电 路 。 最 大 驱 动 电 流 达 1.0A 。 广 泛 用 于 VCRs及 音 频 设 备 等 电…

福州一酒店发生火灾 富维图像烟火识别来揭秘

最近,福州一家知名酒店发生了火灾事件,所幸及时控制,未造成重大伤亡。这一事件再次提醒我们,商业场所的火灾安全不可忽视。在这种情况下,北京富维图像公司推出的FIS智能图像识别系统就显得尤为重要。 FIS系统能够通过已…

开始学习第二十五天(番外)

今天分享一下写的小游戏啦 头文件game.h #include<stdio.h> #include<time.h> #include<stdlib.h> #define H 3 #define L 3 void InitBoard(char Board[H][L], int h, int l); void DisplayBoard(char Board[H][L], int h, int l); void playermove(cha…

游戏引擎在进化,下一代3D创建引擎#a16z

这是一篇发表在a16z的文章&#xff0c;文中的观点非常值得我们学习。我花了点时间对原文进行梳理&#xff0c;挑选/补充了一些信息&#xff0c;分享给大家。 a16z.com/unbundling-the-game-engine 解开游戏引擎&#xff1a;下一代3D创作引擎的崛起 作者&#xff1a;Troy Kirwin…

Windows11搭建GPU版本PyTorch环境详细过程

Anaconda安装 https://www.anaconda.com/ Anaconda: 中文大蟒蛇&#xff0c;是一个开源的Python发行版本&#xff0c;其包含了conda、Python等180多个科学包及其依赖项。从官网下载Setup&#xff1a;点击安装&#xff0c;之后勾选上可以方便在普通命令行cmd和PowerShell中使用…

计网Lesson12 - UDP客户服务器模型和UDP协议

文章目录 丢个图在这&#xff0c;实在不是很明白在讲啥&#xff0c;等学完网编的我归来狠狠拿下它

【IM】如何保证消息可用性(二)

请先阅读第一篇&#xff1a;【IM】如何保证消息可用性&#xff08;一&#xff09; 在第一篇文章中我们了解了保证消息可用性的挑战与目标&#xff0c;现在我们来对于具体的技术方案进行探讨。 1. 上行消息 消息上行过程指的是客户端发送消息给服务端 我们需要先辨析几个概念…

Vue学习笔记之生命周期函数

生命周期示意图如下所示&#xff1a; beforeCreate&#xff1a;组件初始化之前触发该事件created&#xff1a;组件初始化完毕触发该事件beforeMount&#xff1a;Vue应用对象挂载DOM结点之前触发该事件mounted&#xff1a;DOM结点挂载成功之后触发该事件beforeUpdate&#xff1a…

如何使用docker compose安装APITable并远程访问登录界面

文章目录 前言1. 部署APITable2. cpolar的安装和注册3. 配置APITable公网访问地址4. 固定APITable公网地址 正文开始前给大家推荐个网站&#xff0c;前些天发现了一个巨牛的 人工智能学习网站&#xff0c; 通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。 …

大创项目推荐 题目:基于机器视觉的图像矫正 (以车牌识别为例) - 图像畸变校正

文章目录 0 简介1 思路简介1.1 车牌定位1.2 畸变校正 2 代码实现2.1 车牌定位2.1.1 通过颜色特征选定可疑区域2.1.2 寻找车牌外围轮廓2.1.3 车牌区域定位 2.2 畸变校正2.2.1 畸变后车牌顶点定位2.2.2 校正 7 最后 0 简介 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享…

Pytest单元测试框架

第一章、pytest概述 Pytest is a framework that makes building simple and scalable tests easy. Tests are expressive and readable—no boilerplate code required. Get started in minutes with a small unit test or complex functional test for your application or l…

Onvif协议5: 预置位的操作

目录 1. 介绍 2. GetPreset 3. SetPreset 4.预置位的索引 5. GotoPreset 1. 介绍 球机的云台预置位控制主要包含的内容有&#xff1a;预置位的设置、预置位的调用、预置位的删除以及预置位的名称修改等 云台预置位的设置&#xff1a;调用Onvif协议中云台预置位设置接口&a…

CH395Q之CH395Q简介(一)

本节主要介绍以下内容&#xff1a; 1、TCP/IP协议栈是什么&#xff08;了解&#xff09; 2、CH395Q是什么&#xff08;了解&#xff09; 3、CH395Q工作命令&#xff08;熟悉&#xff09; 4、CH395Q & W5500 一、TCP/IP协议栈是什么 是一系列网络协议的总和&#xff0…

如何使用宝塔面板搭建MySQL 5.5数据库并实现公网远程连接

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道 4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置,下面简单几步,通过宝塔面板cp…