论文:Generalized Category Discovery with Large Language Models in the Loop

news2025/4/15 20:07:49

论文下载地址:Generalized Category Discovery with Large Language Models in the Loop - ACL Anthology

1、研究背景


        尽管现代机器学习系统在许多任务上取得了优异的性能,绝大多数都遵循封闭世界的设置,假设训练和测试数据来自同一组预定义的类别。然而,在现实世界中,许多实际问题,如意图检测和图片识别是开放世界,其中训练有素的模型可能会遇到具有未知新颖类别的数据。为了应对这一限制,广义类别发现(GCD)被提出并在自然语言处理和计算机视觉两个领域中被广泛研究。GCD要求模型根据一些仅包含已知类别的已标记数据,从一组未标记数据中识别已知和新类别,这可以使模型适应新兴类别,而无需任何人工努力。
        目前的方法通常首先对标记数据进行监督预训练,对未标记数据进行自监督学习,以训练一个基本模型,如BERT,然后他们执行聚类方法,如KMeans,以发现已知和新的类别。即使这些方法可以提高已知类别的性能,但由于缺乏监督,它们通常在新类别上表现不佳。此外,由于缺乏新类别的先验知识,他们还努力揭示所发现的聚类的语义含义(例如,类别名称或描述)。最近,大型语言模型(LLM)如ChatGPT在没有任何标记样本的情况下也显示出了非凡的应用能力。然而,LLMs不能直接应用于GCD,GCD需要模型来聚类成千上万的样本。数据隐私、高推理延迟和高API成本等问题也限制了它们在现实世界中的应用。


2、拟解决的关键问题


        为了解决上述限制并享受基本模型和LLM的优点,我们提出了Loop,一种将LLM引入训练过程的端到端主动学习框架。Loop通过选择几个关键样本来查询LLM,并根据反馈优化基本模型,可以弥补监督的不足,并以较小的查询代价为发现的聚类生成类别名称。因此,我们只需要在本地训练和维护一个小的基本模型,这可以降低推理成本和保护数据隐私。具体来说,如图1所示,我们首先提出局部不一致采样(LIS)来选择落入错误聚类的概率较高的最具信息量的样本。具体来说,我们选择样本具有高熵的聚类分配概率和其邻居具有最多样化的聚类分配。直观上,具有高熵和不同邻居预测的样本似乎违反了聚类假设(江等,2022)并位于决策边界附近(图2虚线圆),因此这些具有很大不确定性的邻居混沌样本将有很高的概率落入错误的聚类(王等,2023),因此纠正它们可以显著提高模型性能。
 

图1 模型的训练循环
 
图2 模型架构

3、相关解决方案


3.1 多任务预训练


3.2 局部不一致抽样


3.3 可扩展查询策略


        给定选择的样本,下一步是如何查询LLM以获得适当的监督信息。然而,我们不能直接向LLM查询类别,因为没有新类别的标签信息,并且返回的类别很难与聚类分配一致。因此,受最近工作的启发,我们提出了一种可扩展的查询策略,通过查询LLM哪些样本是所选样本的真正邻居来缓解局部不一致问题。这样,我们可以通过确定样本之间的邻域关系来找到所选样本的真实聚类分配。
这个查询策略是可伸缩的,因为我们可以设置不同数量的邻居选项供LLM选择。以带有|q| options的查询为例,提示可以设计为:“选择与查询语句更好对应的语句。查询:[S]。第一句:[S1];第二句:[S2];...;句子|q|:[S|q|]。”,其中[S]是所选的查询样本,[S1],[S2]...[S|q|]是来自具有查询样本的最多邻居的top |q|聚类的[S]的邻居句子。
        所提出的查询策略可以通过从混乱的邻域中选择真正的邻居来帮助纠正局部不一致的样本。这种策略是可伸缩的,因为我们可以添加不同数量的选项来查询LLM。虽然添加更多选项将提供从与查询相同的类别中选择样本的更高概率,但它将通过添加更多查询标记(秒)来增加查询成本。即使我们没有找到真正的邻居样本,我们的模型仍然可以通过拉近相似样本来学习语义知识。

3.4 聚类解释


        不同于以往只通过聚类来发现没有任何语义信息的聚类,我们提出用LLMs来解释发现的聚类。具体来说,我们首先利用“对齐和解耦”策略将对应于新类别的聚类从发现的聚类中解耦。然后,对于每个解耦的聚类,我们选择最接近聚类中心的几个样本作为代表性样本。接下来,我们制作LLM来总结这些样本,以生成这些新颖类别的标签名称。实验结果表明,该策略能够为发现的新类别选择有代表性的样本并生成准确的标签名称。


4、总结


        在本文中,提出了一个主动学习框架Loop,它将LLMs引入到广义类别发现的训练循环中,可以在不需要任何人工努力的情况下提高模型性能。研究进一步提出局部不一致抽样来选择有用的样本,并利用可扩展查询在LLMs的反馈下修正这些样本。通过将样本拉得更接近其精确的邻居,模型可以学习聚类友好的表示。最后,为发现的集群生成标签名称,以便于实际应用。实验表明,Loop大大优于SOTA模型,并为发现的聚类生成准确的类别名称。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334549.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第十六届蓝桥杯 省赛C/C++ 大学B组

编程题目现在在洛谷上都可以提交了。 未完待续,写不动了。 C11 编译命令 g A.cpp -o A -Wall -lm -stdc11A. 移动距离 本题总分:5 分 问题描述 小明初始在二维平面的原点,他想前往坐标 ( 233 , 666 ) (233, 666) (233,666)。在移动过程…

【计网】网络交换技术之分组交换(复习自用,重要1)

复习自用的,处理得比较草率,复习的同学或者想看基础的同学可以看看,大佬的话可以不用浪费时间在我的水文上了 另外两种交换技术可以直接点击链接访问相关笔记: 电路交换 报文交换 一、分组交换的定义 1.定义 分组交换&#x…

解密CHASE-SQL和XiYan-SQL多智能体AI如何最终实现TEXT2SQL的突破

想象一个世界,无论技术背景如何,任何人都能轻松查询海量数据库、挖掘深层洞察。比如:“我想知道安徽地区最畅销电子产品的第三季度销售额?”——只需一句话。“去年营销支出与客户获取成本之间的相关性如何?”——像聊天一样输入问题。这就是Text-to-SQL的承诺:将人类语言…

思考力提升的黄金标准:广度、深度与速度的深度剖析

文章目录 引言一、广度的拓展:构建多元知识网络1.1 定义与重要性1.2 IT技术实例与提升策略小结:构建多元知识网络,提升IT领域思考力广度 二、深度的挖掘:追求知识的精髓2.1 定义与重要性2.2 IT技术实例与提升策略小结:…

web自动化:下拉选择框、弹出框、滚动条的操作

web自动化:下拉选择框、弹出框、滚动条的操作 一、下拉选择框 1、导包 from selenium.webdriver.support.select inport Select 2、实例化对象 Select(element) 3、常用方法 通过option索引来定位,从0开始:select_by_index(index)通过…

数字人:打破次元壁,从娱乐舞台迈向教育新课堂(4/10)

摘要:数字人正从娱乐领域的璀璨明星跨界到教育领域的智慧导师,展现出无限潜力。从虚拟偶像、影视游戏到直播短视频,数字人在娱乐产业中大放异彩,创造巨大商业价值。在教育领域,数字人助力个性化学习、互动课堂和虚拟实…

互联网三高-数据库高并发之分库分表ShardingJDBC

1 ShardingJDBC介绍 1.1 常见概念术语 ① 数据节点Node:数据分片的最小单元,由数据源名称和数据表组成 如:ds0.product_order_0 ② 真实表:再分片的数据库中真实存在的物理表 如:product_order_0 ③ 逻辑表&#xff1a…

Android游戏逆向工程全面指南

文章目录 第一部分:基础概念与环境搭建1.1 游戏逆向工程概述1.2 法律与道德考量1.3 开发环境准备基础工具集:环境配置示例: 第二部分:静态分析技术2.1 APK反编译与资源提取使用Apktool解包:关键文件分析: 2…

antv x6使用(支持节点排序、新增节点、编辑节点、删除节点、选中节点)

项目需要实现如下效果流程图&#xff0c;功能包括节点排序、新增节点、编辑节点、删除节点、选中节点等 html部分如下&#xff1a; <template><div class"MindMapContent"><el-button size"small" click"addNode">新增节点&…

榕壹云在线商城系统:基于THinkPHP+ Mysql+UniApp全端适配、高效部署的电商解决方案

项目背景&#xff1a;解决多端电商开发的痛点 随着移动互联网的普及和用户购物习惯的碎片化&#xff0c;传统电商系统面临以下挑战&#xff1a; 1. 多平台适配成本高&#xff1a;需要同时开发App、小程序、H5等多端应用&#xff0c;重复开发导致资源浪费。 2. 技术依赖第三方…

Android studio打包uniapp插件

一.参考资料与环境准备 原生工程配置需要使用到Android studio和HbuilderX 当前测试的as版本-20240301,下载地址&#xff1a;HbuilderX版本&#xff1a;4.36 二.插件创建流程 1.导入下载的UniPlugin-Hello-AS工程&#xff08;下载地址见参考资料&#xff09; 2.生成jks证书…

App Cleaner Pro for Mac 中 Mac软件卸载工具

App Cleaner Pro for Mac 中 Mac软件卸载工具 一、介绍 App Cleaner & Uninstaller Pro Mac破解&#xff0c;是一款Mac软件卸载工具&#xff0c;残余垃圾清除工具&#xff01;可以卸载应用程序或只删除不需要的服务文件&#xff0c;甚至可以删除以前删除的应用程序中的文…

开发规范——Restful风格

目录 Restful Apifox 介绍 端口号8080怎么来的&#xff1f; 为什么要使用Apifox? Restful 如果请求方式是Post&#xff0c;那我就知道了要执行新增操作&#xff0c;要新增一个用户 如果请求方式是Put&#xff0c;那就代表我要修改用户 具体要对这些资源进行什么样的操…

大模型——Llama Stack快速入门 部署构建AI大模型指南

Llama Stack快速入门 部署构建AI大模型指南 介绍 Llama Stack 是一组标准化和有主见的接口,用于如何构建规范的工具链组件(微调、合成数据生成)和代理应用程序。我们希望这些接口能够在整个生态系统中得到采用,这将有助于更轻松地实现互操作性。 Llama Stack 定义并标准化…

利用阿里云企业邮箱服务实现Python群发邮件

目录 一、阿里云企业邮箱群发邮件全流程实现 1. 准备工作与环境配置 2. 收件人列表管理 3. 邮件内容构建 4. 附件添加实现 5. 邮件发送核心逻辑 二、开发过程中遇到的问题与解决方案 1. 附件发送失败问题 2. 中文文件名乱码问题 3. 企业邮箱认证失败 三、完整工作流…

08-JVM 面试题-mk

文章目录 1.JVM 的各部分组成2.运行时数据区2.1.什么是程序计数器?2.2.你能给我详细的介绍Java堆吗?2.3.能不能解释一下方法区?2.3.1常量池2.3.2.运行时常量池2.4.什么是虚拟机栈?2.4.1.垃圾回收是否涉及栈内存?2.4.2.栈内存分配越大越好吗?2.4.3.方法内的局部变量是否线…

PostgreSQL技术大讲堂 - 第86讲:数据安全之--data_checksums天使与魔鬼

PostgreSQL技术大讲堂 - 第86讲&#xff0c;主题&#xff1a;数据安全之--data_checksums天使与魔鬼 1、data_checksums特性 2、避开DML规则&#xff0c;嫁接非法数据并合法化 3、避开约束规则&#xff0c;嫁接非法数据到表中 4、避开数据检查&#xff0c;读取坏块中的数据…

从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发(含Open-TeleVision源码解析)

前言 如之前的文章所述&#xff0c;我司「七月在线」正在并行开发多个订单&#xff0c;目前正在全力做好每一个订单&#xff0c;因为保密协议的原因&#xff0c;暂时没法拿出太多细节出来分享 ​但可以持续解读我们所创新改造或二次开发的对象&#xff0c;即解读paper和开源库…

告别 ifconfig:为什么现代 Linux 系统推荐使用 ip 命令

告别 ifconfig&#xff1a;为什么现代 Linux 系统推荐使用 ip 命令 ifconfig 指令已经被视为过时的工具&#xff0c;不再是查看和配置网络接口的推荐方式。 与 netstat 被 ss 替代类似。 本文简要介绍 ip addr 命令的使用 简介ip ifconfig 属于 net-tools 包&#xff0c;这个…

MySQL——MVCC(多版本并发控制)

目录 1.MVCC多版本并发控制的一些基本概念 MVCC实现原理 记录中的隐藏字段 undo log undo log 版本链 ReadView 数据访问规则 具体实现逻辑 总结 1.MVCC多版本并发控制的一些基本概念 当前读&#xff1a;该取的是记录的最新版本&#xff0c;读取时还要保证其他并发事务…