大模型时代下两种few shot高效文本分类方法

news2024/11/24 0:02:13

介绍近年(2022、2024)大语言模型盛行下的两篇文本分类相关的论文,适用场景为few shot。两种方法分别是setfit和fastfit,都提供了python的包使用方便。

论文1:Efficient Few-Shot Learning Without Prompts
题目:无需提示的高效少镜头学习
来源:huggingface 2022
文档:https://huggingface.co/docs/setfit/installation
python包:https://pypi.org/project/setfit/
github:https://github.com/huggingface/setfit/tree/main
论文:https://arxiv.org/pdf/2209.11055

摘要:
    解决few-shot的有效方法:PEFT、PET,存在的问题是需要人工构造prompts,并且需要大语言模型来提高精度。
    setfit:不需要prompt框架,使用sentence-transformers(ST)微调实现few-shot。
    setfit 的工作原理是首先在少量文本对上微调预训练的ST,以对比 Siamese 方式。然后使用生成的模型生成丰富的文本嵌入,用于训练分类头。

贡献:一种简单而无提示的方法——并提供了在实际少镜头设置中应用它的全面指南。
1.我们以 Siamese 的方式微调 ST 以进行文本分类目标,表明它显着提高了性能;
2.我们在少样本设置中演示了这种方法。

论文2:When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes
题目:大模型不适用时 使用fastfit:多类别下快速有效的文本分类方法
来源:IBM 2024
python包:https://pypi.org/project/fast-fit/
论文:https://arxiv.org/pdf/2404.12365
github:https://github.com/IBM/fastfit/tree/main

摘要:
    FastFit主要用于少镜头分类,尤其是有很多语义相似类别的场景
    方法:批对比学习+token级别的相似分数

现有挑战:少镜头+多类别+语义相似场景
    具体难点:扩展训练数据费时昂贵
    方法:调用大语言模型或者微调小语言模型
    1.利用大语言的多任务能力解决数据稀缺问题
        1.类别多的时候,LLM很难将所有类别都放进上下文窗口;
        2.类别放进了上下文窗口后,分类效果也是一个挑战;
        3.效果ok的话,长上下文和模型规模也会造成推理时间很慢。
    2.利用小语言模型对特定任务的适应性
        1.架构调整
        2.不适用于多类别的时候

本文的方法也是微调小语言模型的方法,能够提供3-20倍的加速。
具体方法:
    1.批对比学习
    2.token级别的相似分数
    3.文本增强方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1672363.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

找不到msvcp100.dll,无法继续执行代码的问题详细解析

当您在运行某个程序或游戏时遇到提示“找不到msvcp100.dll,无法继续执行代码”,这通常意味着系统中缺失了一个重要的动态链接库文件,从而导致应用程序无法正常启动。为了解决这个问题,本文将介绍5种常见的解决方法,帮助…

卓豪Zoho CRM怎么收费?多少钱一年?

卓豪Zoho CRM作为一款功能强大且高度可定制的企业级客户关系管理系统,其收费标准因版本不同而有所差异,旨在满足不同规模及需求的企业。Zoho CRM提供多种套餐选择,包括但不限于免费版、标准版、专业版、企业版以及旗舰版。每种版本都包含了核…

华为OD机试 - 掌握的单词个数 - 回溯(Java 2024 C卷 100分)

华为OD机试 2024C卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷+B卷+C卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测试,发现新题目,随时更新,全天CSDN在线答疑。 一、题目描述 有一个字符…

步入式恒温恒湿试验箱厂家哪家好?DHT(多禾试验)是您不二之选

步入式恒温恒湿试验箱厂家是一种广泛应用于科研、生产和质量控制领域的设备,所以选择一个合适的步入式恒温恒湿试验箱厂家,是确保试验数据准确性和可靠性的核心因素。因此在选择步入式恒温恒湿试验箱厂家时,需要考虑多方面因素,如…

Golang SDK安装

windows环境安装 1.链接: 下载地址 2.安装SDK 检查环境变量: 3.开启go modules,命令行执行一下命令: go env -w GO111MODULEon4.设置国内代理,命令行执行一下命令: go env -w GOPROXYhttps://proxy.golang.com.cn,https:/…

算法专题:位运算

目录 常见位运算总结 位运算相关算法题 1. 只出现一次的数字 2. 只出现一次的数字(|||) 3. 两整数之和 4. 只出现一次的数字(||) 常见位运算总结 在开始刷位运算这个类型的题目前,我想先带着大家学习一下一些常见…

Abp框架,EF 生成迁移文件时,自动添加表和字段注释内容

在使用 abp 框架,或者ef 的时候都会遇到一个问题,就是建实体后要将实体描述生成到数据库中,就需要手动去添加 [Comment("注释内容")] 注解,这样相当于手动写两次注释(即使你是 Ctrl C)&#x…

现在做电商迟吗?那是你不知道今年黑马,视频号小店重磅来袭

大家好,我是电商笨笨熊 24年想做电商,还能不能做? 当然可以。 电商是一个长期的市场,只要用户有需求,那么电商就会一直存在; 尤其是近几年来无货源模式爆火,对于我们商家来说这种无需自备货…

软件安全测试可以检测软件哪些安全问题?

软件安全测试是一种旨在发现和评估软件应用程序中的安全漏洞和隐患的测试方法。通过安全测试,可以发现并修复潜在的安全问题,从而提高软件应用程序的可靠性和安全性。下面将介绍软件安全测试可以检测到的几种主要安全问题。 身份验证漏洞:身份…

【教学类-55-02】20240512图层顺序挑战(四格长条纸加黑色边框、4*4、7张 、43200张去掉非7色有23040张,去掉重复样式有几种?)

作品展示 背景需求: 之前的代码吗存在几个问题,最大的问题是不能生成“”长条黑边框”” 【教学类-55-01】20240511图层顺序挑战(四格长条纸)(4*4)和“手工纸自制参考图”-CSDN博客文章浏览阅读485次&…

黑盒测试中的边界值分析

黑盒测试是一种基于需求和规格的测试方法,它主要关注软件系统输出的正确性和完整性,而不考虑内部代码的实现方式。在黑盒测试中,边界值分析是一种重要的测试技术,它可以帮助测试人员有效地发现输入和输出的问题。本文将从什么是边…

nacos在没有指定数据源的情况下默认使用什么数据库?

在没有特别指定数据源的情况下,Nacos 默认使用内嵌的数据库 Derby 来存储其数据。Derby 是一个轻量级的、基于 Java 的数据库管理系统,适合于开发和测试环境,因为它简单易部署且无需额外的数据库服务器。然而,对于生产环境&#x…

JSP ssm 房屋中介管理myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 JSP ssm 房屋中介管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采…

【C语言/数据结构】栈:从概念到两种存储结构的实现

目录 一、栈的概念 二、栈的两种实现方式 1.顺序表实现栈 2.链表实现栈 三、栈的顺序存储结构及其实现 1.栈的声明 2.栈的初始化 3.栈的销毁 4.栈的压栈 5.栈的弹栈 6.栈的判空 7.返回栈顶元素 8.返回栈的长度 四、栈的链式存储结构及其实现 1.栈的声明 2.栈的…

GBase 8s 数据库集群切换及恢复

GBase 8s 数据库切换分为自动切换、由CM控制的按FOC规则的切换、手工切换。 自动切换 全自动切换用于HAC集群中,由于集群只有两个节点,数据库相互之前进行状态检查,发现异常时,能按DRAUTO的配置方式进行自动切换。 在HAC集群中&…

ES扩缩容

ES扩容 1.1 页面扩容ES1 1.2 拷贝插件及ssl文件 JSON [ec_admin@kde-offline3 ~]$ sudo rsync -avP /usr/kde_ec/2.3.6.6-1/elasticsearch1/plugins/* kde-offline6:/usr/kde_ec/2.3.6.6-1/elasticsearch1/plugins/ ;echo $? [ec_admin@kde-offline3 ~]$ sudo rsync -avP /us…

SQL Server中怎么排查死锁问题

一、背景 我们在UAT环境压测的时候,遇到了如下的死锁异常。 Caused by: com.microsoft.sqlserver.jdbc.SQLServerException: Transaction (Process ID 82) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Re…

Windows下安装Node.js、npm和electronic,并运行一个Hello, World!脚本程序

20240510 By wdhuag 目录 简介: 参考: 安装Node.js 安装npm 配置npm: 修改包存放目录和缓存目录 切换镜像源 使用 nrm 切换镜像源 安装Electron 运行一个Hello, World!脚本程序 安装Yarn JavaScript 指南 简介: Nod…

【Spring】GoF 之代理模式

一、代理模式 在 Java 程序中的代理模式的作用: 当一个对象需要受到保护的时候,可以考虑使用代理对象去完成某个行为 需要给某个对象的功能进行功能增强的时候,可以考虑找一个代理进行增强 A 对象无法和 B 对象直接交互时,也可以…

MySQL5.7压缩包安装图文教程

一、下载 https://dev.mysql.com/downloads/mysql/ 选择5.7版本 二、解压 下载完成后解压,解压后如下(zip是免安装的,解压后配置成功即可使用) 注意:只有5.6以前的版本才有在线安装(install msi&#xf…