ACL2023 | 黑盒大模型如何微调?清华Decoder Tuning方法提升大模型few-shot场景效果

news2024/12/24 2:16:26

一、概述

title:Decoder Tuning: Efficient Language Understanding as Decoding

论文地址:https://arxiv.org/abs/2212.08408

代码:GitHub - thunlp/DecT

二、Motivation

  1. 现在有很多模型只提供API,没法直接训练,并且是按请求次数计费的,成本也比较高。
  2. 之前大模型微调方法主要是冻结原始模型,在输入层进行tuning,但是该方法缺乏梯度信号,训练比较难,训练过程需要请求上千次api,带来的计算和时间成本都比较高。

三、方法

1 PipeLine of DecT

在黑盒模型的输出端进行tuning,提升其在下游任务的表现

pipeline解读:

  • 输入:构建人工temple,引入MASK,拼接原始文本作为输入,有点类似prompt design方法。
  • ProtoNet模型(本地知识):训练一个ProtoNet模型,其训练特征来自MASK对应的隐藏层的特征。
  • 模型带来的先验知识:直接拿原始PTM预测的label的分数。
  • 输出:将ProtoNet模型结果和PTM API的预测score(topk类别PLM模型预测结果)融合作为输出。

2 输入输出以及融合方法

  • Dec()为可训练的模型,sk为PLM预测的logit,l为融合权重

3 PLM原始模型权重标定方法

  • 原始PLM预测的结果高频词预测概率高,这里对其概率重新进行了标定。

4 ProtoNet模型选择原因

  • Prototypical方法在few-shot和prompt-based tuning方法效果比较好,所以选择该模型作为对mask特征进行tuiling的模型。

四、Conclusion

  1. 相当于在一个黑盒的PLMs情况下,只提供api接口,做了一个高效适配下游任务的方法(主要是分类任务)
  2. few-shot效果又快又好,比所有baseline都好,并且速度提升200倍

五、limitation

  1. 提供了一个黑盒PTMs的下游任务训练方法,但是当数据量扩大后,比fine-tuning方法效果还是差不少,特别是在一些比较难的任务上。
  2. 只在分类任务上做了尝试,没有测试自由形式的文本生成任务。

六、基础实验结果

1 实验baseline设置

  • prompt方法:是指使用模板包装的示例直接执行零样本分类。
  • 上下文学习(ICL):测试样本之前进一步连接了一些示例。
  • BBT(Sun等人,2022b)使用进化算法优化soft prompt方法。
  • BBTv2(Sun等人,2022a)进一步将深度提示插入中间层,以获得更好的性能。
  • RLPrompt(Deng等人,2022年)是另一种最新的算法,通过强化学习优化离散提示。
  • PromptBoosting(Hou等人,2022年)是一项应用boosting算法应用到prompt ensembling。
  • backbone:roberta-large

2 zero-shot和few-shot实验结果

  • 大部分zero-shot和few-shot效果都比之前的模型好,只有在MNLI数据集上,ICL的1-shot方法表现好一些,但是ICL由于输入长度限制,不可能输入非常多的样本。

3 与fine-tuning全量tuning对比

  • 在一些难的任务上,训练数据在256个的时候,就搞不过fine-tuning了

七、消融实验结果

1 Protonet模型参数的影响(1、4、6是啥意思?)

  • 发现s,r都有的时候,特别是1的时候,提升比较大。

2 选MLP还是ProtoNet作为模型呢?

  • ProtoNet在1-shot的时候,比MLP好的非常多,说明ProtoNet模型的few-shot能力还是比较强的

3 融合权重l的影响

  • 说明l=1的时候,效果最好?

4 不同模板Template的影响

  • 随便一个Template,DecT本文方法比Prompt方法都要高不少,说明本文方法的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/593538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关键字 package、import的使用

一、package 关键字的使用 为了更好的实现项目中类型的管理,提供了包的概念使用package声明类或接口所属的包,声明在源文件的首行包 术语标识符,遵循标识符的命名规则、规范(xxxyyyzzz)、“见名知意”每 “ . ”一次&…

自动化测试selenium环境搭建

自动化测试工具selenium搭建 1. 自动化和selenium基本概念 1) 什么是自动化?为什么要做自动化? 自动化测试能够代替一部分的手工测试,自动化测试能够提高测试的效率。随着项目功能的增加,版本越来越多,版本的回归测试的压力也…

DEI脉冲发生器维修DEI脉冲电源维修PVX-4130

DEI电源维修型号包括:PVX-4130,PVX-4140,PVX-4150,PVX-4120,PVX-5500等型号均可维修。 美国DEI脉冲发生器维修PULSE Generator高压电源维修 DEI脉冲发生器产生高压波形至3500V。 针对高阻抗进行了优化电容性负载,很适合驱动静电引气格栅和偏转板飞行时间质谱仪中粒…

FP独立站不同支付方式的注意事项是什么?

今天,给FP独立站的老板们介绍2个独立站支付方式,以及这些不同的支付方式分别有什么注意事项。 一、PayPal支付 大部分建站平台都支持PayPal支付通道。如果是做美国市场的独立站卖家,PayPal每笔固定收取0.3美金不同比例的手续费,不…

IOS复杂震动AHAP文件编辑指南

简介 目前部分游戏会在播放一些特定的音乐音效时,令设备产生贴合音效的复杂震动,给玩家一个更好的游戏体验。这种复杂震动就是通过苹果的CoreHaptics库实现的。 下面是关于CoreHaptics的官方文档 ​​​​​​​Core Haptics | Apple Developer Docum…

DISC行为模型

DISC行为模型 这是一种研究人行为倾向性的理论,由哈佛大学教授、临床心理学家威廉马斯顿博士提出。它可以用来预测一个人的行为倾向性,让使用者更好地了解自己和影响他人! 模型介绍 马斯顿博士发现,行事风格类似的人会展现出类似…

充电桩检测设备厂家TK4860C交流充电桩检定装置

TK4860系列是专门针对现有交流充电桩现场检测过程中接线复杂、负载笨重、现场检测效率低等问题而研制的一系列高效检测仪器,旨在更好的开展充电桩的强制检定工作。 充电桩检测设备是一款在交流充电桩充电过程中实时检测充电电量的标准仪器,仪器以新能源…

Pandora:一个让你呼吸顺畅的ChatGPT

什么是chatgpt ChatGPT是一种基于GPT(Generative Pre-trained Transformer)的聊天机器人。GPT是一种基于神经网络的自然语言处理模型,它使用大规模的文本数据进行预训练,然后可以用于各种自然语言处理任务,如文本生成…

神州数码DCN路由器之间GREIPsec 配置

拓扑: 说明: R1: g 0/0:192.168.1.1/24 g 0/1:10.1.1.1/24 tunnel 1:172.16.1.1/24 R2: g 0/0:192.168.2.1/24 g 0/1:10.1.1.2/24 tunnel 1:172.16.1.2/24 配置思路: <

阿里Github斩获4.5万Stars!分享的Spring Cloud全栈笔记,你想象不到有多全

如何获得高并发经验&#xff1f; 这是我今天逛知乎的时候系统邀请我回答的一个问题&#xff0c;由此也引发了我的一些思考&#xff1a;为什么人人都想要获得高并发经验&#xff1b;想拥有高并发系统设计技能&#xff1f; 其原因LZ认为主要有以下三点&#xff1a; 涨薪&#…

Pytorch入门(一)数据加载初始化及训练过程监控

Pytorch入门系列大致会更5篇文章不到&#xff0c;以后有机会的话再细细更新吧&#xff0c;主要复习一下Pytorch基本知识&#xff0c;复习一下在大二入门Pytorch的学习笔记&#xff01;原教程位于B站&#xff0c;讲的个人感觉蛮好的。 超级传送门&#xff0c;这个系列教程会很快…

4月刚上岸今日头条(字节)测试开发岗【附答案】

今日头条测试开发面试回顾 字节跳动公司以发展迅猛&#xff0c;待遇优厚和面试难闻名于业界。前段时间面试字节跳动&#xff08;今日头条&#xff09;&#xff0c;并成功拿下高级测试开发工程师岗位后的面试题目回顾,供跳槽季的各位同学参考&#xff01; 一面 自我介绍 编程题…

Java基础-Java常用类2(String类)

本篇文章梳理Java常用类--String类. String类是非常重要的,也是面试的重灾区,一起加油啊~~ 主要讲解String类 : String类的基础知识String类的特性String类的方法String,StringBuilder,StringBuffer之间的比较字符串常量池String应用 : 到底创建了多少个对象 希望给您带来帮助~…

大屏时代:引领信息可视化的新潮流

在信息时代的浪潮下&#xff0c;数据已经成为推动各行各业发展的重要动力。然而&#xff0c;海量的数据如何快速、直观地呈现给用户&#xff0c;成为了一个亟待解决的难题。在这样的背景下&#xff0c;可视化大屏应运而生&#xff0c;以其出色的表现力和交互性成为信息展示的佼…

5.Nginx

文章目录 Nginx编译安装Nginx检查、启动、重启、停止nginx服务添加Nginx系统服务Nginx配置全局配置I/O事件配置HTTP配置Web服务的监听配置日志格式设定location常见配置指令访问状态统计配置 Nginx 一款高性能、轻量级Web服务软件 稳定性高系统资源消耗低对HTTP并发连接的处理能…

【开源项目】银行查询服务的设计和实现

银行查询服务的设计和实现 项目地址github&#xff1a;https://github.com/xl-echo/bankInquiryService项目地址gitee&#xff1a;https://gitee.com/xl-echo/bank-inquiry-service 银行查询服务的设计初衷是&#xff1a;为提供更加便利的查询服务&#xff0c;我们在分布式系…

科研热点|2023年两院院士增选,正式启动 (附增选指南)!

中国科学院 5月31日&#xff0c;中国科学院官网发布《2023年度中国科学院院士增选指南》《中国科学院关于推荐中国科学院院士候选人的通知》等多个文件&#xff0c;正式启动2023年院士增选工作。 2023年度中国科学院院士增选指南 院士制度是党和国家为树立尊重知识、尊重人才…

IOS苹果证书在线制作,无需mac电脑,拒绝钥匙串

IOS苹果证书在线制作&#xff0c;无需mac电脑&#xff0c;拒绝钥匙串 在公众号、小程序出来后&#xff0c;APP开发出现了很多H5的开发框架&#xff0c;比如uniapp等&#xff0c;如果你编译uniapp的程序&#xff0c;打包成ios项目的时候需要两个证书文件&#xff0c;分别是&…

KD7440八通道安规综合测试仪

一、产品概述 KD7440 系列程控耐压测试仪均采用高速 MCU 和大规模数字电路设计的高性能的安规测试仪&#xff0c;其输出电压的大小、输出电压的上升、下降、输出电压的频率由 MCU 控制&#xff0c;能实时显示击穿电流值和电压值&#xff0c;并具有软体校准功能&#xff0c;配备…

Docker安装配置教程

Docker要求&#xff1a; lunix内核&#xff0c;要求3.8以上 centos7 Docker是一个进程&#xff0c;一启动就两个进程&#xff0c;一个服务&#xff0c;一个守护进程。占用资源就非常少&#xff0c;启动速度非常快&#xff0c;1s。 一台机器上vm&#xff0c;3到10个实例。docke…