【论文笔记】The Power of Scale for Parameter-Effificient Prompt Tuning

news2024/11/24 1:18:01

题目: The Power of Scale for Parameter-Effificient Prompt Tuning
来源: EMNLP 2021
模型名称: Soft-Prompt
论文链接: https://aclanthology.org/2021.emnlp-main.243/
项目链接: https://github.com/google-research/prompt-tuning

核心:针对不同的任务设计不同的soft
pormpt仅添加到embedding层中,仅训练这些参数。其余的参数都保持冻结,类似Prefix-tuning的想法,但是无论是token的长度以及所添加的位置都有一些差别

0.摘要

与 GPT-3 使用的离散文本提示不同,软提示是通过反向传播学习的,并且可以调整以合并来自任意数量的标记示例的信号。该方法是在T5上面进行实验的,随着模型大小的增加,该方法与全量微调的差距越来越小。作者的方法可以看作是 Li 和 Liang (2021) 最近提出的“prefix-tuning”的简化,我们提供了与这种方法和其他类似方法的比较。最后,我们表明,使用软提示调节冻结模型可为域转移带来稳健性优势,并实现高效的“提示集成”。

1.引言

prompt design是在GPT-3上实现的,在模型规模不断增加的前提下,通过使用这种“冻结”预训练模型是非常有效的。

  1. Prompt的缺点:需要人工设计,并且prompt的有效性受到诸多限制。GPT-3尽管比T5-XXL大了16倍,但是在SuperGLUE的分数上仍落后17.5.
  2. 自动Prompt:尽管自动设计Prompt的方法比人工设计的要好,但是仍落后于模型的微调。
  3. Prefix-tuning:冻结模型参数并在调整期间将错误反向传播到编码器堆栈中每个层(包括输入层)之前的前缀激活

作者冻结了整个预训练模型,只允许将每个下游任务的额外 k 个可调标记添加到输入文本中。这种“软提示”经过端到端训练,可以压缩来自完整标记数据集的信号,使我们的方法能够胜过少样本提示,并通过模型调整缩小质量差距。

在这里插入图片描述

在这里插入图片描述

尽管本文是基于Prefix-tuning的,但是他们是第一个单独使用prompt的,并没有在中间层或者不同任务的输出层条件额外的prefix。并且明确地将特定于任务的参数与一般语言理解所需的“通才”参数分开具有一系列额外的好处。

本文主要贡献:

  1. 提出prompt-tuning并且展示它的优势
  2. 做了许多消融实验,随着模型规模的提升,prompt tuning的质量和鲁棒性都提高
  3. 提出 🧐prompt ensembling并且展示他的有效性

2.方法

将T5中,将文本分类任务当作: P r ( y ∣ X ) Pr(y|X) Pr(yX) P r θ ( Y ∣ X ) Pr_θ(Y |X) Prθ(YX) y y y代表类别, Y Y Y代表class label的Token。把所有的任务都看成文本生成。

P r θ ( Y ∣ [ P ; X ] ) Pr_θ(Y |[P ; X]) Prθ(Y[P;X]),P是prompt token,看成条件概率生成Y, θ θ θ是原始模型,需要对其进行固定的

在GPT3中,P = {p1, p2, . . . , pn}, 是模型嵌入表的一部分,由冻结的 θ 参数化

Prompt tuning去掉了提示P被θ参数化的限制,而是有自己的专用参数 θ P θ_P θP ,可以进行更新。

P r ( y ∣ X ) Pr(y|X) Pr(yX) P r θ ( Y ∣ X ) Pr_θ(Y |X) Prθ(YX) P r θ ( Y ∣ [ P ; X ] ) Pr_θ(Y |[P ; X]) Prθ(Y[P;X]) P r θ ; θ P ( Y ∣ [ P ; X ] ) P_{rθ;θ_P} (Y |[P ; X]) Prθ;θP(Y[P;X])

[ P e ; X e ] ∈ R ( p + n ) × e [Pe; Xe] ∈ R^{(p+n)×e} [Pe;Xe]R(p+n)×e

训练目标就是对Y进行极大似然,只训练 P e P_e Pe

2.1 初始化

从概念上讲,我们的软提示以与输入之前的文本相同的方式调制冻结网络的行为,因此类似词的表示可能会作为一个很好的初始化点。对于分类任务,将Prompt初始化为它对应的类别。提示越短,必须调整的新参数就越少,因此我们的目标是找到仍然表现良好的最小长度

2.2 T5

原始文本:Thank you for inviting me to your party last week

预训练模型的输入:Thank you 〈X〉 me to your party 〈Y〉 week

目标输出:〈X〉 for inviting 〈Y〉 last 〈Z〉

尽管这种结构比传统结构更加有效,但作者认为不是仅仅通过使用prompt tuning就能控制冻结的模型的。T5使用的Span Corruption策略使得模型在训练和输出过程中始终存在哨兵标记,模型从来没有输出过真实完整的文本,这种模式可以通过Fine-tune很容易纠正过来,但是仅通过prompt可能难以消除哨兵的影响。

  • Span Corruption:使用现成的预训练 T5 作为我们的冻结模型,并测试其为下游任务输出预期文本的能力
  • Span Corruption + Sentinel【哨兵】:我们使用相同的模型,但在所有下游目标前加上一个哨兵,以便更接近预训练中看到的目标
  • LM Adaptation:对于按原始方法训练好的T5模型,额外使用LM(语言模型)优化目标进行少量步骤的Finetune,使模型从输出带哨兵的文本转换为输出真实文本,期望T5和 GPT一样生成真实的文本输出。(这是本实验的默认设置)。至多100K step

【其实可以看到,无论对哪个变量就行消融,只要模型的规模上去了,效果都差不多】

2.3 消融实验

在这里插入图片描述

Prompt 长度:模型越大,实现目标行为所需的调节信号就越少。在所有模型中,增加超过 20 个token只会产生边际收益。【超过100个token会使得模型性能下降】

Prompt初始化

  • random initialization:随机初始化, [ − 0.5 , 0.5 ] [−0.5, 0.5] [0.5,0.5]
  • initializing from sampled vocabulary:从T5的SentencePiece vocabulary中抽出最常见的500个词汇
  • class label初始化:讲类别对应的embedding座位prompt初始化。如果一个类有多个词,取词嵌入的平均表示作为一个prompt。假如标签数目不足,则从Sampled Vocab方案中继续采样补足。

作者发现基于类的初始化表现最好。在较小的模型尺寸下,不同初始化之间存在较大差距,但一旦将模型缩放到 XXL 尺寸,这些差异就会消失。

**预训练目标:**T5 的默认“span corruption”目标不太适合训练冻结模型,以便稍后通过提示进行调节。经过预训练以读写哨兵标记的模型很难直接应用于没有哨兵的读写文本任务

这表明从 span corruption 到语言建模目标的“过渡”不是一个微不足道的变化,并且进行有效的转换需要训练资源的投资(原始 T5 预训练步骤的 10%)

在非最佳“跨度损坏”设置中,我们观察到模型大小的不稳定性,小型模型优于较大的基础模型、大型模型和 XL 模型。在检查中,我们发现对于许多任务,这些中型模型从未学会输出合法的类标签,因此得分为 0%。这些结果表明,使用以“跨度损坏”目标预训练的模型可能不可靠,5 个模型中只有 2 个运行良好,而 LM 适应版本在所有模型大小上都能可靠地运行。

3. 结果

使用100个token的长度作为soft prompt,与prefix的10 token相比,prompt只是在输入层使用,在别的层不添加,因而参数量更少。

在这里插入图片描述

prompt tuning只需要在encoder加入prompt,而prefix tuning需要在encoder和decoder都添加

只在输入层加入可以防止模型的过拟合,因此prompt tuning可以迁移到别的领域上面

连续空间的prompt比离散空间的prompt难以解释。

4. 结论

在SupreGLUE上,Prompt tuning的任务性能可与传统模型调整相媲美,随着模型尺寸的增加,差距会逐渐消失。在Zeor-shot领域迁移,有效提升泛化性。在few-shot上面可以看作,冻结模型的参数,限制为轻量级的参数有效避免过拟合。

核心:将下游任务的参数和预训练任务的参数分开

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1846478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于STM32和人工智能的智能交通信号控制系统

目录 引言环境准备智能交通信号控制系统基础代码实现:实现智能交通信号控制系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景:智能交通管理与优化问题解决方案与优化收尾与总结 1. 引言 随着城市化进程的加快&a…

16s功能注释--PICRUST2的安装及使用

文章目录 安装本地安装conda安装 使用一些报错 安装 本地安装 在github网址下载压缩包:https://github.com/picrust/picrust2/releases/tag/v2.5.2 解压后将bin目录设置到环境变量 conda安装 利用bioconda安装 conda create -n picrust2 -c bioconda -c conda-…

神经网络与模式识别课程报告-卷积神经网络(CNN)算法的应用

完整的神经网络与模式识别课程报告文档下载: https://wenku.baidu.com/view/393fbc7853e2524de518964bcf84b9d528ea2c92?aggId393fbc7853e2524de518964bcf84b9d528ea2c92&frcatalogMain_&_wkts_1718955412936 def get_information():方法名称: 获取资料或…

以餐厅为例,来谈谈VOC(客户之声)

VOC,即客户之声,是指通过收集和分析客户的反馈意见,了解他们的需求和期望,进而指导企业改进产品和服务。在餐厅经营中,VOC的应用不仅能够帮助餐厅了解顾客的口味偏好、用餐习惯,还能揭示服务流程中的不足和…

插件分析|Yaklang SQL Injection 检测启发式算法

背景 sqlmap作为一个老牌的成熟的SQL漏洞扫描工具,在SQL注入自动化检测领域独占一壁江山。而现在的SQL注入检测往往是通过被动扫描检出,再通过sqlmap或者手工注入的方式进行进一步的漏洞确认和利用。在这种情形下,我们就需要开发一款应用于被…

ATFX Connect四度加冕!荣膺2024最佳机构业务经纪商奖

近期,知名经纪商ATFX凭借在公益、科技、教育及媒体领域的一系列创新营销举措,掀起一波营销热潮,品牌联动效应显著。日前,ATFX又以实力而赢得一项新荣誉。全球知名媒体Holiston Media举办的2024环球金融大奖 (Global Forex Awards …

10个超好看的 404 页面(附源码)

今天来分享 10 个超好看的 404 页面,带动画效果。 代码:https://codepen.io/AsyrafHussin/pen/KxWRrK 代码:https://codepen.io/salehriaz/pen/erJrZM 代码:https://codepen.io/andrew-lawendy/pen/deOpMZ 代码:https…

如何减轻大语言模型中的幻觉?

ChatGPT、LLaMA 和 Mistral 等大型语言模型 (LLMs) 是强大的自然语言处理 (NLP) 工具,能够为各种应用生成流畅且连贯的文本。然而,他们也有一个主要缺点:他们倾向于产生幻觉,而这些事实或细节不受输入或现实世界的支持。这可能会导…

《传感器系列》温度传感器

温度传感器是一种能够测量温度并将温度信号转换为电信号或其他可输出信号的装置。 它在众多领域都有广泛应用,比如: - 工业生产: 用于监测生产过程中的温度,确保生产工艺的正常进行和产品质量的稳定。 - 智能家居: …

PCB设计中的via孔和pad孔

原文出自微信公众号【小小的电子之路】 在PCB设计过程中,经常会提到via孔和pad孔,下面就简单介绍一下二者的区别。 via称为过孔,主要起到电气连接的作用,用于网络在不同层的导线之间的连接。PCB设计中一般做盖油处理。 via孔 vi…

Kotlin 中的可见修饰符

Java 和 Kotlin 中的可见修饰符: Java:public、private、protected 和 default(什么都不写);Kotlin:public、private、protected 和 internal; 比较: 对于 public 修饰符:在 Java 和 Kotlin 中…

Linux网络 - 再谈、详谈UDP和TCP协议

文章目录 前言预备netstatpidofcat /etc/services 一、UDP协议UDP协议端格式UDP的缓冲区基于UDP的应用层协议 二、TCP协议1.TCP协议段格式确认应答(ACK)机制三次握手疑问1 最后一次客户端发给服务端的ACK请求怎么保证服务端能够收到? 四次挥手疑问2 为什么挥手是四次…

openssl 命令行生成密钥对,生成hash,PSS填充签名,校验

生成密钥对 openssl genpkey -algorithm RSA -out private_key.pem -pkeyopt rsa_keygen_bits:4096 openssl rsa -pubout -in private_key.pem -out public_key.pem将源文件data.txt生成hash值(sha-256) openssl dgst -sha256 -binary data.txt > d…

利用LabVIEW项目管理和组织LabVIEW应用程序

如何利用LabVIEW项目管理和组织LabVIEW应用程序,提供了关于文件定义、磁盘上的文件组织、LabVIEW项目浏览器、交叉链接和相关资源的建议。这些推荐在开发前就应建立,以确保应用程序能扩展到大量VIs并适应多开发者环境。 目录 定义和识别应用程序文件 磁…

第106天:权限提升-WIN 系统AD域控NetLogonADCSPACKDCCVE 漏洞

目录 案例一:WIN-域控提权-CVE-2014-6324 案例二:WIN-域控提权-CVE-2020-1472 案例三:WIN-域控提权-CVE-2021-42287 案例四:WIN-域控提权-CVE-2022-26923 案例一:WIN-域控提权-CVE-2014-6324 首先先部署域控 项目…

神经阻滞术——慢性腰痛、颈痛与关节痛治疗的新选择

北京精诚博爱医院所实施的神经阻滞术是一种针对患者局部疼痛治疗手段,通过向特定部位注射局麻药或其他特定药物,来暂时性地阻断神经传导,进而达到减轻或消除疼痛的目的。这种疗法在慢性腰痛、颈痛或关节痛等常见疼痛疾病的治疗中,…

案例分享:同为科技与军工项目合作

国防数字化建设发展,同为科技提供智能PDU电源管理器系列产品与服务 项目要求描述: 竖装智能PDU电源管理器 63A输入 2P空气开关 SNMP协议智能型表头 3米310平方阻燃A级线缆 监测总输入电压、总负载电流、总负载视在功率、有功功率、无功功率、总负载…

构建有效的财务规划合作伙伴关系

在这个日益注重分类、定义和正规化的时代,财务规划与分析作为企业环境中发展最快的功能之一,已经从典型的数据管理角色逐步演变成企业框架中必不可少的身份。与其他新兴趋势一样,财务规划也开始采用更加创新的理念来吸引高技能投资&#xff0…

每个程序员都要有 3 份收入!

见字如面,我是军哥! 现在这个就业环境,是真的冷,找工作也确实相比前几年难太多。 程序员人群要想没有收入危机,未来的生活压力,我的建议是一定要提前构建自己的三份收入! 哪三份收入呢&#xff…

帮企商城PC端分销商城企业网站源码系统 带源代码包+搭建部署教程

系统概述 帮企商城 PC 端分销商城企业网站源码系统是一款集企业网站建设、商品管理、分销体系、支付系统等多种功能于一体的综合性平台。它为企业提供了一个全面的电子商务解决方案,帮助企业快速搭建自己的在线商城,并实现高效的运营和管理。 该系统采…