P-Tuning,提升预训练语言模型的自然语言理解能力

news2024/9/20 22:30:38

人工智能咨询培训老师叶梓 转载标明出处

预训练语言模型在具体任务上的表现往往依赖于精心设计的离散提示(prompts),但这些提示有着不稳定性,微小的变化可能导致性能的大幅下降。清华大学和麻省理工学院的研究团队提出了一种名为P-Tuning的新方法,通过引入可训练的连续提示嵌入(continuous prompt embeddings),与离散提示相结合,旨在提高模型的稳定性和性能。图1为使用P-Tuning方法在SuperGLUE的7个开发数据集上的平均得分。显示P-Tuning方法相对于原始提示(没有使用P-Tuning)在性能上的提升。

论文链接:https://arxiv.org/pdf/2103.10385

P-Tuning方法

Prompting 是一种技术,它通过将自然语言模式作为额外的输入添加到预训练语言模型中,以适应下游任务。尽管这种技术在多个自然语言处理任务上取得了显著的性能提升,但如何编写高性能的离散提示仍然是一个挑战。研究者通过在LAMA知识探测任务上的初步实验发现,离散提示的性能非常不稳定。例如,在表1中,仅仅在提示中改变一个词,就可能导致性能下降20个百分点。

为了解决这个问题,又提出了自动化搜索离散提示的方法,包括通过挖掘训练语料库、基于梯度的搜索和使用预训练的生成模型。然而,这些方法虽然旨在寻找性能更好的提示,但并没有改变离散提示本质上的不稳定性。而且离散空间中的搜索可能无法充分利用反向传播的梯度,可能导致次优解。

本文提出的新方法P-Tuning使用连续的提示嵌入与离散提示相结合。具体而言对于一个预训练语言模型M,其隐藏层的大小为ℎ,词汇表大小为∣V∣。给定一个NLU任务的标记数据集,其中是一系列离散标记的输入序列,y∈Y是标签。P-Tuning的目标是估计分类条件概率=,其中M的参数可以是微调的或冻结的。

在图2中,展示了“英国首都是什么?”这一提示搜索的例子。在(a)中,离散提示搜索只接收离散的奖励;而在(b)中,连续提示嵌入和提示编码器可以在可微分的方式下进行优化。

P-Tuning使用额外的嵌入函数将模板映射到模型输入。即连续提示嵌入[P_i​]被定义为提示模板的一部分,如下所示:

通过优化任务损失函数来更新嵌入​。注意:实验中发现将离散提示与连续提示结合使用效果更好,这也是研究者们在所有实验中采用的方法。P-Tuning适用于冻结和微调的语言模型。

在P-Tuning框架中,研究者们使用了一个映射函数f来将可训练的嵌入{P_i​}映射到模型输入{h_i​}。使用映射函数的直觉是,与使用独立的可学习嵌入相比,它更方便地对不同提示嵌入之间的依赖性进行建模。在实现中,研究者们使用了一个轻量级的神经网络来构建函数f。具体为实验中使用了长短期记忆(LSTM)网络、多层感知器(MLP)和恒等映射函数。

通过这些方法,P-Tuning不仅提高了预训练语言模型在自然语言理解任务上的性能,还显著提高了模型的稳定性。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
 

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验涵盖了两个主要的自然语言理解(NLU)基准测试:LAMA和SuperGLUE,并在完全监督学习和少量样本学习(few-shot learning)的设置下进行了评估。表2总结了实验中的任务设置和结果摘要。它展示了P-Tuning在不同任务设置(LAMA、全监督SuperGLUE、少样本SuperGLUE)中的表现,以及它如何改善性能和稳定性。

研究者们首先使用LAMA数据集来评估语言模型从预训练中获得的真实世界知识量。LAMA通过从知识库中选择的三元组创建的完形填空测试来评估这一点。研究者们采用了原始的LAMA-TREx数据集,并根据BERT和GPT的词汇表交集创建了LAMA-29k数据集,以便进行直接比较。

表3是在LAMA-34k和LAMA-29k上的知识探测精确度@1(Precision@1)结果。P-Tuning在所有情况下都优于离散提示搜索基线,包括AutoPrompt和LPAQA。例如,在LAMA-34k上,BERT-base模型使用P-Tuning后,性能从31.1%提高到52.3%,增加了20.6个百分点。

研究者接着评估了P-Tuning在SuperGLUE基准测试上的表现,该基准测试包含8个具有挑战性的NLU任务。由于ReCoRD任务不使用离散提示,因此P-Tuning不直接适用,研究者们专注于其余7个任务。

表4展示了在SuperGLUE开发集上的完全监督性能。P-Tuning在BERT和GPT模型上都能提高性能。例如,在BERT-Base模型上,P-Tuning在5/7的任务上取得了最佳性能,而在BERT-Large模型上,在4/7的任务上超过了其他方法。对于资源较少的任务,P-Tuning的好处更加明显。

研究者还探讨了P-Tuning是否能够提高预训练模型在具有挑战性任务上的少量样本学习能力。他们使用了FewGLUE基准测试,并遵循了FewNLU的评估程序。

表5展示了基于ALBERT的少量样本学习性能。P-Tuning在平均性能上一致性地比PET方法高出1个百分点以上,比Prompt Tuning高出13个百分点以上,证明了通过自动学习连续提示符号,预训练模型能够在NLU任务上实现更好的少量样本性能。

研究者进行了消融研究,探讨了提示编码器的类型、提示符号的位置和数量对性能的影响。他们发现,LSTM和MLP通常在这些任务上表现良好,而直接优化词嵌入(EMB)则不太稳定。另外连续提示符号的数量对少量样本性能有很大的影响,但并不是说提示符号的数量越多越好。

表6为在SuperGLUE上使用ALBERT模型进行少样本学习时,PET和P-Tuning每种模式的性能,以及在LAMA-P17上使用BERT-base-cased模型的手动提示和P-Tuning的性能。它显示了P-Tuning如何提高稳定性。与手动提示相比,P-Tuning能够减少不同提示之间的性能差异,从而提高稳定性。例如,在LAMA任务上,P-Tuning将标准差从10.1降低到了0.46。

通过这些详细的实验设置和结果,研究者证明了P-Tuning是一种有效且稳定的方法,可以显著提高预训练语言模型在NLU任务上的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2099272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

011.Python爬虫系列_bs4解析

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数…

JAVA vs Python:谁更适合后端开发?

在最近的学习中,总有人问我JAVA vs Python:谁更适合后端开发? 而在后端开发中,Java和Python经常被拿来比较,就像在问“你喜欢吃米饭还是面条?”答案并不绝对,而是取决于项目的需求、团队的熟悉度&#xff…

Linux之7z命令压缩和解压(三十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列…

思科交换机端口安全配置1

#网络安全技术实现# #任务一交换机端口安全配置1# #1配置计算机的IP 地址、子网掩码和网关 #2配置交换机B的主机名称,创建vlan 10和vlan 20,将f0/1、2划入vlan 10,f0/3、4划入vlan 20,将f0/24配置为Trunk Switch(config)#hostna…

深度学习(一)-感知机+神经网络+激活函数

深度学习概述 深度学习的特点 优点 性能更好 不需要特征工程 在大数据样本下有更好的性能 能解决某些传统机器学习无法解决的问题 缺点 小数据样本下性能不如机器学习 模型复杂 可解释性弱 深度学习与传统机器学习相同点 深度学习、机器学习是同一问题不同的解决方法 …

【Next】1. 初识服务端渲染

笔记来源:编程导航 1、什么是客户端和服务端渲染? 网站渲染可以在服务端和客户端两种环境下进行。 在客户端渲染(Client-Side Rendering,CSR)中,客户端(浏览器)会先向服务器请求 H…

SpringBoot实现前后端传输加密设计

在Web应用中,确保前后端之间的数据传输安全是非常重要的。这通常涉及到使用HTTPS协议、数据加密、令牌验证等安全措施。本文通过将前后端之间的传输数据进行加密,用于在Spring Boot应用中实现前后端传输加密设计。 一、数据加密方案 即使使用了HTTPS&…

金融企业业务中台应用架构设计

金融企业的业务基于价值链分解为渠道需求、产品需求、营销需求,运营需求、风险需求五大方面。业务中台内部可以划分为产品中台、渠道中台、营销中台和运营中台。 产品中台 负责金融产品研发全生命周期的流程,关注于创意评估、需求分析、方案设计、产品运营等产品研发流程,产…

深度学习(三)-反向传播

反向传播算法 深度学习三巨头发表反向传播论文 https://www.cs.toronto.edu/~hinton/absps/naturebp.pdf 正向传播网络 前一层的输出作为后一层的输入的逻辑结构,每一层神经元仅与下一层的神经元全连接,通过增加神经网络的层数虽然可为其提供更大的灵…

【论文】A Collaborative Transfer Learning Framework for Cross-domain Recommendation

Intro 业界常见的跨域建模方案主要分为两种范式[22][32][5][36][17][14][20]:1) 将源样本和目标样本进行联合和混合,然后执行多任务学习技术,以提高在所有域中的性能;2) 使用混合或数据丰富的源域数据预先训练模型,然…

时序优化的常见

本期求职笔试题目来源大疆硬件逻辑岗,共2道题,涉及知识点包含:时序约束中异步时钟的设置、典型时序优化方法。 33、根据约束关系set_clock_groups -async -group {CLK1CLK3}{CLK2},下图哪些路径会进行时序检查( )(多选…

三、电路知识笔记

三、电路知识 3.1 单位换算 1 英寸2.54 厘米25.4mm 1mil (即毫英寸)1/1000inch0.0254mm 普通杜邦线的间距为2.54mm即0.1英寸(inch) 3.2 贴片元件焊接 中温焊锡膏使用吹风枪焊接时,参考参数: 300度 风速4 (可焊接贴片…

CtfShow中的misc17解法

第一步: 首先拿随波逐流打开看看,没发现啥突破点,很正常 第二步:使用kali中的binwalk命令,解析出一个文件夹,打开压缩包后发现没什么东西 第三步:结合题目给的提示,使用tweakpng打开…

前端【CSDN创作优化3】CSDN自定义模块:解决保存CSDN自定义模块时显示fail

【CSDN创作优化3】CSDN自定义模块:解决保存CSDN自定义模块时显示fail 写在最前面遇到的问题:保存CSDN自定义模块时显示fail1.符号问题:删除所有符号2.超出字符长度限制:压缩保存3.li模块不见了:小窗口正常显示元素 &am…

你以为AI只能写代码?来看看最新的AI工具,一句话让AI直接生成一个应用程序!

AI写代码是目前大家熟知的能力,无论是告诉GPT、kimi、Claude还是通义千问他们都能迅速生成出长串的代码。 但是AI在软件工程领域的能力仅限于此吗? “我想开发一个小游戏,你可以帮我开发出来吗” 想必大家肯定在GPT或者是国内大模型上问过…

【Bug】Ubuntu22.04英伟达驱动安装失败,重启后服务器卡在进入系统/grub的页面

目录 报错内容1、安装英伟达驱动:Failed to initialize NVML: Driver/library version mismatch2、重启后卡在系统页面3、在解决完问题2后,尝试继续解决问题1,还是失败4、能ping通服务器但是无法ssh连接 解决方案1、重启后卡在系统页面&#…

全球1km分辨率人口分布栅格数据

我们在《全国省市县三级“七普”人口数据分享》一文中,为你分享过全国人口数据。 现在再为你分享全球1km分辨率人口分布栅格数据,你可以在文末查看该数据的领取方法。 全球1km分辨率人口分布 人口空间分布数据是在各项研究中经常使用的数据&#xff0…

UXR0134A Infiniium UXR 系列示波器:13 GHz,4 通道

新利通 UXR0134A Infiniium UXR系列示波器 ——13 GHz,4 通道—— 简述 UXR0134A 是 Infiniium UXR 系列实时示波器之一,拥有 13 GHz 带宽和 4 个通道。 功能特点 主要特点 ⚫13 GHz 带宽 ⚫4 个全带宽通道 ⚫10 位 ADC ⚫所有通道都提供 128 …

ArcGIS Pro 3.1下载分享

在使用了很长一段时间ArcGIS Pro 3.0之后,终于迎来了ArcGIS Pro 3.1的更新,这里为你分享一下ArcGIS Pro 3.1的安装步骤。 软件介绍 ArcGIS Pro 3.1 是由Esri发布的地理信息系统 (GIS) 软件的较新版本,作为 ArcGIS 桌面应用程序家族中的核心…

【13年12月CCF计算机软件能力认证】:出现次数最多的数、ISBN号码、最大的矩形、有趣的数、I‘m stuck!

题目概括出现次数最多的数暴力枚举,非常简单ISBN号码直接模拟,非常简单最大的矩形用到双指针(优化枚举),非常简单有趣的数用到了数学知识排列组合,有一定思维难度I’m stuck!我用到了两个dfs来解决&#xf…