论文笔记:Prototypical Verbalizer for Prompt-based Few-shot Tuning

news2025/1/15 22:58:21

论文来源:ACL 2022

论文地址:https://arxiv.org/pdf/2203.09770.pdficon-default.png?t=O83Ahttps://arxiv.org/pdf/2203.09770.pdf

论文代码:https://github.com/thunlp/OpenPrompticon-default.png?t=O83Ahttps://github.com/thunlp/OpenPrompt


 Abstract

        基于提示的预训练语言模型(pre-trained language models, PLMs)调优已经在小样本学习中显示出其优越性。通常,基于提示的调优将输入文本包装成完形填空问题,为了做出预测,模型通过人工设计或者自动构建的表达器(verbalizer)将输出的单词映射到标签上。但是,人工表达器严重依赖于特定领域的先验知识,而自动寻找合适的标签仍然具有挑战性本文提出了直接从训练数据中构建的原型表达器(ProtoVerb)。具体来说,ProtoVerb通过对比学习将学到的原型向量作为语言表达器。通过这种方式,原型归纳了训练实例,并能够包含丰富的类级别语义。本文对主题分类和实体分类任务进行了实验,结果表明,ProtoVerb显著优于当前的自动生成的表达器,特别是在训练数据极其稀缺的情况下。更令人惊讶的是,即使在未调优的PLM上,ProtoVerb也始终支持基于提示的调优,这表明使用PLM是一种优雅的非调优方式。

Introduction

        为了使PLMs适应下游任务,如分类,传统方法通过一个额外的分类器对语言模型进行微调,但是当特定任务的数据有限时,由于预训练任务和微调任务之间的差距,训练额外的高效分类器具有挑战性,并阻碍了PLMs对下游任务的快速适应。

        在基于提示的调优中,输入文本被特定任务的模板包装,将原始任务重新形式化为完形填空任务。例如,在主题分类任务中,可以使用模板“<text> This topic is about [MASK]”,PLMs推断[MASK]位置的单词,然后通过语言表达器将单词映射到对应的标签。语言表达器在基于提示的调优中是非常重要的,是建立在模型输出和最终预测结果之间的桥梁。

        目前大多数工作采用三种类型的语言表达器:人工表达器、基于搜索的表达器和软表达器。如Figure 1所示,人工设计的表达器选择一些标签词来描述类,缺点是要求设计者对下游任务有准确的理解,并且每个类能够用几个词来概括;基于搜索的表达器是通过算法从词表中找到合适的标签词;软表达器使用可训练的token在调优阶段进行优化。在大型词汇表或者低数据环境下的嵌入空间中进行充分搜索或者优化是具有挑战性的,使得自动表达器比人工表达器更不理想。

         本文直接通过训练实例计算每个类的原型向量作为语言表达器(封装了一些类级别的语义特征)进行基于提示的调优,并对主题分类和实体分类任务进行了两组实验:当人工表达器可用时,ProtoVerb作为一个额外的表达器;当样本有限,不提供人工表达器时,ProtoVerb也能生成高质量的表达器。

对比学习:是一种自监督学习方法,用于在没有标签的情况下,通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。

Prototypical Verbalize

        如Figure 2所示,首先获取[MASK]的隐藏层状态来表示实例,然后将其映射到另一个嵌入空间进行原型学习。 原型被用作预测的语言表达器

Instance Representation and Similarity Function

         给定一个用模板包装的训练文本x,将[MASK]的最后一层隐藏状态h_{[MASK]}作为文本的初始表示,使用被\varphi参数化的编码器E_\varphi \left ( \cdot \right ),将x的实例表示为V=E_\varphi \left ( x \right )=Wh_{[MASK]}。然后,采用权重为W的线性编码器来度量实例之间的余弦相似度。

Loss Function

        两个目标:对于实例对,类内对应该比类间对获得更高的相似度分数;对于实例-原型对,类n的实例与原型c_n之间的相似度得分应该高于c_n与其他类实例之间的相似度得分。 为此,基于对比学习中的InfoNCE损失定义目标函数:

       

 Inference

计算查询实例与原型之间的相似度分数,

 然后通过argmax函数做预测。

        当存在其他的表达器时,首先用一个标准标量来处理不同语言表达器的logits,然后取分数的平均值得到最终分数。

Experiments

Single Verbalizer Results:

 Multiple Verbalizer Results:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2208461.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows 下 cocos2d-x-3.17.2 VS2017开发环境搭建

1.下载cocos2d-x-3.17.2 源码: Cocos2d-x - 成熟、轻量、开放的跨平台解决方案 2.下载Python2 Python 2.7.0 Release | Python.org 加入环境变量: 测试版本

用无人机视角,打开哀牢山!

哀牢山危险且神秘&#xff0c;使用无人机进行探索可以极大地提高安全性和效率。通过无人机的关键性能&#xff0c;将哀牢山的情况记录并传输出来 一、高清摄像与图像传输 高清摄像头&#xff1a;无人机通常搭载高分辨率的摄像头&#xff0c;能够捕捉到哀牢山细腻的自然景观和…

如何通过wos进行论文的他引的查找

本帖子主要介绍的是 如何通过wos进行论文的“他引量”的查找。 首先&#xff0c;对于一篇论文&#xff0c;在wos中进行查找的时候&#xff0c;一定要选择&#xff1a; 然后点进去搜索&#xff0c;点击 citations: 在返回的页面选择researcher profiles 一栏的 See all: 然后在…

Allan方差分析是否需要补充确定性误差

MEMS器件陀螺仪与加表存在确定性误差和随机误差&#xff0c;确定性误差可以通过转台标定&#xff0c;比较麻烦&#xff0c;也可以使用手动转动的方式&#xff0c;通过非线性优化的方式获取&#xff0c;github上已有开源程序包&#xff0c;可参见博文https://blog.csdn.net/chen…

使用DSPy优化提示词

使用DSPy优化提示词 🌐 前言 DSPy doc地址 DSPy github DSPy arxiv 在机器学习中,使用语言模型(LM)构建复杂系统常常很麻烦。传统方法需要一步步优化,每次调整都得重新整理,容易出错。而且,手动写提示词时,我们往往不知道改了以后会变好还是变坏,这让整个过程变得更…

Android Studio开发Kotlin项目中遇到的问题解决集

背景&#xff1a;Android Studio 2022.3.1 1.Unexpected tokens (use ; to separate expressions on the same line) 无法在同一行声明一个变量并实例化。 解决&#xff1a;分开 &#xff08;1&#xff09; var aaCo:Runoob<String>aaCoRunoob("aa") &…

基于springboot校园社团信息管理系统

校园社团信息管理系统 摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了校园社团信息管理系统的开发全过程。通过分析校园社团信息管理系统管理的不足&#xff0c;创建了一个计算机管理校园社团信息管理系统的…

多元化外链策略如何最大化SEO效果?

只要观察过一些大网站都知道&#xff0c;单一的外链建设策略通常不足以支撑长期的排名提升。成功的网站都是有很多多元化的外链的&#xff0c;这样外链结构的复杂性和多样性就能确保&#xff0c;所以GPBGNBGMB的外链策略是目前效果最好的外链组合 根据市场数据&#xff0c;排名…

服务器停止响应是什么原因造成的?

“服务器停止响应”或“网页不可用”消息意味着通信中断。当您尝试访问 Web 应用或网站时&#xff0c;您的设备会向托管该应用或网站的远程 Web 服务器发送请求。然后&#xff0c;服务器会处理此请求并返回要显示的网页内容。但是&#xff0c;如果服务器遇到问题并且无法回复预…

java-vue304_springboot智慧旅游系统 w4aanb5e

目录 功能和技术介绍系统实现截图技术范围开发核心技术介绍&#xff1a;代码执行流程核心代码部分展示系统测试其他springboot项目推荐详细视频演示源码获取 功能和技术介绍 探索如何设计一个用户友好、响应迅速的系统界面&#xff0c;确保系统后端逻辑的高效和稳定性。研究如…

Fastgpt本地化部署 - 以MAC为例

1.认识fastgpt 2.私有化部署 MongoDB&#xff1a;用于存储除了向量外的各类数据PostgreSQL/Milvus&#xff1a;存储向量数据OneAPI: 聚合各类 AI API&#xff0c;支持多模型调用 &#xff08;任何模型问题&#xff0c;先自行通过 OneAPI 测试校验&#xff09; &#xff08;1&a…

基于vue框架的党建系统j9hzh(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;组织管理员,成员,通知公告,组织信息,组织成员,入党材料,会议信息,活动签到,消息通知,学习视频 开题报告内容 基于Vue框架的党建系统开题报告 一、研究背景 随着信息技术的飞速发展&#xff0c;党建工作作为党的建设的重要组成部分&am…

单脉冲阵列和差波束形成实现比幅测角法(MATLAB仿真)

单脉冲阵列和差波束形成实现比幅测角法&#xff08;MATLAB仿真&#xff09; 文章目录 前言一、和差波束形成二、比幅测角法原理三、MATLAB仿真四、MATLAB仿真代码(超详细)单脉冲阵列和差波束形成实现比幅测角法MATLAB仿真超详细代码 总结 前言 单脉冲雷达天线要求产生一个主瓣…

Mysql—高可用集群MHA

1:什么是MHA&#xff1f; MHA&#xff08;Master High Availability&#xff09;是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。 MHA 的出现就是解决MySQL 单点的问题。 MySQL故障切换过程中&#xff0c;MHA能做到0-30秒内自动完成故障切换操作。 MHA能在故障切…

GitLab Runner 通过 Pipeline 流水线实现持续集成 CI

文章目录 1、基础环境2、安装 Docker3、安装 GitLab4、安装 JDK5、安装 Maven6、安装 GitLab Runner7、注册 GitLab Runner8、上传 GitLab9、配置 Pipeline 1、基础环境 本次演示搭建&#xff0c;我使用的是阿里云服务器&#xff0c;配置如下&#xff1a; 服务器1&#xff1a;…

web 0基础第一节 文本标签

这是一个html文件的基本结构 在vs code 中使用英文的 ! 可快捷设置这样的结构 <!-- --> 是在html写注释的结构 <!DOCTYPE html> <!--标识当前文档类型为html--> <html> …

由于找不到msvcp140.dll而陷入困境?从系统更新到文件修复的全方位应对策略

由于找不到msvcp140.dll&#xff0c;不少电脑用户陷入了困惑之中。在计算机的复杂生态系统里&#xff0c;dll&#xff08;动态链接库&#xff09;文件是一种共享的资源库&#xff0c;而msvcp140.dll更是与特定的编程环境和软件运行息息相关。它就像是一座桥梁&#xff0c;连接着…

企业内部文档安全外发如何挑选合适的外发系统?

企业文档的外发不仅关系到运营效率&#xff0c;更是信息安全的重要组成部分。面对B2B模式下文档交换的普遍性和重要性&#xff0c;企业内部文档的安全外发成为了众多公司关注的重点之一。 随着互联网技术的发展&#xff0c;企业之间的合作越来越紧密&#xff0c;文档的交流也变…

数字电路尚硅谷学习笔记

学习视频&#xff1a;01_数字电路_从零搭建计算机引导_哔哩哔哩_bilibili 第1章数字电路基础 1.引言 数字电路是现代科技和工程领域中不可或缺的基础。从计算机系统到通信设备&#xff0c;从家庭电子产品到工业自动化&#xff0c;数字电路无处不在&#xff0c;影响着我们的生…

传智杯 第六届—E

题目描述&#xff1a; leafee 最近爱上了 abb 型语句&#xff0c;比如“叠词词”、“恶心心”。 leafee 拿到了一个只含有小写字母的字符串&#xff0c;她想知道有多少个 "abb" 型的子序列&#xff1f; 定义&#xff1a; abb 型字符串满足以下条件&#xff1a; 字符…