[论文阅读笔记75]P-Tuning v2

news2025/1/20 11:01:33

1. 基本信息

题目论文作者与单位来源年份
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and TasksXiao Liu等Tsinghua University清华大学2021

Citations, References

论文链接:https://arxiv.org/pdf/2110.07602.pdf

[1] Liu X , Ji K , Fu Y , et al. P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks[J]. 2021.

论文代码:https://github.com/THUDM/P-tuning-v2

2. 要点

研究主题问题背景核心方法流程亮点数据集结论论文类型关键字
微调大模型Prompt tuning模型有很大的局限性,提示调优对于正常大小的预训练模型表现不佳;另外,当前的prompt tuning处理不了序列标注任务,解决不具通用性。尤其的NLU任务上。提出P-Tuning v2 是deep Prompt Tuning的一个实现。对NLU进行优化与适应。只微调0.1~0.3%的参数可以达到与全参数微调的水平。SuperGLUE提升了P-tuning10B以下数模型性能,在NLU任务上例如实体命名,采用0.1%~3%的训练参数达到了Fine-tuning的水平。

P-TuningV2在P-tuning的基础上差不多增加多了10倍的数据量,在一般的模型上有比较好的效果。 提升了P-tuning在一般小参数模型效果,基本上达到了Fine-tuning的水平。

(RTE、BoolQA、CB验证集的平均准确率):

pCFzhdO.png

3. 模型(核心内容)

3.1 P-tunning 与 P-tunning V2进行对比图

p9jUtTs.png

Prefix-Tuning:Optimizing Continuous Prompts for Generation

Lester et al是google的,提出了“prompt tuning”.

P-tuning与Lester的模型只是在embedding层加入Prompt. P-tuning v2在所以层都加Prompt.

旧的方法存在问题:

a. 可调的参数受限制。

b. embedding与模型的输出没有直接的关系。

为了解决这些问题,P-tuning v2 employs the idea of deep prompt tuning。

优化与实现细节:

Reparameterization(重参数化):前面的研究喜欢用MLP进行对参数进行转换,可是在NLU的任务中,这种方法取决于任务与数据集;

**Prompt Length(Prompt长度):**提示符长度在P-Tuning v2中起着关键作用。一般来说,简单的分类任务偏向于更短的提示(少于20个);硬序列标记任务偏向于更长的提示(大约100个)。

pCk3SNF.png

**Multi-task Learning(多任务学习):**多任务对于P-Tuning v2是可选的,但是可以通过提供更好的初始化来进一步提高性能。

**Classifification Head(分类头):**P-tuning v2 instead applies a randomly-initialized classifification head on top of the tokens as in BERT。

4. 实验与分析

4.1 实验内容

NLU Tasks:SuperGLUE.

BoolQ:问答任务;

CB(Commitment Bank):文本蕴含任务;

COPA(Choice of Plausibe Ansewers): 选择推理任务;

MultiRC(Multi-Sentence Reading Comprehension):真假问答任务;

ReCoRD(Reading Comprehension with Commonsense Reasoning Dataset): 问答式的NER;

RTE(Recognizing Textual Entailment):文本蕴含任务;

WiC(Words in Context):目标词在待分析两个句子中意思是不是一样;

WSC(The Winograd Schema Challenge):**阅读理解任务; **

Pre-trained Models:BERT-large,RoBERTa-large,DeBERTa-xlarge,GLM-xlarge/xxlarge

Multitask Learning:Name entity recognition (NER),(Extractive) Question Answering (QA),Semantic Role Labeling (SRL)

NER(IOB2格式): CoNLL03,OntoNotes 5.0,CoNLL04. multi-task is combination of three datasets;

**QA:**SQuAD1.1, SQuAD2.0,multi-task setting is combines the training sets of SQuAD 1.1,and 2.0;

**SRL:**CoNLL05, CoNLL12,multi-task setting is combination of the training set of CoNLL05, CoNLL12;

4.2 效果

关于不同的模型规模对比:

pCkG9yR.png

Across Tasks对比:
pCkBrrD.png

NER对于多任务:结合三个数据集的训练集进行预训练。共享continuous prompts,对每个数据集使用不同的线性分类器。

QA对于多任务:预训练用SQuAD 1.1和2.0的合并的数据集进行训练集,在预测训练时假设所有的问题,不管来源,都有可能没有答案。

消融实验:

Verbalizer with LM head v.s. [CLS] label with linear head

pCk6IED.png

Prompt depth:降序添比按升序添加它们要好

pCkcNIe.png

从这个图来看,加入prompt的层与数据集有很大的关系的,RTE加到17-24层就可以了。可是BoolQ则是越多层越好。

5. 代码

6. 总结

这个实验效果是可喜的,特别在NLU的任务上,一个优势时,预模型不用太大,另一个不用保存多一份模型的副本。还有一个,这里采用了CLS&linear head来代替经典的Verbalizer.

7. 知识整理(知识点,要读的文献,摘取原文)

verbalizer是标签词映射, 将**[MASK]**位置上对于词表中词汇的预测转化成分类标签。例如{POLITICS: “politics”, SPORTS: “sports”} 。

Prompt tuning是一种只微调连续提示的想法。具体来说,Liu et al. (2021b); Lester et al. (2021) 提出在原始的输入词嵌入序列上增加可训练的连续嵌入。

摘取学习的原文:

Deep prompt tuning increases the capacity of continuous prompts and closes the gap to fine-tuning across various settings, especially for small models and hard tasks.

深度prompt tuning增加了连续提示的能力,并缩小了在各种设置fine-tuning的差距,特别是对于小模型和硬任务。

关于SuperGLUE task:

BoolQ

BoolQ是包含15942个示例的Yes/No问题的问答数据集。这些问题是自然产生的–它们是在无提示和无约束的设置中产生的。 每个示例都是(问题、段落、答案)的三元组,页面标题作为可选的附加上下文。

{“question”: “is windows movie maker part of windows essentials”,

“passage”: “Windows Movie Maker – Windows Movie Maker (formerly known as Windows Live Movie Maker in Windows 7) is a discontinued video editing software by Microsoft. It is a part of Windows Essentials software suite and offers the ability to create and edit videos as well as to publish them on OneDrive, Facebook, Vimeo, YouTube, and Flickr.”,

“idx”: 2,

“label”: true}

CB: Commitment Bank
CB一个短文本语料库,其中至少有一个句子包含一个嵌入从句。其中每个嵌入从句都标注了该从句的预期的真实性程度。所得到的任务框架是三类文本蕴涵(three-class textual entailment),其样本来自《华尔街日报(Wall Street Journal)》、英国国家语料库(British National Corpus)的小说、Switchboard。每个样本都包含一个含有一个嵌入从句的前提(premise),对应的假设(hypothesis)则是该从句的提取。SuperCLUE 使用了该数据集的一个子集,该子集中注释之间的一致程度超过 0.85。这些数据不很平衡(中性样本相对较少),所以评估指标是准确度和 F1 分数,其中多类 F1 分数是每类 F1 分数的不加权的平均值。
实际上,CB是一个文本蕴含任务。模型处理前提(premise)后,检查基于前提的假设(hypothesis)是中性的还是蕴含的还是相矛盾的。

{“premise”: “The Susweca. It means ‘‘dragonfly’’ in Sioux, you know.
Did I ever tell you that’s where Paul and I met?”
“hypothesis”:“Susweca is where she and Paul met,”
“label”: “entailment”, “idx”: 77}

COPA: Choice of Plausibe Ansewers
数据集代表了一项因果推理任务,其会向系统提供一个前提句子和两个可能的可选项。系统必须选择与前提句子有更可信因果关系的可选项。用于构建可选项的方法要确保需要因果推理才能解决该任务。样本要么针对前提句子的可能原因,要么则是可能结果,再加上模型的两个实例类型之间的简单问题消岐。

Premise(前提): I knocked on my neighbor’s door.
What happened as a result?

Alternative 1(两个实例): My neighbor invited me in.
Alternative 2: My neighbor left his house.

MultiRC: Multi-Sentence Reading Comprehension
MultiRC是一项真假问答任务。每个样本都包含一个上下文段落、一个有关该段落的问题和一个该问题的可能答案的列表,这些答案必须标注了「真(true)」或「假(false)」。问答是很常见的问题,有很多数据集。
这里选择 MultiRC 的原因包括:
(1)每个问题都可以有多个可能的正确答案,所以每个问答对都必须独立于其它问答对进行评估;(2)问题的设计方式使得每个问题的解答都需要从多个上下文句子中提取事实;
(3)相比于基于范围的抽取型问答,这个数据集的问答对格式更匹配其它 SuperGLUE 任务的 API。
这些段落取自七个领域,包括新闻、小说和历史文本。评估指标是每个问题的正确答案集的 macro-average F1 分数(F1m)和在所有答案选项上的 binary F1 分数(F1a)。例如给定文本:

“Text”: “text”: "The rally took place on October 17, the shooting on
February 29. Again, standard filmmaking techniques are interpreted as
smooth distortion: “Moore works by depriving you of context and
guiding your mind to fill the vacuum – with completely false ideas.
It is brilliantly, if unethically, done.” As noted above, the “from
my cold dead hands” part is simply Moore’s way to introduce Heston.
Did anyone but Moore’s critics view it as anything else? He certainly
does not “attribute it to a speech where it was not uttered” and, as
noted above, doing so twice would make no sense whatsoever if Moore
was the mastermind deceiver that his critics claim he is. Concerning
the Georgetown Hoya interview where Heston was asked about Rolland,
you write: “There is no indication that [Heston] recognized Kayla
Rolland’s case.” This is naive to the extreme – Heston would not be
president of the NRA if he was not kept up to date on the most
prominent cases of gun violence. Even if he did not respond to that
part of the interview, he certainly knew about the case at that point.
Regarding the NRA website excerpt about the case and the highlighting
of the phrase “48 hours after Kayla Rolland is pronounced dead”:
This is one valid criticism, but far from the deliberate distortion
you make it out to be; rather, it is an example for how the facts can
sometimes be easy to miss with Moore’s fast pace editing. The reason
the sentence is highlighted is not to deceive the viewer into
believing that Heston hurried to Flint to immediately hold a rally
there (as will become quite obvious), but simply to highlight the
first mention of the name “Kayla Rolland” in the text, which is in
this paragraph. "

以及答案

“question”: “When was Kayla Rolland shot?” “answers”: [{“text”: “February 17”, “idx”: 168, “label”: 0}, {“text”: “February 29”, “idx”: 169, “label”: 1}, {“text”: “October 29”, “idx”: 170, “label”: 0}, {“text”: “October 17”, “idx”: 171, “label”: 0}, {“text”: “February 17”, “idx”: 172, “label”: 0}], “idx”: 26}, {“question”: “Who was president of the NRA on February 29?”, “answers”: [{“text”: “Charleton Heston”, “idx”: 173, “label”: 1}, {“text”: “Moore”, “idx”: 174, “label”: 0}, {“text”: “George Hoya”, “idx”: 175, “label”: 0}, {“text”: “Rolland”, “idx”: 176, “label”: 0}, {“text”: “Hoya”, “idx”: 177, “label”: 0}, {“text”: “Kayla”, “idx”: 178,“label”: 0}], “idx”: 27}

8. 参考文献

https://blog.csdn.net/weixin_39754630/article/details/119146018

made by happyprince

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/625597.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:Python的IDLE是什么?——初探IDLE的用途和功能

Python的IDLE是什么?——初探IDLE的用途和功能 Python的IDLE是一个Python集成开发环境(IDE),可以简单地将其视为为开发者提供编写、调试和执行代码的工具。IDLE包括一个交互式解释器,使开发更加快速和简便。它还提供了代码编辑器、调试器和其…

chatgpt赋能python:Python技巧:一行代码实现所有数据的输出

Python技巧:一行代码实现所有数据的输出 Python是一种高级动态语言,因其简单易学和灵活性而广受欢迎。Python的语法简单明了,适合初学者学习、理解和实践,同时也是专业程序员的首选开发语言之一。 在实际的编程中,有…

k8s简单部署示例

1 部署yaml文件 1.1 Deployment部署 apiVersion: apps/v1 kind: Deployment metadata:name: zscorenamespace: wangzy-plabels:app: zscore-dep spec:replicas: 1selector:matchLabels:app: zscoretemplate:metadata:labels:app: zscoreannotations:sidecar.istio.io/inject:…

[工业互联-9]:EtherCAT(以太网控制自动化技术)+TwinCAT 在生产自动化控制中的应用 、

前言 EtherCAT(以太网控制自动化技术)是一个开放架构,以以太网为基础的现场总线系统,其名称的CAT为控制自动化技术(Control Automation Technology)字首的缩写。EtherCAT是确定性的工业以太网,…

Android 源码 AOSP版本– 下载[Ubuntu ]

Android 源码 AOSP版本– 下载[Ubuntu ] 前言配置下载源码前言 Android系统作为一个庞大的开源项目,除了一些谷歌自带服务之外,其他所有代码均以AOSP(Android Open Source Project)的形式开源。对于框架开发者来说,熟悉AOSP是必不可少的知识。即使是普通开发者,为了优化…

POSTGRES 多条件数量统计---CASE WHEN 妙用

创建表 create table tbl_user( id serial PRIMARY KEY, name varchar(256), addr varchar(256), age int, score int, fav varchar(256) ) 插入预置数据 INSERT INTO tbl_user (name, addr, age, score, fav) VALUES (aaa,aaa_addr,10, 23,aaa_fav_new), (bbb,ccc_addr,10, 23…

chatgpt赋能python:Python之妙用一行输出一个数字

Python之妙用一行输出一个数字 在日常编程中,我们常常需要输出一些数字来进行调试或测试。而在Python中,一行代码就可以轻松实现这个过程,即一行代码输出一个数字。 Python的print()函数 在Python中,print()函数是最基本的输出…

CPU lock-step资料整理

知识的价值在于分享,欢迎大家批评指正,共同进步。 目录 1 功能安全 2 技术特性 3 安全系统架构 4 TI Hercules系列 4.1 TMS570安全概念基本原理 4.1.1 1oo1D双核安全概念 4.1.2 1oo1D优势 总结 参考文献 1 功能安全 根据ISO26262-2018&#xff0…

踩坑集锦之Mybaits Invalid bound statement异常

踩坑集锦之Mybaits Invalid bound statement 引言多数据源场景下Mybaits如何进行配置包扫描过程问题一: 自动注入带来的同类型bean实例冲突问题二: 扫描器扫描路径重叠,导致优先级低的扫描器扫描不到对应包路径下的mapper接口补充说明1: MapperScannerConfigurer补充…

编译tolua——1、编译工具和环境说明

大家好,我是阿赵。 之前有朋友问我编译tolua相关的问题。虽然网上也有很多相关的资料可以查询,但我感觉自己也写一篇,作为一个记录也不错。不过一篇文章要把所有内容都说完,可能有点长,所以把整个过程分开几篇文章写一…

图文并茂五分钟搞懂react中的reducer

什么是 reducer 函数? 为什么要用 reducer? Reducer 是处理状态的另一种方式。通俗来讲,就是可以让你的复杂组件更加干净,代码更加优雅当你的组件里有好多个状态更新逻辑,并且有些是有一定关联性的,写多个useState会看起来很杂…

SPIFlash-W25QXX使用总结

W25QXX简介 W25QXX,后面的XX指的是Mbit 常见的型号有: W25Q80 W25Q16 W25Q32 W25Q64 W25Q128 注意80是表示8而不是80 所以,换算成字节数,从上到下为: 1MB 2MB 4MB 8MB 16MB 整个flash分成多个块,一个块分成…

Linux配置MySQL环境(三)

Linux配置MySQL环境 一、下载1. 官网下载MySQL2. 百度网盘快速下载MySQL 二、安装1、通过 Xftp 将 MySQL 安装包拷贝到 Linux2、解压缩3、安装 common、libs、client、server4、初步连接 三、卸载四、常用设置1. 修改 root 用户密码 五、使用新密码登录六、开启远程访问七、开放…

购物车按钮

先看效果&#xff1a; 再看代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>购物车按钮展示</title><link href"https://fonts.googleapis.com/css?familyInter:400…

002Mybatis初始化引入

引入依赖 <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId> </dependency> 自动检测工程中的DataSource创建并注册SqlSessionFactory实例创建并注册SqlSessionTemplate实例自…

chatgpt赋能python:Python中如何输入一个列表?

Python中如何输入一个列表&#xff1f; 如果你正在使用Python编程语言&#xff0c;那么输入一个列表是很常见的任务。列表是Python中最常用的数据类型之一&#xff0c;它允许我们在一个变量中存储多个值。在这篇文章中&#xff0c;我们将介绍如何使用Python语言输入一个列表&a…

chatgpt赋能python:Python中的16进制输出:从基础到应用

Python中的16进制输出&#xff1a;从基础到应用 在计算机编程中&#xff0c;16进制是一种非常重要的数字系统。对于Python工程师来说&#xff0c;熟练地掌握16进制输出技能非常重要&#xff0c;因为它能够帮助你更好地理解和分析二进制数据。 在本篇文章中&#xff0c;我们将…

JavaSE-03 【流程控制语句】

第一章 流程控制 1.1 流程概述 在一个程序执行的过程中&#xff0c;每条语句的执行顺序对程序的结果是由直接影响的&#xff0c; 也就是&#xff0c;语句的流程对运行结果有着直接的影响&#xff0c;所以&#xff0c;必须清楚知道每条语句的执行流程&#xff0c; 并且&#x…

Gossip分布式通信协议副本管理器说明

Gossip中副本管理器 副本管理器状态 不考虑应用时一个副本管理器应该有的状态&#xff1a; 值&#xff0c;这是由副本管理器维护的应用状态的值&#xff0c;每个副本管理器是一个状态机。起始于一个特定的初始值。此后的状态完全由更新操作决定。值的时间戳&#xff1a;代表更…

chatgpt赋能python:Python的包管理器-pip

Python的包管理器 - pip 什么是pip? pip是Python中的一个包管理工具&#xff0c;它可以用来安装、升级以及管理Python语言中的第三方模块。 如何安装pip 在Python 2.7.9和Python 3.4中&#xff0c;pip已经随着Python自带安装了。 如果你的Python没有安装pip&#xff0c;可…