2021-arxiv-GPT Understands, Too

news2025/1/16 0:46:51

2021-arxiv-GPT Understands, Too

Paper: https://arxiv.org/abs/2103.10385
Code: https://github.com/THUDM/P-tuning

Prompt 简单理解

举例来讲,今天如果有这样两句评论:

1. 什么苹果啊,都没有苹果味,怪怪的味道,而且一点都不甜,超级难吃!
2. 这破笔记本速度太慢了,卡的不要不要的。

现在我们需要根据他们描述的商品类型进行一个分类任务,

即,第一句需要被分类到「水果」类别中;第二句则需要分类到「电脑」类别中。

一种直觉的方式是将该问题建模成一个传统文本分类的任务,通过人工标注,为每一个类别设置一个id,例如:

{
    '电脑': 0,
    '水果': 1,
    ....
}

这样一来,标注数据集就长这样:

什么苹果啊,都没有苹果味,怪怪的味道,而且一点都不甜,超级难吃!  1
这破笔记本速度太慢了,卡的不要不要的。    0
...

这种方法是可行的,但是需要「较多的标注数据」才能取得不错的效果。

由于大多数预训练模型(如BRET)在 pretrain 的时候都使用了 [MASK] token 做 MLM 任务,而我们在真实下游任务中往往是不会使用到 [MASK] 这个 token,这就意味着今天我们在训练下游任务时需要较多的数据集去抹平上下游任务不一致的 gap。

那,如果我们没有足够多的训练数据怎么办呢?

prompt learning 的出现就是为了解决这一问题,它将 [MASK] 的 token 引入到了下游任务中,将下游任务构造成和 MLM 类似的任务。

举例来讲,我们可以将上述评论改写为:

这是一条[MASK][MASK]评论:这破笔记本速度太慢了,卡的不要不要的。

然后让模型去预测两个 [MASK] token 的真实值是什么,那模型根据上下文能推测出被掩码住的词应该为「电脑」。

由于下游任务中也使用了和预训练任务中同样的 MLM 任务,这样我们就可以使用更少的训练数据来进行微调了。
但,这还不是 P-tuning。

通过上面的例子我们可以观察到,构建句子最关键的部分是在于 prompt的生成,即:

「这是一条[MASK][MASK]评论:」(prompt) + 这破笔记本速度太慢了,卡的不要不要的。(content)

被括号括起来的前缀(prompt)的生成是非常重要的,不同 prompt 会极大影响模型对 [MASK] 预测的正确率。

那么这个 prompt 怎么生成呢?

我们当然可以通过人工去设计很多不同类型的前缀 prompt,我们把他们称为 prompt pattern,例如:

这是一条[MASK][MASK]评论:
下面是一条描述[MASK][MASK]的评论:
[MASK][MASK]...

但是人工列这种 prompt pattern 非常的麻烦,不同的数据集所需要的 prompt pattern 也不同,可复用性很低。

那么,我们能不能通过机器自己去学习 prompt pattern 呢?

这,就是 P-Tuning。

P-Tuning 架构

给定一个预训练的语言模型 M M M,一个离散输入标记序列 x 1 : n = { x 0 , x 1 , … , x n } \mathbf{x}_{1: n}=\left\{x_0, x_1, \ldots, x_n\right\} x1:n={x0,x1,,xn}将由预训练嵌入层 e ∈ M \mathbf{e} \in \mathcal{M} eM映射到输入嵌入 { e ( x 0 ) , e ( x 1 ) , … , e ( x n ) } \left\{\mathbf{e}\left(x_0\right), \mathbf{e}\left(x_1\right), \ldots, \mathbf{e}\left(x_n\right)\right\} {e(x0),e(x1),,e(xn)}。在特定场景中,在上下文 x x x 的条件下,作者使用一组目标标记 y y y 的输出嵌入进行下游处理。例如,在预训练中, x x x 指的是未屏蔽的令牌,而 y y y 指的是 [MASK] 标记;在句子分类中, x x x 指的是句子标记,而 y y y 通常指的是 [CLS]。

提示 p p p 的功能是将上下文 x x x、目标 y y y 和自身组织到模板 T 中。例如,在预测一个国家首都的任务 (LAMA-TREx P36) 中,模板可能是“The capital of Britain is [MASK]”。(见图2),其中“The capital of … is … .“是提示,”Britain"是上下文,”[MASK]“是目标。提示可以非常灵活,我们甚至可以将它们插入到上下文或目标中。

V V V 指语言模型 M M M 的词汇表, [ P i ] [P_i] [Pi] 指模板 T 中的第 i i i 个提示标记。为简单起见,给定模板 T = { [ P 0 : i ] , x , [ P i + 1 : m ] , y } T=\left\{\left[\mathrm{P}_{0: i}\right], \mathbf{x},\left[\mathrm{P}_{i+1: m}\right], \mathbf{y}\right\} T={[P0:i],x,[Pi+1:m],y},与满足 [ P i ] ∈ V \left[\mathrm{P}_i\right] \in \mathcal{V} [Pi]V 并将 T T T 映射为的传统离散提示相比

相反,P-tuning 将 [Pi] 视为伪令牌,并将模板映射到

其中 h i ( 0 ≤ i < m ) h_i(0 \leq i<m) hi(0i<m) 是可训练的嵌入张量。能够找到超越 M M M V V V 可以表达的原始词汇的更好的连续提示。最后,利用下游损失函数 L L L,可以对连续提示 h i ( 0 ≤ i < m ) h_i(0 \leq i<m) hi(0i<m)进行差分优化

优化

1)离散性 M \mathcal{M} M的原始词嵌入 e e e在预训练后已经变得高度离散。如果用随机分布初始化 h h h,然后用随机梯度下降 (SGD) 进行优化,这已被证明只会改变小邻域中的参数,优化器很容易陷入局部最小值。
2)关联:另一个问题是,作者认为提示嵌入 h i h_i hi的值应该是相互依赖的,而不是独立的。需要一些机制来将提示嵌入相互关联。

鉴于这些挑战,在 P-tuning中,建议使用提示编码器将 h i h_i hi 建模为序列,该序列由一个非常精简的神经网络组成,可以解决离散性和关联问题。作者选择双向长短期记忆网络 (LSTM),并使用 ReLU 激活的两层多层感知器 (MLP) 来编码离散性。从形式上讲,将 h i ′ h_i^{\prime} hi嵌入到语言模型 M \mathcal{M} M中的实际输入源自
h i = MLP ⁡ ( [ h i → : h i ← ] ) = MLP ⁡ ( [ LSTM ⁡ ( h 0 : i ) : LSTM ⁡ ( h i : m ) ] ) \begin{aligned} h_i & =\operatorname{MLP}\left(\left[\overrightarrow{h_i}: \overleftarrow{h_i}\right]\right) \\ & =\operatorname{MLP}\left(\left[\operatorname{LSTM}\left(h_{0: i}\right): \operatorname{LSTM}\left(h_{i: m}\right)\right]\right) \end{aligned} hi=MLP([hi :hi ])=MLP([LSTM(h0:i):LSTM(hi:m)])

尽管 LSTM 头的使用确实为连续提示的训练增加了一些参数,但 LSTM 头比预训练模型小几个数量级。此外,在推理中,只需要输出嵌入 h h h,就可以丢弃 LSTM 头。

参考

https://zhuanlan.zhihu.com/p/583022692

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1149206.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DevChat:VSCode中基于大模型的AI智能编程助手

文章目录 1. 前言2. 安装2.1 注册新用户2.2 在VSCode中安装DevChat插件2.3 设置Access Key 3. 实战使用4. 总结 1. 前言 DevChat是由Merico公司精心打造的AI智能编程助手。它利用了最先进的大语言模型技术&#xff0c;像人类开发者一样高效地理解需求&#xff0c;并提供最佳的代…

Star History 九月开源精选 |开源 GitHub Copilot 替代

虽然大火了近一年&#xff0c;但是截至目前 AI 唯一破圈的场景是帮助写代码&#xff08;谷歌云旗下的 DORA 年度报告也给 AI 泼了盆冷水&#xff09;。不过对于软件开发来说&#xff0c;生成式人工智能绝对已经是新的标配。 本期 Star History 收集了一些开源 GitHub Copilot …

双十一好物提前看!双十一买什么最省心、好用又实惠的好物推荐

双十一即将来临&#xff0c;你是否已经开始为购物车准备填满各种好物&#xff1f;一年一度大促购物节可千万要清点好需要买刚需好物有哪些&#xff0c;毕竟错过了这个促销活动的时间就要等下一年&#xff0c;辛苦一年了&#xff0c;就等着双十一大促的时候买点好东西讨好一下自…

一文读懂多云CDN

本文带你了解火山引擎边缘云推出的一款创新产品&#xff1a;多云CDN。如果你的业务同时由多家CDN厂商提供服务&#xff0c;而你作为多家CDN服务的购买者/使用者/运维人员&#xff0c;那么多云CDN是帮助你“降本增效”的不二利器&#xff01; 在不久前结束的“2023稀土掘金开发…

1400*B. Phoenix and Beauty(贪心构造)

Problem - 1348B - Codeforces 解析&#xff1a; 满足题意&#xff0c;会构成循环序列&#xff0c;其中循环节长度为 k&#xff0c;统计数列中不同元素的个数 cnt &#xff0c;如果cnt > k&#xff0c;显然无解。 否则&#xff0c;由于题意中已经证明&#xff0c;答案序列个…

用CHAT分析:为什么层次网络模型理论,不容易解释熟悉性效应?

今天小编带大家探索新的事物&#xff0c;这个问题对于小编来说也是未知~ 问Chat&#xff1a;试分析为什么层次网络模型理论不容易解释熟悉性效应&#xff1f; 熟悉性效应&#xff08;Familiarity Effect&#xff09;是指人们对于熟悉的事物、人或情境有更积极的评价和感知。这…

无人机自主航迹规划智能算法综述

源自&#xff1a;航空兵器 作者&#xff1a;郭启敏, 张鹏, 王应洋, 王石 “人工智能技术与咨询” 发布 摘 要 关键词 无人机; 航迹规划; 自主性; 智能优化算法; 机器学习算法 引 言 1 无人系统自主性及其内涵 1.1 无人系统自主性定义 1.2 无人系统自主性内涵 2 航迹…

个人美容与美容产业:TikTok上的双重趋势探索

当今数字时代&#xff0c;美容行业已不再局限于专业的化妆师和美容院。社交媒体平台如TikTok已经成为美容爱好者和业内专业人士的创新舞台。本文将深入探讨TikTok如何引领着美容产业和个人美容趋势&#xff0c;以及它是如何将这两者相互融合。 TikTok&#xff1a;美容产业的游戏…

8 模型查看

查看检查模型的方法 1 torchsummary2 netron3 tensorboardX参考 查看检查模型的方法&#xff1a; 1 torchsummary 仅仅只是打印模型&#xff0c;并不能检测模型是否准确。 summary 会计算参数量&#xff0c;等等信息&#xff0c;还会对尺寸不匹配进行报错。 1&#xff0c;安…

HTML+CSS+JS实现计算器

&#x1f648;作者简介&#xff1a;练习时长两年半的Java up主 &#x1f649;个人主页&#xff1a;程序员老茶 &#x1f64a; ps:点赞&#x1f44d;是免费的&#xff0c;却可以让写博客的作者开心好久好久&#x1f60e; &#x1f4da;系列专栏&#xff1a;Java全栈&#xff0c;…

了解C#中Lambda表达式的用法

Lambda表达式是一个匿名函数&#xff0c;是一种高效的类似于函数式编程的表达式&#xff0c;Lambda简化了开发中需要编写的代码量。它可以包含表达式和语句&#xff0c;并且可用于创建委托或表达式目录树类型&#xff0c;支持带有可绑定到委托或表达式树的输入参数的内联表达式…

贝叶斯变分方法:初学者指南--平均场近似

Eric Jang: A Beginners Guide to Variational Methods: Mean-Field Approximation (evjang.com) 一、说明 变分贝叶斯 (VB) 方法是统计机器学习中非常流行的一系列技术。VB 方法允许我们将 统计推断 问题&#xff08;即&#xff0c;给定另一个随机变量的值来推断随机变量的值&…

基本微信小程序的驾校宝典系统-驾照考试系统

项目介绍 系统模块分析是对系统的各个模块做出相应的说明以及解释。此系统的模块分别有用户模块、服务端模块和管理端模块这两大基本模块&#xff0c;其中服务端模块包括了首页、教练信息、教练咨讯、考试预约、我的等&#xff1b;而管理端模块则包括了个人中心、用户管理、教…

什么是 CNN? 卷积神经网络? 怎么用 CNN 进行分类?(2)

参考视频&#xff1a;https://www.youtube.com/watch?vE5Z7FQp7AQQ&listPLuhqtP7jdD8CD6rOWy20INGM44kULvrHu 视频4&#xff1a;CNN 中 stride 的概念 如上图&#xff0c;stride 其实就是 ”步伐“ 的概念。 默认情况下&#xff0c;滑动窗口一次移动一步。而当 stride …

C# OpenCvSharp DNN 部署L2CS-Net人脸朝向估计

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Dnn; using System; using System.Collections.Generic; using System.Drawing; using System.Drawing.Drawing2D; using System.Linq; using System.Text; using System.Windows.Forms;namespace OpenCvSharp_DNN_Demo …

(1)(1.10) JSN-SR04T声纳

文章目录 前言 1 连接到自动驾驶仪 2 参数说明 前言 JSN-SR04T 是一种超声波距离传感器。有两个版本 v2.0 和 v3.0。v2.0 的作用范围为 25 至 450cm&#xff0c;v3.0 的作用范围为 20 至 600cm。也更稳定。由于量程很短&#xff0c;因此使用范围有限。 1 连接到自动驾驶仪 …

TensorFlow学习笔记(未完待续)

文章目录 tf.Graph().as_default()sessiontensorflow.placeholder()tf.summary tf.Graph().as_default() with tf.Graph().as_default():with tf.device(/gpu:str(GPU_INDEX)):TensorFlow中所有计算都会被转化为计算图上的节点。是一个通过计算图的形式来表述计算的编程系统&a…

SAP软件如何查询销售订单的删除记录 <转载>

原文链接&#xff1a;https://mp.weixin.qq.com/s/SFC5enOcH1tizeU8N3JHXQ SAP软件中销售订单如果被删除是不能通过VA02和VA3或VA05查询的‍‍到相关记录的&#xff0c;系统会报错&#xff08;如图&#xff09; 销售订单不像某些凭证&#xff08;比如采购订单&#xff0c;采购…

无线接收芯片CMT2219A/无线发射芯片CMT2119A实现无线遥控开关、插座、门铃无线方案

CMT2219A 是一款超低功耗、高性能、OOK 和 (G)FSK 接收器&#xff0c;适用于各种 300 至 960 MHz 无线应用。 它是 CMOSTEK NextGenRFTM 系列的一部分&#xff0c;该系列包括完整的发射器、接收器和收发器系列。 所有功能均可通过离线 EEPROM 编程或在线寄存器写入进行配置。 …

飞利浦的台灯好用吗?飞利浦、书客、雷士护眼台灯对比测评

虽然台灯是许多家庭都会有的照明设备&#xff0c;但是很多家长并不清楚孩子学习时使用的台灯其实是非常有讲究的。如果孩子长时间使用不适合或者劣质的台灯&#xff0c;会在不知不觉中造成视力的损伤&#xff0c;从而近视。所以一款合适的护眼台灯是真的能够很好的起到护眼效果…