LLM基础模型系列:Prompt-Tuning

news2024/12/24 20:10:52

------->更多内容,请移步“鲁班秘笈”!!<------

大型预训练语言模型的规模不断扩大,在许多自然语言处理 (NLP) 基准测试中取得了最先进的结果。自GPT和BERT开发以来,标准做法一直是在下游任务上微调模型,这涉及调整网络中的每个权重(即模型调优)。但是,随着模型变得越来越大,为每个下游任务存储和提供模型的优化副本变得不切实际。

一个有吸引力的替代方案是在所有下游任务中共享一个冻结的预训练语言模型,其中所有权重都是固定的。冻结模型可以通过“上下文”学习来执行不同的任务。通过这种方法,用户通过提示设计为给定任务启动模型,即手工制作带有手头任务描述或示例的文本提示。例如,为了给模型进行情感分析,可以在输入序列之前附加提示“下面的电影评论是正面的还是负面的?”,“这部电影太棒了!”。

在任务之间共享相同的冻结模型大大简化了服务,并允许高效的混合任务推理,但不幸的是,文本提示需要手动设计,即使是精心设计的提示,也会影响精确性,而本文带来的技术将破解手动的难题。

微调与转移学习

Prompt Tuning是通过训练一组提示参数来适应LLMs新任务的过程。这些提示被附加到输入文本之前,以指导生成LLM所需的输出。它在每个样本之前加入了一些虚拟的Token,这些Token用于不同任务的Embedding。

为了更加直观的简述Prompt Tuning。之前先看下面的两张图,第一张图是全微调,也就是说准备好的样本数据,然后继续二次微调模型的参数。

全微调

第二张图是将大模型的参数冻结,然后针对不同的任务训练前缀(粉红色的部分)。下面的训练一个批次是4条样本。

Prompt Tuning

Prompt Tuning的超参数们

那么在样本之前要填充多少的虚拟Token才是最为合适的呢?以T5为例,针对不同任务的标准模型微调实现了强大的性能,但需要为每个特定的任务准备分支副本。

假定使用T5系列的模型,每个调整后的模型副本需要11B参数。相比之下,采用Prompt Tuning技术之后,若填充的虚拟Token为5,那么每个任务只需要20480个参数,减少了5个数量级以上。

回头看看采用Prompt Tuning技术的T5,随着大模型规模的增加,表现不断地提升,而且这个过程中基座模型是冻结的,只有一份。仔细观察下图会发现,其实这种技术在大参数模型还是比较合适的,而在小参数模型中的表现一般,注意黄色(模型微调)和绿色(Prompt Tuning)在不同参数规模的模型的间隙。

上面这幅图是在各种不同的情况下研究一些超参数对这种技术的性能影响。值得注意的是,这种技术的质量随着模型大小的增加而稳定提高。在所有研究中,特大号参数的模型对超参数选择最为稳健。

  • a图说明增加到 20多个虚拟Token通常会带来很大的提升,但是对于特大号的模型而言,增加一个虚拟的Token就足够了。是不是很神奇!

  • b表明随机均匀初始化参数数值落后于使用采样词汇或类标签嵌入的更“高级”初始化,但这种差异在特大号模型下消失。

  • c表明LM Adaptation在跨领域的表现优越,即使在下游任务目标中添加了标记

  • d展示较长的适应步伐(Step)通常会带来更大的收益

Prompt Tuning的优点

采用prompt tuning技术的好处在于它可以自动从一个新的模型中学习最佳的Prompt,就是如何引导大模型能够根据新的任务,给出针对性的回答。之前网上有很多教程,教读者如何学会写高效的Prompt,采用这种技术将自动化的训练对应任务的虚拟Token,然后自动的找出最佳的引导方法。

Prompt 调优保留了模型调优的强大任务性能,同时保持预训练模型的冻结状态,从而实现高效的多任务服务。

大白话说,就是你和蚂蚁沟通,你可以采用很多方式,但是你也可以“烘烘哈衣,@@#¥……”,结果蚂蚁听懂了。“烘烘哈衣,@@#¥……” 就是那些训练出来的虚拟Token,人很难听懂。这么说,有点和禅宗的大喝一声,用力一棒异曲同工。最重要的是,采用这种技术,只需要一个基座模型,对于模型迁移具有很强的弹性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1923521.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

802.11ax RU - 传输的最小单元

子载波 无线信号是加载在某个固定频率上进行传输的&#xff0c;这个频率被称为载波。802.11标准中&#xff0c;对传输频率有更新的划分&#xff0c;而这些划分的频率被称为子载波。Wi-Fi 6中&#xff0c;以20Mhz信道为例&#xff0c;20Mhz信道被划分成256个子载波&#xff0c;…

Go-知识测试-子测试

Go-知识测试-子测试 1. 介绍2. 例子3. 子测试命名规则4. 选择性执行5. 子测试并发6. testing.T.Run7. testing.T.Parallel8. 子测试适用于单元测试9. 子测试适用于性能测试10. 总结10.1 启动子测试 Run10.2 启动并发测试 Parallel 建议先看&#xff1a;https://blog.csdn.net/a…

LinK3D: Linear Keypoints Representation for 3D LiDAR Point Cloud【翻译与解读】

LinK3D: Linear Keypoints Representation for 3D LiDAR Point Cloud 摘要 特征提取和匹配是许多机器人视觉任务的基本组成部分&#xff0c;如 2D 或 3D 目标检测、识别和配准。2D 特征提取和匹配已取得巨大成功。然而&#xff0c;在 3D 领域&#xff0c;当前方法由于描述性差…

手机大模型能否撑起“全村的希望”?

2023年&#xff0c;ChatGPT、SD的火爆带火了AI赛道。但现有的AI痛点则是&#xff1a;操作复杂&#xff0c;需要网络&#xff0c;大家对本地AI的呼声越来越高。也因此产生了AI PC和手机上装上大模型。手机上装大模型&#xff0c;确实会对现在低迷的手机市场带来一些影响&#xf…

链路追踪系列-02.演示zipkin

当本机启动docker es zipkinServer之后&#xff1a; 启动3个项目&#xff1a;先eureka-server&#xff0c;再 PaymentMain8001,… 浏览器打开&#xff1a;http://localhost:9001/consumer/payment/zipkin consumer代码 &#xff1a; provider: 此时查询es:

安全防御----防火墙综合实验2

安全防御----防火墙综合实验2 一、题目 二、实验要求&#xff1a; 1&#xff0c;DMZ区内的服务器&#xff0c;办公区仅能在办公时间内&#xff08;9&#xff1a;00 - 18&#xff1a;00&#xff09;可以访问&#xff0c;生产区的设备全天可以访问. 2&#xff0c;生产区不允许访…

微积分-导数7(关联变化率)

例一 空气被充入一个球形气球中&#xff0c;使其体积以每秒100立方厘米的速度增加。当气球的直径为50厘米时&#xff0c;气球半径的增加速度是多少&#xff1f; 解答&#xff1a;球体的体积公式为 V 4 3 π r 3 V \frac{4}{3}\pi r^3 V34​πr3 为了使用给定的信息&#x…

Java中标识符和关键字

1.标识符 public class HelloWorld{public static void main(String[] args){System.out.println("Hello,world");} }上述代码中在public class 后面的HelloWorld称为类名&#xff0c;main称为方法名&#xff0c;也可以将其称为标识符&#xff0c;即&#xff1a;在程…

数组和对象的解构

1.解构的理解 解构是ES6提供的一种新提取数据的模式&#xff0c;它允许我们从数组或对象中有针对性拿到想要的数据。这种方式让数据访问和赋值变得更加简洁和直观。 2.数组的解构 数组解构允许直接从数组中提取值&#xff0c;并将这些值赋给声明的变量。这避免了使用索引来访…

802.11be MRU - 多资源单元

Wi-Fi 6中引入了OFDMA技术&#xff0c;频率资源以RU(Resource Unit)为粒度进行分配&#xff0c;Wi-Fi 6中支持26/52/106/242/484/996/2x996 Tone共计7种RU。Wi-Fi 7由于引入了320MHz 信道&#xff0c;则会多一种RU类型。不同信道带宽下&#xff0c;不同类型RU的数量如下图所示。…

通用型I2C接口的应用之综合应用(N32G45XVL-STB)

通用型I2C接口的应用之综合应用&#xff08;N32G45XVL-STB&#xff09; 目录 概述 1 软硬件接口 1.1 硬件接口 1.2 开发软硬件信息 1.3 SHT-20模块电路 1.4 0.9寸OLED模块介绍 2 驱动接口实现 2.1 SHT20驱动接口 2.2 OLED驱动接口 3 应用接口实现 3.1 软件框架 3.…

捷配笔记-PCB阻焊颜色对产品有什么影响?

阻焊层也称为阻焊层或阻焊剂。它是一种薄的聚合物层&#xff0c;应用于&#xff08;PCB&#xff09;。阻焊层的目的是保护PCB表面&#xff0c;并有助于防止焊桥。焊桥是两个导体之间的无意连接&#xff0c;通常是由于存在一小块焊料。需要注意的是&#xff0c;阻焊层被视为其单…

SSM整合及使用

SSM整合 介绍 SSM&#xff08;SpringSpringMVCMyBatis&#xff09;框架集由Spring、MyBatis两个开源框架整合而成&#xff08;SpringMVC是Spring中的部分内容&#xff09;&#xff0c;常作为数据源较简单的web项目的框架。 步骤 SSM整合主要是将各个框架的核心组件都交给sprin…

【机器学习】和【人工智能】在航空航天中的应用

作者主页: 知孤云出岫 目录 引言机器学习和人工智能在航空航天中的应用1. 预测性维护2. 飞行路径优化3. 自动驾驶飞行器 未来展望1. 增强人机协作2. 更智能的空中交通管理3. 高效的航空制造 结论参考文献 引言 随着科技的迅猛发展&#xff0c;机器学习和人工智能&#xff08;…

Goland 通道

channel通道 目录 channel通道 channel介绍 channel基本使用 有缓存通道和无缓存通道的区别 通道的初始化&#xff0c;写入数据到通道&#xff0c;从通道读取数据及基本的注意事项 channel的关闭和遍历 channel的关闭 为什么关闭 如何优雅地关闭通道 channel的遍历 chan…

亚马逊插件安装教程,新手必学的两个选品步骤

亚马逊插件安装教程&#xff0c;跟卖新手必学&#xff0c;选品两个步骤。 大家好&#xff0c;今天讲下erp的插件下载和跟卖采集。erp更新到13.8版本了。 点击右上角的插件下载&#xff0c;已经下载到桌面了&#xff0c;已被压缩。 点击设置&#xff0c;选择扩展&#xff0c;…

python-亲和数(赛氪OJ)

[题目描述] 古希腊数学家毕达哥拉斯在自然数研究中发现&#xff0c;220 的所有真约数(即不是自身的约数)之和为&#xff1a; 1245101120224455110&#xff1d;284 。 而 284 的所有真约为 1 、 2 、 4 、 71 、 142 &#xff0c;加起来恰好为 220 。人们对这样的数感到很惊奇&a…

【研路导航】重庆大学计算机保研面试真题分享交流

写在前面 在保研的道路上&#xff0c;面试是非常重要的一环。这里是成功保研到重庆大学的学长的计算机保研面试的部分真题及详细解答 ! Q 快速排序和合并排序&#xff1a; 快速排序(quicksort) 和合并排序(merge sort) 两种方法都将输入的待排序序列划分为2个子序列&#xf…

centos单机配置多个内网IP地址

centos单机配置多个内网IP地址 引配置1. 查看当前网络IP配置2. 打开网络配置目录3. 设置静态IP4. 编辑ifcfg-eno1:15. 重启网络配置 引 同一个局域网&#xff0c;但是对接的多个子系统使用了不同的网段&#xff0c;如一个系统主机IP地址是192.168.10.1&#xff0c;另一个系统主…

2024 辽宁省大学数学建模竞赛A题 风切变影响及处置 完整思路 代码结果分享(仅供学习)

风切变对航空安全会构成危害。航空人员需了解相关知识&#xff0c;掌握相应技术&#xff0c;从而在遭遇上述天气时最大程度的规避风险&#xff0c;保证飞行安全。 风切变是指在大气中相对比较短的距离内或时间段内产生的风速大小、方向大幅度变化的现象。通常将发生在距离地面…