LoReFT——大语言模型的表示微调

news2024/11/19 16:48:18

引言

参数高效的微调或 PeFT 方法寻求通过更新少量权重来适应大型语言模型。然而,大多数现有的可解释性工作已经证明,表示编码了丰富的语义信息,这表明它可能是编辑这些表示的更好、更强大的替代方案。预先训练的大型模型通常经过微调以用于新的领域或任务,并且在微调过程中,即使只有少量的域内数据可用,单个基础模型也可以适应各种任务到模型。然而,微调整个模型的过程是消耗资源且昂贵的,特别是对于具有大量大小和参数的语言模型。

参数有效的微调或 PeFT 方法建议通过仅更新少量可用的总权重来解决与微调整个模型相关的高成本,这一过程有助于减少训练时间和内存使用。更重要的是,参数有效的微调或 PeFT 方法已经在多种实际设置中展示了与微调类似的性能。适配器是参数高效微调或 PeFT 方法的常见系列,它可以学习一种编辑,可以将其添加到与冻结基础模型一起运行的一组附加权重中,最近的适配器(例如 LoRA)减少了学习中可训练参数的数量在训练适配器时,通过使用低秩近似而不是全权重矩阵来更新权重。

之前的工作证明编辑表示可能是参数高效微调或 PeFT 方法的更好替代方案,在本文中,我们将讨论在冻结模型上运行的表示微调或 ReFT 方法,并学习特定于任务的方法对隐藏表征的干预。本文旨在深入介绍 ReFt 或表示微调框架,我们探讨了该框架的机制、方法、架构,以及它与最先进框架的比较。那么让我们开始吧。

ReFT:语言模型的表示微调

为了尝试将预训练的语言模型应用于新的领域和任务,当前的框架经常对这些预训练的语言模型进行微调,随着微调过程的实施,单个基本模型可以适应各种任务,甚至当处理少量域内数据时。尽管微调过程确实提高了整体性能,但这是一个昂贵的过程,尤其是在语言模型具有大量参数的情况下。为了解决这个问题并降低相关成本,PeFT 或参数高效 微调框架仅更新总权重的一小部分,这一过程不仅减少了训练时间,还减少了内存使用量,使 PeFT 框架在实际场景中与完全微调方法相比能够实现类似的性能。适配器是 PeFT 的常见家族,它通过学习编辑来工作,该编辑可以添加到一组附加权重以及与具有冻结权重的基本模型一致运行的权重子集。最近的适配器框架如 LoRA 和 QLoRA 已经证明可以在降低精度的模型上训练全精度适配器而不影响性能。与引入新模型组件的其他方法相比,适配器通常更加高效和有效。

当前最先进的参数高效微调框架的一个主要亮点是,它们不是修改表示,而是修改权重。然而,处理可解释性的框架已经证明,表示编码了丰富的语义信息,这表明与权重更新相比,表示编辑可能是更好、更强大的方法。这种表示编辑是更好方法的假设构成了 ReFT 或表示微调框架的基础,该框架训练干预措施而不是调整模型权重,允许模型操纵所有表示的一小部分以尝试引导模型行为在推理过程中解决下游任务。 ReFT 或表示微调方法是基于权重的 PeFT 或参数高效微调框架的直接替代品。 ReFT 方法从最近具有大型模型可解释性的模型中汲取灵感,这些模型会干预表示以找到忠实的因果机制,并在推理过程中引导模型的行为,因此可以被视为表示编辑模型的泛化。在此基础上,LoReFT 或低秩子空间 ReFT 是 ReFT 的强大且有效的实例,并且是 ReFT 的参数化,它干预由低秩投影矩阵跨越的线性空间中的隐藏表示,并直接构建在 DAS 上或分布式对齐搜索框架。

与完全微调相反,PeFT 或参数高效微调框架仅训练模型参数的一小部分,并设法使模型适应下游任务。参数高效微调框架可分为三大类:

  • 基于适配器的方法: 基于适配器的方法训练附加模块,例如具有冻结权重的预训练模型之上的全连接层。串联适配器在多层感知器或 MLP 和 LM 或大型模型注意层之间插入组件,而并行适配器则在现有组件旁边添加模块。由于适配器添加的新组件无法轻松折叠到现有模型权重中,因此它们在推理过程中造成了额外的负担。

  • 洛拉: LoRA 及其最新变体通过使用低秩矩阵在训练期间近似附加权重,并且它们在推理期间不需要额外的开销,因为权重更新可以合并到模型中,这就是它们被认为是当前模型的原因最强大的 PeFT 框架。

  • 基于提示的方法: 基于提示的方法将随机初始化的软标记添加到输入中,并训练它们的嵌入,同时保持语言模型的权重冻结。与其他 PeFT 方法相比,这些方法提供的性能通常并不令人满意,而且它们还带来巨大的推理开销成本。

ReFT 框架不是更新权重,而是学习干预措施来修改总表示的一小部分。此外,最近关于表示工程和激活引导的工作已经证明,向残差流添加固定引导向量可能有助于对预训练的大型模型生成进行一定程度的控制,而无需占用大量资源 微调。其他框架已经证明,使用学习的缩放和平移操作编辑表示可以尝试匹配但不能超越 LoRA 适配器在学习参数较少的各种任务上提供的性能。此外,这些框架在一系列任务中的成功表明,预训练语言模型引入的表示具有丰富的语义,尽管这些模型的性能不是最优的,导致 PeFT 继续作为最先进的方法没有额外的推理负担。

ReFT:方法论和架构

为了保持风格保存过程简单,ReFT 框架假设基于转换器的大型模型作为其目标模型,该模型能够生成标记序列的上下文表示。对于具有 n 个输入标记的给定序列,ReFT 框架首先将这些输入标记嵌入到表示列表中,随后 m 层根据先前隐藏表示列表的函数连续计算隐藏表示列表。每个隐藏表示都是一个向量,语言模型使用最终的隐藏表示来生成预测。 ReFT 框架同时考虑了屏蔽语言模型和自回归语言模型。现在,根据线性表示假设,在神经网络中,概念被编码在表示的线性子空间内。最近的模型发现这种说法在自然语言和其他输入分布训练的神经网络模型中是正确的。

此外,在可解释性研究中,随意抽象框架在实现特定行为时使用交换干预来随意建立神经网络组件的角色。交换干预背后的逻辑是,如果将一种表示固定为反事实输入的表示形式,并且这种干预会一致地影响模型的输出,就像 ReFT 框架对负责生成的组件所做的声明一样该表示,则该组件在行为中发挥因果作用。尽管有几种方法,但分布式交换干预是测试概念是否被编码在表示的线性子空间中的理想方法,正如线性表示假设所声称的那样。此外,DAS 方法之前已被用于寻找实体属性、情感、语言特征和数学推理的语言模型中的线性表示。然而,一些实验表明,DAS 方法具有很高的表达能力,即使 Transformer 语言模型是随机初始化的,它也具有找到因果有效子空间的能力,因此尚未学习任何特定于任务的表示,从而导致争论 DAS 对于可解释性任务是否有效且足够负责。

DAS 提供的表达能力表明,该方法可能是控制语言模型行为及其可控生成和负责任编辑工作的理想工具。因此,为了适应下游任务的语言模型,ReFT框架使用分布式交换干预操作来提出一种新的参数高效方法。此外,ReFT方法是一组干预措施,并且该框架强制要求对于在同一层上运行的任何两个干预措施,干预位置必须是不相交的,并且所有干预函数的参数保持独立。因此,ReFT 是一个通用框架,包含模型前向传递过程中对隐藏表示的干预。

ReFT:实验和结果

为了根据现有的 PEFT 框架评估其性能,ReFT 框架在四个不同的自然语言处理基准上进行了实验,并覆盖了 20 多个数据集,其主要目标是提供 LoReFT 框架在不同场景中的表现的丰富图片。此外,当 LoReFT 框架在现实生活中实施时,开发人员需要决定要学习多少干预措施以及应用每一项干预措施的输入位置和层。为了完成任务,ReFT 框架调整了四个超参数。

  1. 要干预的前缀位置的数量。
  2. 要干预的后缀位置的数量。
  3. 干预哪一组层。
  4. 是否将干预参数绑定到同一层的不同位置。

通过这样做,ReFT 框架简化了超参数搜索空间,并确保仅固定的额外推理成本,该成本不会随着提示的长度而扩展。

上表比较了 LLaMA-7B 和 LLaMA-13B 框架与现有 PEFT 模型在 8 个常识推理数据集上的准确性。可以看出,尽管参数少得多,LoReFT 模型的性能仍明显优于现有的 PEFT 方法,并且使用 LoReFT 模型的不同参数种子报告了三次运行的平均性能。 param(%) 是通过将可训练参数的数量除以基础大模型的总参数数量来计算的。

上表总结了 LLaMA-7B 和 LLaMA-13B 框架与 4 个不同算术推理数据集上的现有 PEFT 模型的准确性比较,该框架报告了使用不同随机种子的 XNUMX 次运行的平均性能。可以看出,尽管参数 (%) 少得多,但 LoReFT 框架的性能远远优于现有的 PEFT 框架。

上表总结了 RoBERTa-base 和 RoBERTa-large 框架与 GLUE 基准测试中现有 PEFT 模型的准确性比较,该框架报告了使用不同随机种子的五次运行的平均性能。可以看出,尽管参数 (%) 少得多,但 LoReFT 框架的性能远远优于现有的 PEFT 框架。

总结

在本文中,我们讨论了 LoReFT,它是现有 PEFT 框架的强大替代方案,可在四个不同领域的基准测试中实现强大的性能,同时提供的效率是之前最先进的 PEFT 模型的 50 倍。预先训练的大型模型通常经过微调以用于新的领域或任务,并且在微调过程中,即使只有少量的域内数据可用,单个基础模型也可以适应各种任务到模型。然而,微调整个模型的过程是消耗资源且昂贵的,特别是对于具有大量大小和参数的语言模型。参数有效的微调或 PeFT 方法建议通过仅更新少量可用的总权重来解决与微调整个模型相关的高成本,这一过程有助于减少训练时间和内存使用。值得注意的是,LoReFT 在常识推理、指令遵循和自然语言理解方面建立了新的最先进的性能,以对抗最强的 PEFT。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1838397.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

避免Tomcat调试信息泄露的最佳实践

大家好!我是小米,一个热爱分享技术的小伙伴。最近我们团队在进行网站安全扫描时,发现了一个敏感信息泄露的漏洞。经过一番努力,终于解决了这个问题。今天我想在这里分享我们的经历,希望能为大家提供一些参考和帮助。 问题背景 在处理请求过程中,如果服务器遇到运行时错…

《模拟联合国2.9—团队协作》

感谢上海财经大学持续的邀请,今天在阶梯教室举办的《模拟联合国2.0—团队协作》沙盘课程圆满结束。尽管场地的限制带来了一定的挑战,但得益于系统思考中“结构影响行为”的原则,我得以在不同场景中巧妙设计课程结构,极大地促进了大…

python版本的选择

python3.10.a1会出现奇怪的问题, AttributeError: module importlib.metadata has no attribute EntryPoints[end of output]但3.10.11不会 因此下载python(win版)link 选左边的

Scott Brinker:API对今天的Martech用户来说「非常重要」 ,但它们对即将到来的人工智能代理浪潮至关重要

API在Martech中非常重要 猜一猜空格应该填什么: _______之于AI代理就像数据之于AI模型 正如你可能从我的标题猜到的那样,答案是API。让我们讨论一下为什么…… 数据是人工智能模型的差异化 在过去的一年半里,人工智能疯狂的超级炒作周期…

Java实现一个解析CURL脚本小工具

该工具可以将CURL脚本中的Header解析为KV Map结构;获取URL路径、请求类型;解析URL参数列表;解析Body请求体:Form表单、Raw Body、KV Body、XML/JSON/TEXT结构体等。 使用示例 获取一个http curl脚本: curl --locatio…

备忘录文字颜色怎么改 备忘录改变字体颜色方法

在日常的工作和生活中,备忘录已经成为我不可或缺的好帮手。但是,面对满满当当的备忘录,有时候不同的任务和信息都混在一起,让人眼花缭乱。我常常想,如果能改变备忘录中的文字颜色,用以区分不同类别的事项&a…

HTML李峋同款跳动的爱心代码(双爱心版)

目录 写在前面 跳动的爱心 完整代码 代码分析 系列推荐 最后想说 写在前面 在浩瀚的网络世界中,总有一些小惊喜能触动我们的心弦。今天,就让我们用HTML语言,探索既神秘又浪漫的李峋同款跳动的爱心代码吧。 首先,让我们一起…

【NOI-题解】1431. 迷宫的第一条出路

文章目录 一、前言二、问题问题:1431. 迷宫的第一条出路 三、感谢 一、前言 二、问题 问题:1431. 迷宫的第一条出路 类型:深度搜索、回溯、路径打印 题目描述: 已知一 NN 的迷宫,允许往上、下、左、右四个方向行走…

网卡故障但bond0不切换原因及处理、脚本监控bond0网卡状态并做相应操作

文章目录 故障说明监控脚本脚本编写脚本测试正常场景异常场景1异常场景2脚本准备和修改网卡名脚本拷贝到所有需要监控主机修改网卡名批量执行脚本故障说明 在一次交换机升级的割接中,主备交换机重启的时候,我们发现了一个问题,有几台宿主机会中断【ping不通】,交换机重启完…

类的继承性(Java)

本篇学习面向对象语言的第二特性——继承性。 1 .为什么需要继承 我们来举个例子:我们知道动物有很多种,是一个比较大的概念。在动物的种类中,我们熟悉的有猫(Cat)、狗(Dog)等动物,它们都有动物的一般特征(比如能够吃…

web安全渗透测试十大常规项(一):web渗透测试之XML和XXE外部实体注入

#详细点: XML被设计为传输和存储数据,XML文档结构包括XML声明、DTD文档类型定义(可选)、文档元素,其焦点是数据的内容,其把数据从HTML分离,是独立于软件和硬件的信息传输工具。等同于JSON传输。XXE漏洞XML External Entity Injection,即xml外部实体注入漏洞,XXE漏洞发…

Prometheus告警Alertmanager部署

Prometheus告警Alertmanager部署 资源监控一般离不开预警,因为我们不可能每时每刻都盯着某个资源监控看,而且在实际的工作中当中我们搭建的解决方案涉及到的服务器是多台甚至数十台,所以更加不现实,因此资源告警是一个必不可少的…

男士内裤品牌哪个好?2024公认好穿的五款男士内裤分享

男士内裤作为大家每天都要长时间穿着的贴身衣物,它的重要性不言而喻。为了确保健康与卫生,专家和医生建议您每三个月更换一次内裤,避免细菌滋生,让身体更加清爽自在。而一款优质的内裤,不仅要有舒适的弹性,…

学生课程信息管理系统

摘 要 目前,随着科学经济的不断发展,高校规模不断扩大,所招收的学生人数越来越 多;所开设的课程也越来越多。随之而来的是高校需要管理更多的事务。对于日益增 长的学生相关专业的课程也在不断增多,高校对其管理具有一…

《无与伦比》Centos7 扩容到已有逻辑卷

命令可以查找硬盘和分区情况 fdisk -l lsblk

【会议征稿,CPS出版】第三届先进机械电子与电气工程国际学术会议(ICAMEE 2024,7月19-21)

第三届先进机械电子与电气工程国际学术会议(ICAMEE 2024)将于2024年7月19-21日在桂林隆重举行。会议主要围绕“机械电子”、“电气工程” 等研究领域展开讨论, 旨在为机械电子、电气工程等领域的专家学者、工程技术人员、技术研发人员提供一个…

项目文章 | ATAC-seq联合转录组探究牦牛肌肉的调控机制

还在苦恼没有研究方向?还在找寻开启调控表观调控大门的钥匙?拿到材料不知如何下手?两篇ATAC联合转录组的牦牛调控机制分析或许能给你一点方向。 为了研究不同牦牛品种之间以及牦牛在成熟过程中,骨骼肌的调控如何影响肉类品质&…

OpenStack快速入门

任务一 熟悉OpenStack图形界面操作 1.1 Horizon项目 •各OpenStack服务的图形界面都是由Horizon提供的。 •Horizon提供基于Web的模块化用户界面。 •Horizon为云管理员提供一个整体的视图。 •Horizon为终端用户提供一个自主服务的门户。 •Horizon由云管理员进行管理…

Datacom HCIE实验考试通过率90%!深圳智汇云校传来5月捷报!

坚持不懈地努力,才能取得成功的果实 这是不变的真理 深圳云校传来5月捷报 在Datacom HCIE实验考试中 共有10名学员应战 其中9名学员凭借出色的表现 一次性通过了考试 展现出了扎实的技术能力 通过率高达90% (华为历年考试平均通过率约60%&#…