选择大型语言模型自定义技术

news2024/11/24 9:49:11
推荐:使用 NSDT场景编辑器 助你快速搭建可二次编辑器的3D应用场景

 

选择大型语言模型自定义技术

 

企业需要自定义模型来根据其特定用例和领域知识定制语言处理功能。自定义LLM使企业能够在特定的行业或组织环境中更高效,更准确地生成和理解文本。

自定义模型使企业能够创建符合其品牌声音的个性化解决方案,优化工作流程,提供更精确的见解,并提供增强的用户体验,最终推动市场竞争优势。

这篇文章涵盖了各种模型定制技术以及何时使用它们。NVIDIA NeMo 支持許多方法。

NVIDIA NeMo 是一个端到端的云原生框架,可在任何地方构建、定制和部署生成式 AI 模型。它包括训练和推理框架、护栏工具包、数据管理工具和预训练模型,提供了一种简单、经济高效且快速的采用生成 AI 的方法。

选择 LLM 自定义技术

您可以根据数据集大小要求与自定义期间的训练工作量级别(与下游任务准确性要求相比)之间的权衡来对技术进行分类。

该图显示了四个自定义工具,其中包含技术、用例和示例表。

图1.LLM 定制技术可用于 NVIDIA NeMo

图 1 显示了以行的自定义技术:

  • 提示工程:操作发送到LLM的提示,但不以任何方式更改LLM的参数。它在数据和计算要求方面很轻。
  • 快速学习:使用提示和完成对,通过虚拟令牌向LLM传授特定于任务的知识。此过程需要更多的数据和计算,但比提示工程具有更好的准确性。
  • 参数高效微调(PEFT):将少量参数或层引入现有LLM架构,并使用特定于用例的数据进行训练,提供比提示工程和快速学习更高的准确性,同时需要更多的训练数据和计算。
  • 微调:涉及更新预训练的LLM权重,这与前面概述的三种类型的自定义技术不同,这些技术使这些权重保持冻结。这意味着与其他技术相比,微调还需要最多的训练数据和计算。但是,它为特定用例提供了最准确的准确性,从而证明了成本和复杂性的合理性。

有关更多信息,请参见大型语言模型简介:提示工程和 P 调优。

快速工程

提示工程涉及在推理时通过展示和讲述示例进行定制。LLM提供了示例提示和完成,这些详细说明附加到新提示之前以生成所需的完成。模型的参数不会更改。

少数镜头提示:此方法需要在提示前面附加一些示例提示和完成对,以便LLM学习如何为新的不可见提示生成响应。虽然与其他自定义技术相比,少数镜头提示需要相对较少的数据量,并且不需要微调,但它确实增加了推理延迟。

思维链推理:就像人类将大问题分解成小问题并应用思维链来有效地解决问题一样,思维链推理是一种快速的工程技术,可以帮助LLM提高他们在多步骤任务上的表现。它涉及将问题分解为更简单的步骤,每个步骤都需要缓慢而深思熟虑的推理。这种方法适用于逻辑、算术和演绎推理任务。

系统提示:此方法涉及在用户提示之外添加系统级提示,以向LLM提供特定和详细的说明,使其按预期运行。可以将系统提示视为LLM的输入以生成其响应。系统提示的质量和特异性会对LLM响应的相关性和准确性产生重大影响。

及时学习

快速学习是一种高效的自定义方法,可以在许多下游任务上使用预训练的LLM,而无需调整预训练模型的完整参数集。它包括两种具有细微差异的变体,称为 p 调谐和提示调谐;这两种方法统称为快速学习。

快速学习可以向LLM添加新任务,而不会覆盖或中断模型已经预先训练的先前任务。由于原始模型参数被冻结且永远不会更改,因此快速学习还可以避免微调模型时经常遇到的灾难性遗忘问题。当LLM在微调过程中以LLM预培训期间获得的基础知识为代价学习新行为时,就会发生灾难性的遗忘

图中显示,提示学习在训练的虚拟令牌之前附加提示令牌,从而为虚拟令牌训练的特定用例提供更准确的LLM完成。

图2.应用于法学硕士的快速学习

提示调优和 p 调谐不是以手动或自动方式选择离散文本提示,而是使用可通过梯度下降进行优化的虚拟提示嵌入。这些虚拟令牌嵌入与构成模型词汇表的离散、硬令牌或真实令牌相反。虚拟代币是纯粹的一维向量,其维数等于每个真实代币嵌入的维数。在训练和推理中,根据模型配置中提供的模板,在离散令牌嵌入中插入连续令牌嵌入。

提示调整:对于预训练的 LLM,软提示嵌入初始化为大小total_virtual_tokens Xhidden_size的 2D 矩阵。提示优化模型以执行的每个任务都有其自己的关联 2D 嵌入矩阵。任务在训练或推理期间不共享任何参数。NeMo 框架提示调优实现基于参数高效提示调优的规模力量。

P-调谐: 称为 LSTM 或 MLP 模型用于预测虚拟令牌嵌入。 参数在 p 调优开始时随机初始化。所有基本LLM参数都被冻结,并且在每个训练步骤中仅更新权重。p 调优完成后,提示调优的虚拟令牌将自动移动到存储所有提示调优和 p 调优软提示的位置。 然后从模型中移除。这使您能够保留以前 p 调优的软提示,同时仍保持将来添加新的 p 调优或提示调优软提示的能力。prompt_encoderprompt_encoderprompt_encoderprompt_encoderprompt_tableprompt_encoder

prompt_table使用任务名称作为键来查找指定任务的正确虚拟令牌。NeMo框架p调谐实现基于GPT Understands,Too。

参数高效微调

参数高效微调(PEFT)技术使用巧妙的优化来有选择地向原始LLM架构添加和更新一些参数或层。使用 PEFT,针对特定用例训练模型参数。预训练的LLM权重保持冻结,并且在PEFT期间使用域和任务特定的数据集更新的参数明显较少。这使LLM能够在训练的任务上达到高精度。

有几种流行的参数高效替代方法来微调预训练语言模型。与提示学习不同,这些方法不会在输入中插入虚拟提示。相反,他们将可训练层引入变压器架构中,用于特定任务的学习。这有助于在下游任务上获得强大的性能,同时与微调相比,可训练参数的数量减少了几个数量级(参数减少了近 10,000 倍)。

  • 适配器学习
  • 通过抑制和放大内部激活(IA3)注入适配器
  • 低秩适应 (LoRA)

适配器学习:在核心变压器架构各层之间引入小的前馈层。只有这些层(适配器)在微调时针对特定的下游任务进行训练。适配器层通常使用下投影将输入

h

h

投影到低维空间,然后使用非线性激活函数,并使用W_up

 W_up

 

W_up

.残差连接将此输出添加到输入中,从而形成最终形式:h \leftarrow h + f(hW_{down})W_{up}

 

 

h \leftarrow h + f(hW_{down})W_{up}

适配器模块通常被初始化为适配器的初始输出始终为零,以防止由于添加此类模块而导致原始模型的性能下降。NeMo 框架适配器实现基于 NLP 的参数高效迁移学习。

IA3:与适配器相比,添加的参数更少,适配器只是使用学习向量缩放转换器层中的隐藏表示。可以为特定的下游任务训练这些扩展参数。学习的向量 、 和 分别重新缩放注意力机制中的键和值以及位置前馈网络中的内部激活。这种技术还使混合任务批处理成为可能,因为批处理中的每个激活序列都可以单独且廉价地乘以其关联的学习任务向量。NeMo框架IA3 实现基于少镜头参数高效微调比上下文学习更好、更便宜。lklvlff

图表显示 LoRA 微调通过冻结的预训练权重和减少维度层来实现参数效率.

图3.用于参数高效微调的 LoRA

洛拉:将可训练的低秩矩阵注入变压器层以近似权重更新。LoRA 没有更新完整的预训练权重矩阵 W,而是更新其低秩分解,与微调相比,可训练参数的数量减少了 10,000 倍,GPU 内存需求减少了 3 倍。此更新将应用于多头注意力子图层中的查询和值投影权重矩阵。事实证明,将更新应用于低秩分解而不是整个矩阵在模型质量上与微调相当或更好,从而实现更高的训练吞吐量,并且没有额外的推理延迟。

NeMo框架LoRA实现基于大型语言模型的低秩适配。有关如何将 LoRa 模型应用于抽取式 QA 任务的详细信息,请参阅 LoRA 教程笔记本。

微调

当数据和计算资源没有硬约束时,监督微调 (SFT) 和人工反馈强化学习 (RLHF) 等定制技术是 PEFT 和提示工程的绝佳替代方法。与其他自定义方法相比,微调有助于在一系列用例上实现最佳准确性。

有监督的微调: SFT是在输入和输出的标记数据上微调模型所有参数的过程,它教授模型域特定的术语以及如何遵循用户指定的指令。它通常在模型预训练后完成。与预训练阶段相比,使用预训练模型可以实现许多好处,包括使用最先进的模型而无需从头开始训练、降低计算成本并减少数据收集需求。SFT的一种形式被称为指令调优,因为它涉及在通过指令描述的数据集集合上微调语言模型。

该图显示了监督微调使用指令更新预训练的LLM权重,这些指令遵循按任务以不同比例混合的数据集,以帮助提高LLM在看不见的任务上的性能。

图4.通过跟踪数据的标记指令进行监督微调

带有指令的SFT利用了NLP任务可以通过自然语言指令描述的直觉,例如“将以下文章总结为三句话”或“用西班牙语写一封关于即将到来的学校节日的电子邮件”。该方法成功地结合了微调和提示范式的优势,以提高推理时的LLM零镜头性能。

指令调优过程涉及对预训练模型执行微调,这些数据集由以不同比例混合的自然语言指令表达的多个 NLP 数据集的混合物。在推理时,对看不见的任务进行评估,并且已知此过程可以显着提高看不见任务的零镜头性能。SFT也是使用强化学习提高LLM能力过程中的重要中间步骤,我们将在下面描述。

带有人类反馈的强化学习: 带有人类反馈的强化学习(RLHF)是一种定制技术,使LLM能够更好地与人类价值观和偏好保持一致。它使用强化学习使模型能够根据收到的反馈调整其行为。它涉及一个三阶段微调过程,该过程使用人类偏好作为损失函数。使用前面部分中描述的说明进行微调的SFT模型被认为是RLHF技术的第一阶段。

图表显示,具有人类反馈的强化学习是一个三阶段过程,它利用根据人类偏好训练的奖励模型,使用强化学习向受监督的微调LLM提供反馈。

图5.使用强化学习使LLM行为与人类偏好保持一致

SFT 模型在 RLHF 的第 2 阶段被训练为奖励模型 (RM)。由具有多个响应的提示组成的数据集用于训练 RM 以预测人类偏好。

训练 RM 后,RLHF 的第 3 阶段侧重于使用近端策略优化 (PPO) 算法的强化学习针对 RM 微调初始策略模型。RLHF的这三个阶段迭代执行,使LLM能够生成更符合人类偏好的输出,并且可以更有效地遵循指令。

虽然 RLHF 会产生强大的 LLM,但缺点是这种方法可能会被滥用和利用来生成不良或有害的内容。NeMo方法使用PPO价值网络作为批评者模型,以指导LLM远离生成有害内容。研究界正在积极探索其他方法,以引导LLMs采取适当的行为,并减少LLM构成事实的有毒物质产生或幻觉。

原文链接:选择大型语言模型自定义技术 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/892001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Studio实现解析HTML获取图片URL将图片保存到本地

目录 效果activity_main.xmlMainActivityImageItemImageAdapter 效果 项目本来是要做成图片保存到手机然后读取数据后瀑布流展示&#xff0c;但是有问题&#xff0c;目前只能做到保存到手机 activity_main.xml <?xml version"1.0" encoding"utf-8"?…

《python编程基础及应用》,python编程基础及应用pdf

大家好&#xff0c;小编为大家解答python编程基础课后答案上海交通大学出版社周志化的问题。很多人还不知道python编程基础及应用课后答案高等教育出版社&#xff0c;现在让我们一起来看看吧&#xff01; 单项选择题 第一章python语法基础 1. Python 3.x 版本的保留字总数是C A…

UDP TCP 报文内容

1.UDP 2.TCP 源/目的端口号:表示数据是从哪个进程来,到哪个进程去; 32位序号/32位确认号:后面详细讲;4位TCP报头长度:表示该TCP头部有多少个32位bit(有多少个4字节);所以TCP头部最大长度是15*460 6位标志位: o URG:紧急指针是否有效 ——urgent 紧急的 o ACK:确认号是否有…

K8S核心组件etcd详解(上)

1 介绍 https://etcd.io/docs/v3.5/ etcd是一个高可用的分布式键值存储系统&#xff0c;是CoreOS&#xff08;现在隶属于Red Hat&#xff09;公司开发的一个开源项目。它提供了一个简单的接口来存储和检索键值对数据&#xff0c;并使用Raft协议实现了分布式一致性。etcd广泛应用…

vector使用以及模拟实现

vector使用以及模拟实现 vector介绍vector常用接口1.构造2.迭代器3.容量4.增删查改5.练习 vector模拟实现1.迭代器失效2.反向迭代器3.完整代码 vector介绍 和我们原来讲的string不同&#xff0c;vector并不是类&#xff0c;是一个类模板&#xff0c;加<类型>实例化以后才…

【云原生】Docker基本原理及镜像管理

目录 一、Docker概述 1.1 IT架构的演进&#xff1a; 1.2 Docker初始 1.3 容器的特点 1.4 Docker容器与虚拟机的区别 1.5 容器在内核中支持2种重要技术 1.6 Docker核心概念 1&#xff09;镜像 2&#xff09;容器 3&#xff09;仓库 二、安装Docker 2.1 Yum安装Docker…

【NEW】视频云存储EasyCVR平台H.265转码配置增加分辨率设置

关于视频分析EasyCVR视频汇聚平台的转码功能&#xff0c;我们在此前的文章中也介绍过不少&#xff0c;感兴趣的用户可以翻阅往期的文章进行了解。 安防视频集中存储EasyCVR视频监控综合管理平台可以根据不同的场景需求&#xff0c;让平台在内网、专网、VPN、广域网、互联网等各…

sCrypt编程马拉松于8月13日在复旦大学成功举办

继6月在英国Exeter大学成功举办了为期一周的区块链编程马拉松后&#xff0c;美国sCrypt公司创始人兼CEO刘晓晖博士带领核心团队成员王一强、郑宏锋、周全&#xff0c;于8月13日在复旦大学再次成功举办了一场全新的sCrypt编程马拉松。 本次活动由上海可一澈科技有限公司与复旦大…

【数据挖掘】使用 Python 分析公共数据【01/10】

一、说明 本文讨论了如何使用 Python 使用 Pandas 库分析官方 COVID-19 病例数据。您将看到如何从实际数据集中收集见解&#xff0c;发现乍一看可能不那么明显的信息。特别是&#xff0c;本文中提供的示例说明了如何获取有关疾病在不同国家/地区传播速度的信息。 二、准备您的…

QT中的按钮控件Buttons介绍

目录 Buttons 按钮控件 1、常用属性介绍 2、按钮介绍 2.1QPushButton 普通按钮 2.2QtoolButton 工具按钮 2.3Radio Button单选按钮 2.4CheckButton复选按钮 2.5Commam Link Button命令链接按钮 2.6Dialog Button Box命令链接按钮 Buttons 按钮控件 在Qt里&#xff0c;…

公告:微信小程序备案期限官方要求

备案期限要求 1、若微信小程序未上架&#xff0c;自2023年9月1日起&#xff0c;微信小程序须完成备案后才可上架&#xff0c;备案时间1-20日不等&#xff1b; 2、若微信小程序已上架&#xff0c;请于2024年3月31日前完成备案&#xff0c;逾期未完成备案&#xff0c;平台将按照…

docker启用cgroup v2

要求 本人的操作系统是kali&#xff0c;基于debian docker info如果你这里是2那么说明启用了&#xff0c;如果是1&#xff0c;那么就未启用 对于Docker来说&#xff0c;Cgroups v2的使用需要满足以下条件&#xff1a; Linux内核版本在4.15以上。 uname -r 系统已经启用Cgro…

vue-组件库-storybook:理解storybook、实践

一、理解 storybook Storybook是一个开源的工具&#xff0c;可以帮助前端开发者更好地构建、测试和展示组件。 具体来说&#xff0c;Storybook可以做以下几件事情&#xff1a; 1、为每个组件提供一个独立的页面&#xff0c;可以快速展示或调试组件。 2、管理多个组件&#x…

微服务-Ribbon(负载均衡)

负载均衡的面对多个相同的服务的时候&#xff0c;我们选择一定的策略去选择一个服务进行 负载均衡流程 Ribbon结构组成 负载均衡策略 RoundRobinRule&#xff1a;简单的轮询服务列表来选择服务器AvailabilityFilteringRule 对两种情况服务器进行忽略&#xff1a; 1.在默认情…

linux部署clickhouse(单机)

一、下载安装 1.1、下载地址 阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区阿里巴巴开源镜像站&#xff0c;免费提供Linux镜像下载服务&#xff0c;拥有Ubuntu、CentOS、Deepin、MongoDB、Apache、Maven、Composer等多种开源软件镜像源&#xff0c;此外还提供域名解析DNS、…

使用 Visual Studio Code Docker 工具调试 .NET 容器

作者&#xff1a;Chet Husk 排版&#xff1a;Alan Wang Visual Studio Code Docker 工具已发布1.26.0版本&#xff0c;这个版本为使用 .NET SDK 构建和调试容器映像提供了内置支持。 VS Code 中的 Docker 调试 Visual Studio Code Docker 工具使开发人员可以轻松入门容器。它…

微服务—Eureka注册中心

eureka相当于是一个公司的管理人事HR,各部门之间如果有合作时&#xff0c;由HR进行人员的分配以及调度&#xff0c;具体选哪个人&#xff0c;全凭HR的心情&#xff0c;如果你这个部门存在没有意义&#xff0c;直接把你这个部门撤销&#xff0c;全体人员裁掉&#xff0c;所以不想…

跟着美团学设计模式(感处)

读了着篇文章之后发现真的是&#xff0c;你的思想&#xff0c;你的思维是真的比比你拥有什么技术要强的。 注 开闭原则 开闭原则&#xff08;Open-Closed Principle&#xff09;是面向对象设计中的基本原则之一&#xff0c;它的定义是&#xff1a;一个软件实体应该对扩展开放…

Redis——list类型详解

概要 Redis中的list类型相当于双端队列&#xff0c;支持头插&#xff0c;头删&#xff0c;尾插&#xff0c;尾删&#xff0c;并且列表中的内容是可以重复的。 如果搭配使用rpush和lpop&#xff0c;那么就相当于队列 如果搭配使用rpush和rpop&#xff0c;那么就相当于栈 lpu…

皮爷咖啡基于亚马逊云科技的数据架构,加速数据治理进程

皮爷咖啡&#xff08;Peet’s Coffee&#xff09;是美国精品咖啡品牌&#xff0c;于2017年进入中国&#xff0c;为中国消费者带来传统经典咖啡饮品&#xff0c;并特别呈现更加丰富的品质咖啡饮品体验。通过深入应用亚马逊云科技云原生数据库产品Amazon Redshift以及Amazon DMS等…