A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

news2025/3/17 2:05:23

3、微调(上一部分内容)

4、LLMs的对齐

大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式:

  • 带有反馈的人工智能强化学习(Reinforcement Learning with Human Feedback, §4.1):使用人类标记的数据作为奖励信号。
  • 带有AI反馈的强化学习(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反馈来解决可扩展性问题。
  • 直接偏好优化(Direct Preference Optimization, §4.3):直接从成对的人类偏好数据中学习,不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述(2022-2024)

此表评估了突出的对齐技术在八个指标上的表现:

  • RM1(显式或隐式奖励模型)
  • RM2(点奖励或偏好概率模型)
  • RM3(响应级或令牌级奖励)
  • RM4(正向或负向奖励模型)
  • F(反馈类型:人类或AI)
  • RL1(参考模型或无参考模型的RL)
  • RL2(在线策略或离线策略RL)
  • O(在线/迭代或离线/非迭代优化)

通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调(SFT)[45]一直是引导大型语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,注释数据的多样性和质量可能是不均衡的,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此,提出了基于强化学习(RL)的微调来解决这些不足。在RL方法中,基于人类反馈的强化学习(RLHF)[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示,RLHF首先以偏好标签或奖励信号的形式收集人类反馈,然后使用这些信息训练一个奖励模型。在这个奖励模型的指导下,策略被迭代地调整以更好地匹配人类偏好。与SFT相比,RLHF包含连续的、由偏好驱动的更新,从而带来更强的对齐结果。值得注意的是,现代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都从这些机制中受益,展示了在指令跟随、事实一致性以及用户相关性方面的改进。下面,我们将讨论RLHF的主要组成部分,包括反馈机制、奖励建模和策略学习策略。

这张图展示了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的工作流程,旨在通过训练过程使大型语言模型(LLMs)与人类偏好对齐。图中分为两个主要阶段:奖励训练(Reward Training)和策略训练(Policy Training)。以下是详细解释:

图8: 基于人类反馈的强化学习(RLHF)工作流程

a) 奖励训练 (Reward Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给人类标注者(Human Labeler)进行评估。
  3. 人类标注者 (Human Labeler):

    • 人类标注者对策略模型生成的续篇进行评估,并给出标签(Labels)。
  4. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据人类标注者的标签计算奖励(Reward)。
    • 奖励模型通过调整权重来优化其预测,以更好地匹配人类偏好。
  5. 损失函数 (Loss Function):

    • 损失函数用于衡量奖励模型的预测与人类标注者提供的标签之间的差异。
  6. 更新权重 (Update Weights):

    • 根据损失函数的值,奖励模型的权重被更新,以减少损失并提高预测准确性。
b) 策略训练 (Policy Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给奖励模型进行评估。
  3. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据之前训练得到的权重计算奖励(Reward)。
  4. 损失函数 (Loss Function):

    • 损失函数用于衡量策略模型生成的续篇与奖励模型预测的奖励之间的差异。
  5. 更新权重 (Update Weights):

    • 根据损失函数的值,策略模型的权重被更新,以减少损失并提高生成续篇的质量。

总结

  • 奖励训练 (Reward Training):

    • 通过人类标注者的反馈训练奖励模型,使其能够准确地预测人类偏好。
    • 奖励模型的权重通过反向传播算法进行更新,以最小化损失函数。
  • 策略训练 (Policy Training):

    • 使用训练好的奖励模型来评估策略模型生成的续篇。
    • 策略模型的权重通过反向传播算法进行更新,以最小化损失函数,从而生成更符合人类偏好的续篇。

通过这两个阶段的迭代训练,最终的策略模型能够生成更高质量、更符合人类偏好的续篇。

4.1.1 RLHF中的反馈机制

人类反馈是RLHF的核心,它向奖励模型提供关于用户偏好的信息,并指导策略更新。本小节采用文献[124]中的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与水平和明确性等方面的差异。每种反馈模式对模型优化的不同方面有所贡献,提供了不同层次的可解释性、可扩展性和噪声容忍度。

表3: 人类反馈类型概览

该表可能根据不同的维度对反馈类型进行了分类,例如:

  • 粒度:反馈可以针对整个输出(粗粒度),也可以针对特定部分或步骤(细粒度)。
  • 参与水平:这指的是人类参与者在提供反馈时的深度,从简单的二元判断到详细的解释说明。
  • 明确性:指反馈提供的信息是否直接明确,还是需要模型通过推理或其他方式去理解。

通过这种分类,研究人员和工程师可以根据具体的应用需求选择最适合的反馈模式,以优化模型的表现并提高其与人类偏好的一致性。这种方法使得基于人类反馈的强化学习成为一种强大的工具,用于提升LLMs在各种任务中的表现。

主要反馈(Primary Feedback)

这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如,Critique [125] 侧重于对代理行为的人类明确评估,通常通过二进制或多标签注释来细化以减少噪声。Comparisons [126] 允许评估者比较多个输出或轨迹;虽然更大的选择集可以提供更丰富的信号,但它们也可能导致因果混淆。Inter-Temporal Feedback [127] 通过在不同时间步骤提供判断来细化轨迹评估,而Proxy Rewards [128] 包含指导模型朝用户定义目标前进的近似奖励函数。Social Behavior [129] 利用隐式线索(如面部表情)使代理目标与用户情感一致。Improvements [130] 强调实时人类干预以进行策略的增量细化。最后,Natural Language Feedback [131] 利用文本信息传达偏好和改进建议。

补充反馈(Supplementary Feedback)

除了主要反馈之外,还有两类进一步加强奖励建模过程。紧急停止(E-stops)[132]允许人类通过停止代理的轨迹而不建议替代方案来进行干预。这种反馈的特点是隐式参与,并且专注于防止不期望的行为。相比之下,重要性标签[133]指出特定观察对于实现目标的重要性,提供了不会直接改变行为的明确反馈。这种反馈因上下文而异,作为补充输入,强化了奖励模型的整体学习过程。

特定表示反馈(Representation-Specific Feedback)

某些类型的反馈主要是增强表示学习而不是直接塑造奖励函数。Feature Traces [134] 提示人类操作员演示给定特征中的单调变化,从而实现特征集的动态扩展。Similarity Queries [135] 比较三元组轨迹,通过轨迹空间中的成对距离引导表示学习。通过利用这些特定表示的反馈形式,RLHF可以在新任务和上下文中实现更强大的泛化能力。

4.1.2 强化学习与人类反馈(RLHF)的奖励模型

  • 距离函数:最近的研究集中在考虑潜在转换(如潜在塑形)的奖励评估距离函数上。例如,EPIC [140] 测量不同转换下的奖励函数等价性,而DARD [141] 改进了规范处理以确保评估基于可行转换。类似EPIC的距离[142]通过允许规范处理、规范化和度量函数的变化来推广EPIC的方法论,STARC [143] 在保持EPIC理论特性的同时提供了额外的灵活性。

  • 视觉和人工检查:其他方法依赖于可解释性和精心策划的数据集来衡量所学奖励函数的有效性。PRFI [144] 使用预处理步骤简化奖励函数同时保留等效性,从而增强其透明度。同时,CONVEXDA 和 REWARDFUSION [145] 提出的数据集旨在测试奖励模型如何一致地响应提示中的语义变化。这些技术共同促进了奖励函数更可靠的评估,强化了大型语言模型与人类偏好的一致性。

4.1.3 RLHF的策略学习

如图9所示,RLHF的策略学习包括通过人类反馈在在线和离线环境中优化策略。

  • 在线学习:在在线RLHF中,系统收集关于新生成模型轨迹的人类实时偏好。像DPS [146]这样的算法使用贝叶斯更新来管理竞争过程,而PPS和PEPS [147]将动态规划和多臂老虎机的想法结合起来以细化策略行为。在LPbRL [148]中,特征嵌入捕捉不断演变的奖励结构,PbOP [149] 集成最小二乘估计用于过渡动态和偏好信号。最近,PARL [150] 通过将反馈获取视为策略优化不可或缺的一部分来提高数据收集效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316346.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

某大厂自动化工程师面试题

一些大厂的自动化工程师面试题汇总: 基础知识类 请解释什么是PLC(可编程逻辑控制器)?什么是PID控制?它在自动化系统中的作用是什么?请描述一下工业4.0的基本概念。编程与控制系统类 你熟悉哪些PLC编程语言?请举例说明。如何在SCADA系统中实现数据采集和监控?请解释一下…

zend server试用分析

文件:ZendServer-2021.4.1-multi-php-Windows_x86.exe 安装后可以试用30天,想分析下限制原理, 根据安装日志,发现了2个关键的文件: ZendServer\gui\module\Configuration\src\Configuration\License\Wrapper.php ZendServer\gu…

C# NX二次开发:在多个体的模型中如何实现拉伸操作布尔减

大家好,今天接着上一篇拉伸文章去讲。 UF_MODL_create_extruded1 (view source) uf_list_p_tobjectsInputList of objects to be extruded.char *taper_angleInputTaper angle (in degrees).char *limit [ 2 ]InputLimit of extrusion. This is declared as: char …

15 | 定义简洁架构 Store 层的数据类型

提示: 所有体系课见专栏:Go 项目开发极速入门实战课;欢迎加入 云原生 AI 实战 星球,12 高质量体系课、20 高质量实战项目助你在 AI 时代建立技术竞争力(聚焦于 Go、云原生、AI Infra);本节课最终…

2.3 滑动窗口专题:最大连续1的个数 III(LeetCode 1004)

1. ​题目链接 1004. 最大连续1的个数 III - 力扣(LeetCode)https://leetcode.cn/problems/max-consecutive-ones-iii/ 2. ​题目描述 给定一个二进制数组 nums 和一个整数 k,允许将最多 k 个 0 翻转为 1,求翻转后最长的连续 1 …

【微服务】Nacos 配置动态刷新(简易版)(附配置)

文章目录 1、实现方法2、配置依赖 yaml3、验证效果 1、实现方法 环境&#xff1a;Nacos、Java、SpringBoot等 主要是在boostrap.yaml中的data-id属性下配置refresh:true来实现动态更新 2、配置依赖 yaml 具体的版本参考官方的说明&#xff1a;官方版本说明 <!--读取boo…

六十天前端强化训练之第二十天React Router 基础详解

欢迎来到编程星辰海的博客讲解 看完可以给一个免费的三连吗&#xff0c;谢谢大佬&#xff01; 目录 一、核心概念 1.1 核心组件 1.2 路由模式对比 二、核心代码示例 2.1 基础路由配置 2.2 动态路由示例 2.3 嵌套路由实现 2.4 完整示例代码 三、关键功能实现效果 四、…

用 DeepSeek 构建 Vue.js 底层架构:高效协作与问题解决实践

文章目录 1. **DeepSeek 与 Vue.js 的完美协作**2. **问题背景**3. **问题分析与解决**3.1 **动态路由未正确生成**3.2 **路由路径配置错误**3.3 **路由嵌套问题**3.4 **通配符路由未配置** 4. **DeepSeek 的核心价值** 在现代前端开发中&#xff0c;Vue.js 以其简洁的语法和灵…

深入探讨RAID 5的性能与容错能力:实验与分析(磁盘阵列)

前言—— 本实验旨在探讨 RAID 5 的性能和容错能力。通过创建 RAID 5 阵列并进行一系列读写性能测试及故障模拟&#xff0c;我们将观察 RAID 5 在数据冗余和故障恢复方面的表现&#xff0c;以验证其在实际应用中的可靠性和效率。 首先说明&#xff1a;最少三块硬盘, 使用 4 块…

蓝桥杯备赛-二分-技能升级

问题描述 小蓝最近正在玩一款 RPG 游戏。他的角色一共有 NN 个可以加攻击力的技能。 其中第 ii 个技能首次升级可以提升 AiAi​ 点攻击力, 以后每次升级增加的点数 都会减少 Bi。「AiBi⌉Bi​。「Bi​Ai​​⌉ (上取整) 次之后, 再升级该技能将不会改变攻击力。 现在小蓝可以…

电子招采软件系统,如何实现10年可追溯审计

一、在当前经济环境下&#xff0c;中小企业面临着巨大的生存压力&#xff0c;传统产业的数字化转型迫在眉睫。AI技术为企业的低成本高效发展提供了新机会&#xff0c;混合办公成为新常态&#xff0c;数据安全法的深入落实则进一步推动企业重视数据安全。区块链存证技术凭借独特…

Ubuntu从源代码编译安装QT

1. 下载源码 wget https://download.qt.io/official_releases/qt/5.15/5.15.2/single/qt-everywhere-src-5.15.2.tar.xz tar xf qt-everywhere-src-5.15.2.tar.xz cd qt-everywhere-src-5.15.22. 安装依赖库 sudo apt update sudo apt install build-essential libgl1-mesa-d…

X86 RouterOS 7.18 设置笔记七:不使用Upnp的映射方法

X86 j4125 4网口小主机折腾笔记五&#xff1a;PVE安装ROS RouterOS X86 RouterOS 7.18 设置笔记一&#xff1a;基础设置 X86 RouterOS 7.18 设置笔记二&#xff1a;网络基础设置(IPV4) X86 RouterOS 7.18 设置笔记三&#xff1a;防火墙设置(IPV4) X86 RouterOS 7.18 设置笔记四…

数字隔离器,如何提升储能系统的安全与效能?

随着全球对光伏、风电等可再生能源需求的持续增长&#xff0c;在全球能源转型的浪潮中&#xff0c;储能技术凭借着可平衡能源供需、提高能源利用效率等优势&#xff0c;已成为实现 “双碳” 目标的核心支撑。据国家能源局公布数据显示&#xff0c;截至2024年底&#xff0c;我国…

基于UniApp + Vue3开发的智能汉字转拼音工具

基于UniApp Vue3开发的智能汉字转拼音工具 项目简介 这是一个基于 UniApp Vue3 开发的智能汉字转拼音工具&#xff0c;前端使用 Vue3 构建界面&#xff0c;后端采用 Classic ASP 提供接口支持&#xff0c;通过 pinyin-pro 库实现精准的中文转拼音功能。本工具支持以下特性&…

PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient (DDPG) 算法

在上一篇文章中&#xff0c;我们介绍了 Proximal Policy Optimization (PPO) 算法&#xff0c;并使用它解决了 CartPole 问题。本文将深入探讨 Deep Deterministic Policy Gradient (DDPG) 算法&#xff0c;这是一种用于连续动作空间的强化学习算法。我们将使用 PyTorch 实现 D…

Angular由一个bug说起之十四:SCSS @import 警告与解决⽅案

SCSS import 警告与解决⽅案 ⚠ 警告信息 在 SCSS 中&#xff0c;使⽤ import 可能会产⽣以下警告&#xff1a; Deprecation Warning: Sass import rules are deprecated and will be removed in Dart Sass 3.0.0. ? 为什么会有这个警告&#xff1f; Sass 官⽅已经废弃 imp…

PyTorch系列教程:基于LSTM构建情感分析模型

情感分析是一种强大的自然语言处理&#xff08;NLP&#xff09;技术&#xff0c;用于确定文本背后的情绪基调。它常用于理解客户对产品或服务的意见和反馈。本文将介绍如何使用PyTorch和长短期记忆网络&#xff08;LSTMs&#xff09;创建一个情感分析管道&#xff0c;LSTMs在处…

SEO新手基础优化三步法

内容概要 在网站优化的初始阶段&#xff0c;新手常因缺乏系统性认知而陷入技术细节的误区。本文以“三步法”为核心框架&#xff0c;系统梳理从关键词定位到内容布局、再到外链构建的完整优化链路。通过拆解搜索引擎工作原理&#xff0c;重点阐明基础操作中容易被忽视的底层逻…

Tcp网络通信的基本流程梳理

先来一张经典的流程图 接下介绍一下大概流程&#xff0c;各个函数的参数大家自己去了解加深一下印象 服务端流程 1.创建套接字&#xff1a;使用 socket 函数创建一个套接字&#xff0c;这个套接字后续会被用于监听客户端的连接请求。 需要注意的是&#xff0c;服务端一般有俩…