[EAI-033] SFT 记忆,RL 泛化,LLM和VLM的消融研究

news2025/2/10 22:18:45

Paper Card

论文标题:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
论文作者:Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
论文链接:https://arxiv.org/abs/2501.17161v1
项目主页:https://tianzhechu.com/SFTvsRL/
论文出处:/
论文被引:/

Abstract

SFT 和 RL 是广泛用于基础模型后训练的技术。然而,它们在增强模型泛化能力的作用仍不清楚。本文研究了 SFT 和 RL 对泛化和记忆的比较效果,重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明,RL,尤其是在基于结果的奖励下进行训练时,在基于规则的文本和视觉环境中都能泛化。相反,SFT 倾向于记忆训练数据,并且在这两种情况下都难以泛化到分布之外的数据。RL 提高了模型的底层视觉识别能力,有助于其在视觉领域增强泛化能力。 尽管 RL 的泛化能力更强,但 SFT 仍有助于有效的 RL 训练:SFT 稳定了模型的输出格式,使后续的 RL 能够实现其性能提升。这些发现证明了 RL 在复杂、多模态任务中获取可泛化知识的优势。

在这里插入图片描述

Summary

研究背景

分析基础模型泛化能力的一个关键挑战是将数据记忆与可泛化原则的习得区分开来。因此,研究了一个关键问题:SFT 或 RL 主要是否记忆训练数据,或者它们是否学习了可以适应新任务变体的可泛化原则。

方法介绍

为了解决这个问题,关注两个泛化:基于文本规则的泛化和视觉泛化。对于文本规则,研究模型应用学习到的规则(给定文本指令)到这些规则的变体中的能力。对于 VLMs,视觉泛化衡量在给定任务内,对视觉输入变化(例如颜色和空间布局)的性能一致性。第一个任务是 GeneralPoints,这是一个纸牌游戏任务,类似于 RL4VLM 中的Points24 任务,旨在评估模型的算术推理能力。在 GeneralPoints 中,模型接收 4 张牌(以文本描述或图像),并需要使每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,采用现实世界的导航任务 V-IRL,重点关注模型的空间推理能力。

采用与 rl4vlm(https://rl4vlm.github.io/) 类似的多步骤 RL 框架,在对骨干模型 Llama-3 进行 SFT 后,使用顺序修正公式[1]实例化 RL 。在GeneralPoints和V-IRL中,RL 学习到可泛化的规则(用文本表达),其中分布内性能提升也转移到未见过的规则。相反,SFT 似乎记住了训练规则,无法泛化(图 1)。 进一步研究了视觉领域的泛化,RL 也可以泛化到视觉OOD任务,而 SFT 仍然难以应对。为了了解 RL 如何影响模型的视觉能力,对GeneralPoints进行了额外的分析,结果表明,使用基于结果的奖励函数训练 RL 提高了视觉识别能力。 虽然 RL 有比 SFT 更好的泛化能力,但 SFT 仍然有助于稳定模型的输出格式,使 RL 能够获得其性能提升。通过增加最大步数来扩展推理时间的计算量,可以带来更好的泛化能力。

[1] Scaling LLM testtime compute optimally can be more effective than scaling model parameters.

相关工作

Post-training

后训练对于增强模型的性能非常重要,通常使用SFT实现,通过在特定任务的指令格式数据上微调预训练模型,使其适应下游任务。本文旨在研究SFT和RL在LLM和VLM上的泛化能力和记忆能力。

Memorization and generalization in LLM/VLM

在LLM中,记忆可能表现为模型记住了训练数据,而泛化则反映了模型输出分布与预训练数据分布之间的差异。先前研究表明,LLM在简单、知识密集型任务上表现出更多过拟合,在更复杂、推理密集型任务上表现出更大的泛化能力。本文旨在研究不同的后训练范式在基于文本规则和视觉变化的设置下,LLM和VLM对记忆与泛化的作用。

Scaling up inference-time compute

有工作已经证明,在推理过程中微调验证器可以提高模型精度,有效地利用测试时间计算。 值得注意的是,最近的研究结果揭示了推理时间计算的“scaling laws”,随着计算资源的增加而带来的显著性能提升。本研究基于这些发现,从两个方面进行改进。首先,将推理时间验证整合到多轮 RL 公式中,使模型能够识别并纠正其错误。 其次,研究了推理时间验证对 RL 泛化的影响,证明了扩展推理时间验证(就最大验证步骤数而言)是 RL 泛化的关键。

Improving visual capability in VLMs

当前的VLM的视觉感知仍然存在局限性。先前的工作包括结合多个视觉编码器,创建高质量的SFT数据,微调ViT。本文旨在证明 RL 也可以提高视觉感知能力。

前置知识

考虑 finite horizon decision making,RL 符号约定:
A \mathcal{A} A:动作空间(action space)
r : S × A → R r: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} r:S×AR:奖励函数(reward function)
T T T:每个 episode 的最大 steps 数量
π : S → A \pi : \mathcal{S} \rightarrow \mathcal{A} π:SA:策略模型,学习最大化 overal return
m a x π ∈ Π E π [ ∑ t = 0 T r t ] max_{\pi \in \Pi}\mathbb{E}_{\pi} \lbrack \sum^T_{t=0} r_t \rbrack maxπΠEπ[t=0Trt]:总回报(overall return)
r t = r ( s t , a t ) r_t = r(s_t, a_t) rt=r(st,at)
π ( a ∣ s ) ∈ [ 0 , 1 ] \pi(a | s) \in [0,1] π(as)[0,1]:probability of π \pi π choosing a a a at s s s

采用多轮 RL 设置进行基础模型训练:
V \mathcal{V} V:离散且有限的 vocabulary (token) space
V m \mathcal{V}^m Vm:input text space
V n \mathcal{V}^n Vn:output text space
m m m:input sequence n i n \mathbf{n}^{in} nin
n n n:output sequence n o u t \mathbf{n}^{out} nout

对于 VLM:
O \mathcal{O} O:RGB image space
S \mathcal{S} S:state space
S : V m × O \mathcal{S}:\mathcal{V}^m \times \mathcal{O} S:Vm×O:for VLM
S : V m \mathcal{S}:\mathcal{V}^m S:Vm:for LLM
A : V n \mathcal{A}:\mathcal{V}^n A:Vn:action space
V E R : V n → R × V k VER: \mathcal{V}^n \rightarrow \mathbb{R} \times \mathcal{V}^k VER:VnR×Vk:verifier, evaluates the outcome of v o u t \mathbf{v}^{out} vout and generates an outcome-based reward function r r r along with textual information v v e r \mathbf{v}^{ver} vver
π θ : S → V n \pi_{\theta}: \mathcal{S} \rightarrow \mathcal{V}^n πθ:SVn:policy network, adopt PPO as the backbone RL algorithm for updating π θ \pi_{\theta} πθ

评估任务

为了评估不同后训练方法的泛化能力,选择了两个任务,每个任务都提供规则和视觉变化。第一个任务,GeneralPoints,是设计的一个新环境,用于评估算术推理能力。 第二个任务,V-IRL,旨在考察模型在开放世界视觉导航领域中的推理能力。

General Points Environment

在这里插入图片描述
GeneralPoints环境建立在Points24环境上,旨在评估算术推理的泛化能力。环境的每个状态 s 包含 4 张卡片,以文本形式描述(GP-L)或以图像形式(GP-VL)呈现,如图 2 左侧关于GeneralPoints的视觉示例。目标是生成一个等于目标数字(默认为24)的方程式,使用卡片中的所有4个数字且每个数字只使用一次。

规则变化:为了研究模型是学习算术运算还是仅仅记住后训练数据,在GeneralPoints中引入了规则变化。这些变化包括将符号“J”、“Q”和“K”分别解释为“11”、“12”和“13”。 这些变化确保了对模型在不同环境中泛化算术推理能力的严格评估。每条规则都在输入提示中以文本形式指定,图 3 中的 {tasks rules} 部分。 为了研究基于规则的泛化,使用一条规则对模型进行后训练,然后使用不同的规则进行评估。

视觉变化:GeneralPoints环境也可以自然地定制,以评估跨视觉变化的泛化能力。 由于主要的视觉挑战是识别每张卡片的数量,而与卡片的颜色无关,将不同颜色的卡片视为任务的视觉变化。在视觉泛化设置中,使用一种颜色的卡片训练模型,然后使用另一种颜色测试OOD性能。

V-IRL Environment

利用V-IRL环境在一个使用逼真的视觉输入的开放世界导航领域中研究空间推理能力。考虑了环境的两个版本, 一个(V-IRL-L)由纯语言描述组成,另一个(V-IRL-VL)包含视觉语言输入。V-IRL中的主要视觉挑战涉及从视觉观察中识别不同的地标采取行动之前。目标是通过遵循包含空间信息的指令集来导航到目标位置。

规则变化:为了评估模型是否拥有空间知识或仅仅记住训练后数据,考虑了两种不同的动作空间配置。第一个变体使用绝对方向动作空间,其中包括{‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。 第二个变体采用相对方向动作空间,包含{‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。 这种相对配置分别将当前方向调整90度或45度到左或右。V-IRL中导航任务的概述见图 4,V-IRL中的详细状态-动作转换见图13。
在这里插入图片描述
在这里插入图片描述

视觉变化:V-IRL 中主要的视觉挑战是从视觉观测中识别地标(图 4中的绿色部分)。 由于V-IRL环境包含来自不同城市的视觉观测,可以通过训练模型在一个位置进行导航,然后评估其在不同位置的性能来评估V-IRL中的视觉泛化能力。

消融实验

采用 Llama-3.2-Vision-11B 作为骨干模型。 遵循 RLHF 和 RL4VLM 的标准流程,在运行 RL 之前使用 SFT 初始化模型。研究以下问题:

  • SFT或RL如何影响模型对不同规则的泛化?
  • 当模型包含视觉组件时,RL/SFT如何影响其对不同视觉变化的泛化?
  • RL/SFT如何影响VLM中的视觉识别能力?
  • SFT在RL训练中起什么作用?
  • 验证迭代的数量如何影响泛化?

Generalization across Rules

对于每个任务,分别针对单个规则调整 RL 和 SFT 的训练计算量。将训练规则上的结果视为分布内 (ID) 性能,而未见过规则上的结果则衡量分布外 (OOD) 泛化能力。在 GeneralPoints 中,ID 的情况将所有“J”、“Q”、“K”都视为 10,OOD 则将它们解释为 11、12 和 13。 对于 V-IRL,ID 采用 绝对方向 坐标系,OOD 则使用 相对方向 动作空间。

结论:RL (RL) 实现泛化,SFT (SFT) 实现记忆。

在这里插入图片描述

Generalization in Visual Out-of-Distribution Tasks

研究视觉变化对OOD泛化能力的影响。对于GeneralPoints,我们使用黑桃 (♠, ♣) 训练VLM,并在红桃 (♥, ♠) 上测试其分布外性能。对于V-IRL,在纽约市收集的路线数据上训练模型,并在包含来自世界各地不同城市路线的原始V-IRL VLN小型基准测试上进行评估。

结论:RL (RL) 在视觉分布外任务中具有泛化能力。

在这里插入图片描述

RL Improves Visual Capabilities

RL如何影响VLMs的视觉能力? 在GP-VL环境中进行了消融研究,以调查RL和SFT的分布外性能,以及模型在识别输入图像中的4张卡片方面的视觉识别准确性。 研究了通过RL/SFT扩展后期训练计算如何影响基于规则的分布外泛化能力(图 8 左侧),以及视觉识别准确性和视觉分布外性能(图 8 右侧)。

结论:扩展RL提高了VLM训练中的视觉识别准确性。
在这里插入图片描述

The Role of SFT for RL Training

关注另一个关键问题:SFT 对于 RL 训练是否必要? 为了回答这个问题,进行了额外的实验,直接将端到端RL应用于使用GeneralPoints对的基础模型Llama3.2进行后训练。

结论:当主干模型不遵循指令时,RL训练需要指令微调。
在这里插入图片描述

Role of Verification Iterations

为验证验证多步骤训练和评估流程的必要性并更好地理解其效果,使用GP-L 进行了不同验证迭代次数 {1,3,5,10} 的RL实验。

结论:提升验证规模提高了泛化能力。

在这里插入图片描述

实验结论

通过在GeneralPoints和V-IRL任务上进行的大量实验,我们证明了RL在学习可泛化知识方面表现出优越的性能,而SFT往往只是记住训练数据,这在规则和视觉变化中都得到了体现。这种现象在多模态算术和空间推理能力中始终存在。还研究了RL对视觉识别的影响、SFT的作用以及验证步骤的作用。

研究过程中,有两个挑战没有解决:

SFT在GP-VL上失败:图5中,对于GP-VL,我们观察到监督微调未能达到与RL相当的分布内性能。扩大SFT规模会降低视觉识别能力,假设SFT局部过拟合于推理 token 而忽略了识别 token,这可能是由于推理 token 的频率更高。

RL在极端情况下的局限性:对于在Llama-3.2上进行有效的RL训练,SFT是必要的。表明当应用于极度欠拟合或过拟合的初始检查点时,RL的有效性有限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2296001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法与数据结构(字符串相乘)

题目 思路 这道题我们可以使用竖式乘法,从右往左遍历每个乘数,将其相乘,并且把乘完的数记录在nums数组中,然后再进行进位运算,将同一列的数进行相加,进位。 解题过程 首先求出两个数组的长度,…

DeepSeek从入门到精通:全面掌握AI大模型的核心能力

文章目录 一、DeepSeek是什么?性能对齐OpenAI-o1正式版 二、Deepseek可以做什么?能力图谱文本生成自然语言理解与分析编程与代码相关常规绘图 三、如何使用DeepSeek?四、DeepSeek从入门到精通推理模型推理大模型非推理大模型 快思慢想&#x…

【异常解决】在idea中提示 hutool 提示 HttpResponse used withoud try-with-resources statement

博主介绍:✌全网粉丝22W,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…

【Uniapp-Vue3】UniCloud云数据库获取指定字段的数据

使用where方法可以获取指定的字段: let db uniCloud.database(); db.collection("数据表").where({字段名1:数据, 字段名2:数据}).get({getOne:true}) 如果我们不在get中添加{getOne:true},在只获取到一个数据res.result.data将会是一个数组&…

信息科技伦理与道德3-2:智能决策

2.2 智能推荐 推荐算法介绍 推荐系统:猜你喜欢 https://blog.csdn.net/search_129_hr/article/details/120468187 推荐系统–矩阵分解 https://blog.csdn.net/search_129_hr/article/details/121598087 案例一:YouTube推荐算法向儿童推荐不适宜视频 …

Visual Studio 2022 中使用 Google Test

要在 Visual Studio 2022 中使用 Google Test (gtest),可以按照以下步骤进行: 安装 Google Test:确保你已经安装了 Google Test。如果没有安装,可以通过 Visual Studio Installer 安装。在安装程序中,找到并选择 Googl…

WGCLOUD监控系统部署教程

官网地址:下载WGCLOUD安装包 - WGCLOUD官网 第一步、环境配置 #安装jdk 1、安装 EPEL 仓库: sudo yum install -y epel-release 2、安装 OpenJDK 11: sudo yum install java-11-openjdk-devel 3、如果成功,你可以通过运行 java …

协议-WebRTC-HLS

是什么? WebRTC(Web Real-Time Communication) 实现 Web 浏览器和移动应用程序之间通过互联网直接进行实时通信。允许点对点音频、视频和数据共享,而无需任何插件或其他软件。WebRTC 广泛用于构建视频会议、语音通话、直播、在线游…

MySQL系列之数据类型(String)

导览 前言一、字符串类型知多少 1. 类型说明2. 字符和字节的转换 二、字符串类型的异同 1. CHAR & VARCHAR2. BINARY & VARBINARY3. BLOB & TEXT4. ENUM & SET 结语精彩回放 前言 MySQL数据类型第三弹闪亮登场,欢迎关注O。 本篇博主开始谈谈MySQ…

【C++高并发服务器WebServer】-15:poll、epoll详解及实现

本文目录 一、poll二、epoll2.1 相对poll和select的优点2.2 epoll的api2.3 epoll的demo实现2.5 epoll的工作模式 一、poll poll是对select的一个改进,我们先来看看select的缺点。 我们来看看poll的实现。 struct pollfd {int fd; /* 委托内核检测的文件描述符 */s…

git提交到GitHub问题汇总

1.main->master git默认主分支是maser,如果是按照这个分支名push,GitHub会出现两个branch,与预期不符 解决方案:更改原始主分支名为main git config --global init.defaultBranch main2.git:OpenSSL SSL_read: SS…

CNN-GRU卷积神经网络门控循环单元多变量多步预测,光伏功率预测(Matlab完整源码和数据)

代码地址:CNN-GRU卷积神经网络门控循环单元多变量多步预测,光伏功率预测(Matlab完整源码和数据) CNN-GRU卷积神经网络门控循环单元多变量多步预测,光伏功率预测 一、引言 1.1、研究背景和意义 随着全球能源危机和环境问题的日…

编译原理面试问答

编译原理面试拷打 1.编译原理的基本概念 编译原理是研究如何将高级程序语言转换为计算机可执行代码的理论与技术,其核心目标是实现高效、正确的代码翻译。 **编译器:**将源代码转化为目标代码(机器码、字节码等)。一次翻译整个程…

LIMO:上海交大的工作 “少即是多” LLM 推理

25年2月来自上海交大、SII 和 GAIR 的论文“LIMO: Less is More for Reasoning”。 一个挑战是在大语言模型(LLM)中的复杂推理。虽然传统观点认为复杂的推理任务需要大量的训练数据(通常超过 100,000 个示例),但本文展…

Ollama 部署本地大语言模型

一、下载安装ollama 1.百度 ollama Ollama 2.点击下载 可以复制下载链接,使用下载器下载。 3.双击安装 默认安装目录:C:\Users\用户名\AppData\Local\Programs\Ollama 二、更改模型下载目录 0.默认下载目录 (跳过) 之前没下载过模型,不…

pytest-xdist 进行多进程并发测试!

在软件开发过程中,测试是确保代码质量和可靠性的关键步骤。随着项目规模的扩大和复杂性的增加,测试用例的执行效率变得尤为重要。为了加速测试过程,特别是对于一些可以并行执行的测试用 例,pytest-xdist 提供了一种强大的工具&…

24.ppt:小李-图书策划方案【1】

目录 NO1234​ NO5678​ NO1234 新建PPT两种方式👇docx中视图→导航窗格→标题1/2/3ppt新建幻灯片→从大纲→重置开始→版式设计→主题插入→表格 NO5678 SmartArt演示方案:幻灯片放映→自定义幻灯片放映→新建→选中添加

模型 替身决策

系列文章分享模型,了解更多👉 模型_思维模型目录。替身决策,换位思考,多角度决策。 1 替身决策模型的应用 1.1 替身决策模型在面试中的应用-小李的求职面试 小李是一名应届毕业生,正在积极寻找工作机会。在面试过程中…

ESP32S3读取数字麦克风INMP441的音频数据

ESP32S3 与 INMP441 麦克风模块的集成通常涉及使用 I2S 接口进行数字音频数据的传输。INMP441 是一款高性能的数字麦克风,它通过 I2S 接口输出音频数据。在 Arduino 环境中,ESP32S3 的开发通常使用 ESP-IDF(Espressif IoT Development Framew…

docker环境下部署face-search开源人脸识别模型

由于我们是直接将face-search部署在docker容器中的,所以,在部署之前一定要检查一下自己的docker环境,要不然部署过程中会出现各种各样的问题 我这里的docker环境是 一、安装docker环境 如果docker版本比较低或者docker-compose的版本比较低的情况下,部署的时候docker的yml…