大模型背后的秘密公式: Q*?

news2025/1/15 6:35:14

这麽说好像我是James Bond后面那个厉害的Q先生,Q是英文Quartermaster(軍需官)第1個英文字大寫,是007系列英國祕勤局虛構部門Q部門的領導。

Stanford大学的研究者最近发表了一篇名为"From r to Q*: Your Language Model is Secretly a Q-Function"的论文,核心观点是将语言模型解释为最优Q函数,并以此推导出DPO算法在序列决策问题中的应用。这为DPO在序列决策任务中的应用提供了理论基础。本报告探讨了其在多轮对话、智能体建立、端到端生成式AI系统训练等方面的应用前景,并提供了使用DPO在Reddit TL;DR数据集上训练的样本生成结果。

在这里插入图片描述

让我们深入探讨一下其中的关键论证。首先,作者定义了语言模型中的token级MDP(Token-level Markov Decision Process),这是一种用于表示语言模型序列决策过程的数学框架。在token级MDP中,每个token都被视为一个独立的决策步骤。其组成要素包括:状态空间S、动作空间A、转移函数f、奖励函数r和初始状态分布 ρ 0 \rho_0 ρ0。由于语言的顺序特性,token级MDP具有独特的树形结构,与一般的MDP(例如棋类游戏)不同,因此许多基于MDP的理论结果在此都有独特的解释。

在这里插入图片描述

接着,作者指出在token级MDP中,最优策略 π ∗ \pi^* π与最优Q函数 Q ∗ Q^* Q之间满足一定关系,语言模型生成每个token的概率分布恰好对应以logits为 Q ∗ Q^* Q的softmax函数。作者进一步证明,在token级MDP中,奖励函数r与最优Q函数 Q ∗ Q^* Q之间存在一一映射关系,表明我们可以将语言模型视为隐式地表示了某个最优Q函数的奖励函数。DPO算法的目标就是调整模型参数,使其所对应的奖励函数符合人类偏好,同时DPO能够学习任意密集奖励函数对应的最优策略。

在这里插入图片描述

这一理论洞见具有重要意义。它揭示了语言模型的潜在强化学习特性,为DPO等对齐算法在序列决策中的应用提供了理论支持,同时也为PPO等传统强化学习算法在语言任务上的应用提供了合适的问题建模。这篇论文开创性地将Q学习与语言模型结合,极大拓展了RLHF的理论框架和算法工具箱。

作者还概述了如何使用DPO从人类反馈中端到端训练生成式AI系统。通过在混合MDP中同时优化提示生成器和图像生成器,联合训练可使系统生成更对齐的提示和图像。在Reddit TL;DR数据集上的实验表明,beam search可提高DPO模型的匹配质量但宽度过大会导致冗长,而有无监督式微调(SFT)预训练则显著影响生成摘要的可读性。

这项工作为将DPO扩展到序列决策、强化学习领域奠定了理论基础,并提出了从反馈中学习推理、多轮对话、智能体训练、端到端生成式AI训练等具启发性的潜在应用方向。通过将DPO重新诠释为最佳Q函数学习,它为偏好对齐技术的发展开辟了简洁高效的新路径。未来,大规模实证研究以及在更多任务中的探索,有望进一步推动需要多步交互及端到端优化的语言模型对齐应用。

科普什么是Q函数(可不是Altman家的 Q ∗ Q^* Q):

Q函数,全称为动作-价值函数(Action-Value Function),是强化学习中的一个重要概念。它表示在给定策略 π \pi π下,从状态s开始执行动作a,然后继续遵循策略 π \pi π所获得的期望累积奖励。用数学公式表示为:

Q π ( s , a ) = E π [ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s , A t = a ] Q^\pi(s, a) = E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a] Qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]

其中, γ \gamma γ是折扣因子,用于平衡即时奖励和长期奖励的重要性。期望 E π E_\pi Eπ表示在给定策略 π \pi π的情况下对未来奖励的平均值。

Q函数有以下几个关键性质:

  1. 最优Q函数 Q ∗ ( s , a ) Q^*(s, a) Q(s,a)给出了在状态s下采取动作a,然后在之后的所有时间步遵循最优策略 π ∗ \pi^* π可以获得的最大期望累积奖励。

  2. 基于最优Q函数,我们可以很容易地得到最优策略: π ∗ ( a ∣ s ) = arg ⁡ max ⁡ a Q ∗ ( s , a ) \pi^*(a|s) = \arg\max_a Q^*(s, a) π(as)=argmaxaQ(s,a)。即在每个状态下选择Q值最大的动作。

  3. Q函数满足贝尔曼最优方程(Bellman Optimality Equation):

    Q ∗ ( s , a ) = E [ R t + 1 + γ max ⁡ a ′ Q ∗ ( S t + 1 , a ′ ) ∣ S t = s , A t = a ] Q^*(s, a) = E[R_{t+1} + \gamma \max_{a'}Q^*(S_{t+1}, a') | S_t = s, A_t = a] Q(s,a)=E[Rt+1+γmaxaQ(St+1,a)St=s,At=a]

这个方程表示最优动作价值等于即时奖励加上下一状态的最大Q值(乘以折扣因子 γ \gamma γ)的期望。

在强化学习中,我们通常利用贝尔曼方程作为更新Q函数估计值的依据,例如在Q-learning算法中:

Q ( S t , A t ) ← Q ( S t , A t ) + α [ R t + 1 + γ max ⁡ a Q ( S t + 1 , a ) − Q ( S t , A t ) ] Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha[R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)] Q(St,At)Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)Q(St,At)]

其中 α \alpha α是学习率。这个更新规则可以被证明在一定条件下收敛到最优Q函数。

Q函数提供了一种评估动作好坏的方法,使我们能够在不完全了解环境动态的情况下做出最优决策。很多强化学习算法如Q-learning、SARSA、DQN等都是围绕估计和优化Q函数展开的。

近年来,随着深度学习的发展,深度Q网络(DQN)等算法将神经网络用于逼近Q函数,取得了显著的成功,使得Q学习的思想得以扩展到大规模甚至连续的状态-动作空间中。

总之,作为连接策略评估和策略改进的桥梁,Q函数是现代强化学习的核心概念之一。深入理解Q函数的性质和更新方法,对于设计高效的强化学习算法至关重要。同时Q学习在机器人、自动驾驶、游戏AI等领域也有广泛应用。而将Q学习与神经语言模型相结合,更是近年来的一个令人激动的新方向,为对齐大型语言模型行为带来了新的理论视角和技术路径。

Token级MDP(Token-level Markov Decision Process)是一种用于表示语言模型中序列决策过程的数学框架。在这个MDP中,每个token(词汇表中的词)都被视为一个独立的决策步骤。让我详细解释一下它的组成要素:

  1. 状态空间(State Space, S):包含到目前为止生成的所有token,即 s t = x 0 , . . . , x m , y 0 , . . . , y t s_t=\\{x_0, ..., x_m, y_0, ..., y_t\\} st=x0,...,xm,y0,...,yt,其中 x i x_i xi是输入序列的token, y i y_i yi是生成序列的token。

  2. 动作空间(Action Space, A):词汇表V中的所有token。在每个状态下,模型从词汇表中选择一个token作为动作。

  3. 转移函数(Transition Function, f):描述在给定状态s下采取动作a后,环境将转移到哪个新状态s’。在token级MDP中,转移函数是确定性的: f ( s , a ) = s ∣ a f(s, a) = s|a f(s,a)=sa,即新状态是原状态与新token的拼接。

  4. 奖励函数(Reward Function, r):定义在每个状态动作对 ( s , a ) (s, a) (s,a)上的即时奖励值。在RLHF设定中,奖励函数从人类反馈中学习。

  5. 初始状态分布(Initial State Distribution, ρ 0 \rho_0 ρ0):定义了MDP的初始状态分布,通常对应输入提示的分布。

在token级MDP中,模型的目标是最大化累积期望奖励:

max ⁡ π E τ ∼ π [ ∑ R ( s t , a t ) ] \max_\pi E_{\tau \sim \pi}[\sum R(s_t, a_t)] maxπEτπ[R(st,at)]

其中 π \pi π是模型的策略(policy), τ \tau τ是轨迹(trajectory), R ( s t , a t ) R(s_t, a_t) R(st,at)是t时刻的奖励。求解这一目标的经典方法是强化学习,例如近端策略优化(PPO)。

值得注意的是,由于语言的顺序特性,token级MDP具有独特的树形结构(tree structure),即在给定输入提示(初始状态)的情况下,模型的每个决策都会导向一个全新的状态,这与一般的MDP(例如棋类游戏)不同。因此,许多基于MDP的理论结果(如Bellman方程)在这里都有独特的解释。

作者首先定义了语言模型中的token级MDP,其中每个时间步对应生成一个token的决策。接着,他们指出,在这个特殊的MDP中,最优策略 π ∗ \pi^* π与最优Q函数 Q ∗ Q^* Q之间满足如下关系:

π ∗ ( a t ∣ s t ) = exp ⁡ ( ( Q ∗ ( s t , a t ) − V ∗ ( s t ) ) / β ) \pi^*(a_t|s_t) = \exp((Q^*(s_t,a_t) - V^*(s_t)) / \beta) π(atst)=exp((Q(st,at)V(st))/β)

其中 V ∗ V^* V是最优价值函数, β \beta β是温度参数。换句话说,语言模型生成每个token的概率分布,恰好对应了以logits为 Q ∗ Q^* Q的softmax函数。进一步地,Bellman最优方程给出了 Q ∗ Q^* Q和环境奖励r之间的递归关系:

Q ∗ ( s t , a t ) = r ( s t , a t ) + β log ⁡ π r e f ( a t ∣ s t ) + V ∗ ( s t + 1 ) Q^*(s_t,a_t) = r(s_t,a_t) + \beta \log \pi_{ref}(a_t|s_t) + V^*(s_{t+1}) Q(st,at)=r(st,at)+βlogπref(atst)+V(st+1)

作者据此证明,在token级MDP中,奖励函数r与最优Q函数 Q ∗ Q^* Q之间存在一一映射关系。这意味着我们可以将语言模型视为一个隐式地表示了某个最优Q函数的奖励函数。DPO算法的目标就是调整模型参数,使其表示的Q函数所对应的奖励函数符合人类偏好。作者进一步论证了DPO能够学习任意密集奖励函数对应的最优策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1659396.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

react18【系列实用教程】JSX (2024最新版)

为什么要用 JSX? JSX 给 HTML 赋予了 JS 的编程能力 JSX 的本质 JSX 是 JavaScript 的语法扩展,浏览器本身不能识别,需要通过解析工具(如babel)解析之后才能在浏览器中运行。 bable 官网可以查看解析过程 JSX 的语法 …

(动画详解)LeetCode225.用队列实现栈

. - 力扣&#xff08;LeetCode&#xff09; 题目描述 解题思路 这道题的思路就是使用两个队列来实现 入栈就是入队列 出栈就是将非空队列的前n-1个元素移动到新的队列中去 再将最后一个元素弹出 动画详解 代码实现 #define _CRT_SECURE_NO_WARNINGS 1#include <stdio.…

Mock.js 问题记录

文章目录 Mock.js 问题记录1. 浮点数范围限制对小数不起效2. increment 全局共用 Mock.js 问题记录 最新写网页的时候引入了 Mock.js 来生成模拟数据&#xff1b; Mock使用起来很方便&#xff0c;具体可以参考 官网 很快就能上手&#xff0c; 但是这个项目最近一次提交还是在2…

Android 开机启动模式源码分析

在机器关机情况下&#xff0c;长按Power键启动机器&#xff0c;如果这时机器低电&#xff0c;会提示低电&#xff0c;机器不会正常启动&#xff1a; 而代码如下&#xff1a; 如果不是低电&#xff0c;正常情况是可以启动的。 在关机情况下&#xff0c;插入USB&#xff0c;机…

Spark云计算平台Databricks使用,上传文件

Databricks&#xff0c;是属于 Spark 的商业化公司&#xff0c;由美国加州大学伯克利 AMP 实验室的 Spark 大数据处理系统多位创始人联合创立。Databricks 致力于提供基于 Spark 的云服务&#xff0c;可用于数据集成&#xff0c;数据管道等任务。 创建workspace&#xff1a;Spa…

AUS GLOBAL 再次荣登皇家贝蒂斯俱乐部官网

AUS GLOBAL 作为一家备受信赖的金融服务领导者&#xff0c;一直以来都在致力于为客户提供卓越的交易体验和专业的服务。再次登上皇家贝蒂斯俱乐部官网Banner&#xff0c;不仅是对我们过去合作的肯定&#xff0c;更是对未来合作的信心和期待。这标志着我们之间的合作更加稳固和成…

雷森托尔环保科技有限公司见证2024杭州数字供应链装备展潮流

参展企业介绍 青岛雷森托尔环保科技有限公司创建于2018年&#xff0c;位于山东青岛&#xff0c;现注册资本3000万。公司主营生产模压木托盘、化工木托盘、大型设备木包装、出口木托盘、酒柜木酒架等&#xff0c;公司拥有技术人员6人&#xff0c;均为包装设计专业毕业&#xff0…

计算机科学类SSCI期刊,高效录用,检索稳定!

今天老毕给大家分享一本偏向系统理论实践方向SSCI&#xff0c;JCR2 区&#xff0c;中科院大类社会学 4区&#xff0c;2022年的影响因子为1.9&#xff0c;五年影响因子为2.5。编辑有好&#xff0c;响应迅速。 &#x1f4d8; 基本信息 &#x1f4d6; ISSN 2079-8954 &#x…

美国商务部公布数字孪生技术投资计划

文章目录 前言一、主要内容二、相关背景‍‍‍‍前言 5月6日,美国商务部公布了一项价值2.85亿美元的投资计划,这项名为《美国芯片制造研究竞标》(CHIPS Manufacturing USA Institute Competition)的投资计划旨在向符合条件的申请者进行征求招标,协调建立和运营美国芯片制…

springboot整合websocket,超简单入门

springBoot整合webSocket&#xff0c;超简单入门 webSocket简洁 WebSocket 是一种基于 TCP 协议的全双工通信协议&#xff0c;它允许客户端和服务器之间建立持久的、双向的通信连接。相比传统的 HTTP 请求 - 响应模式&#xff0c;WebSocket 提供了实时、低延迟的数据传输能力。…

【JavaEE】博客系统(前端页面设计)

文章目录 一、预期效果二、实现博客列表页 一、预期效果 二、实现博客列表页 实现导航栏 编辑 blog_list.html, 创建导航栏的 html 代码. 导航栏里面包含 logo, 标题, 以及一些按钮(跳转链接). 为了实现左右排列, 在 logo 和 按钮 之间加一个 spacer 作为占位器. <!-- 导航…

FPGA采集卡,可实现CVBS/HDMI/SDI三种信号转换

可实现CVBS/HDMI/SDI三种信号转换&#xff0c; 客户应用:电视台&#xff0c;舞台&#xff0c;会议室 主要性能: 1:标准CVBS信号输入,标准HDMI信号输入,标准SDI信号输入,输入信号自适应. 2:3G/HD/SDSDI信号输出可选 2:1080P/10801/720P/4801/5761常用分辩率可选 1080PSF/720P30/…

SSC369G 双4K高性价比AI IPC方案

一、方案描述 SSC369G 双4K高性价比AI IPC方案采用主芯片SSC369G&#xff0c;内核为CA55四核最高主频为1.5Ghz处理器。SOC内置集成一个64位的四核RISC处理器&#xff0c;先进的图像信号处理器&#xff08;ISP&#xff09;&#xff0c;高性能的H.265/H.264/MJPEG视频编解码器&a…

LeetCode-2960. 统计已测试设备【数组 模拟】

LeetCode-2960. 统计已测试设备【数组 模拟】 题目描述&#xff1a;解题思路一&#xff1a;模拟解题思路二&#xff1a; 一次遍历&#xff0c;简洁写法解题思路三&#xff1a;0 题目描述&#xff1a; 给你一个长度为 n 、下标从 0 开始的整数数组 batteryPercentages &#xf…

多模态大模型通过外接数据方案实现电力智能巡检(设计方案)

大模型相关目录 大模型&#xff0c;包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步&#xff0c;扬帆起航。 大模型应用向开发路径&#xff1a;AI代理工作流大模型应用开发实用开源项目汇总大模…

深度主动学习(Deep Active Learning)——基于pytorch和ALipy工具包实现双向GRU模型

前言 在ALipy的官网说ALipy只支持sklearn和tensorflow模型&#xff0c;模型对象应符合 scikit-learn api。 但是alipy提供了ToolBox的工具箱&#xff0c;里面包装了多种查询策略&#xff0c;计算指标等工具&#xff0c;几乎具有Alipy的全部功能&#xff0c;虽然不能使用ALipy提…

BLIP2预研笔记

0. 前言 文章是公司内部分享学习写的预研报告&#xff0c;里面有小部分文段是直接从网上借鉴的&#xff0c;侵删 1. 任务和方法历史进化&#xff1a; 在大模型等类似的预训练模型的方式&#xff08;以包含“预训练阶段”等n阶段训练方式为特色&#xff09;为主流之前&#xf…

太牛了!360大佬编写的《应急响应指导手册》火了!(PDF限时3天领取)

免责声明&#xff1a; 请使用者遵守《中华人民共和国网络安全法》&#xff0c;由于传播、利用本账号所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;公众号及作者不为此承担任何责任。 简介 这份《应急响应指导手册》&#xf…

【NPS】微软NPS配置802.1x,验证域账号,动态分配VLAN(NPS篇)

NPS简介 Network Policy Server&#xff08;NPS&#xff09;是微软Windows Server中的一个网络服务&#xff0c;它作为RADIUS服务器实现&#xff0c;用于集中管理网络接入请求。NPS处理对网络资源的认证、授权和审计请求&#xff0c;通常用于控制远程访问VPN和无线网络的接入。…

网络隔离状态下,如何可以安全高效地进行研发文件外发?

研发部门的数据传输通常需要保证数据的安全性、完整性和保密性&#xff0c;尤其是当涉及到公司的核心技术、产品设计、源代码等重要信息时。研发文件外发&#xff0c;即研发资料的外部传输&#xff0c;通常涉及到公司的核心技术和商业机密&#xff0c;因此需要采取严格的安全措…