探秘LLM推理模型:hidden states中藏着的self verification的“钥匙”

news2025/4/28 10:41:46

推理模型在数学和逻辑推理等任务中表现出色,但常出现过度推理的情况。本文研究发现,推理模型的隐藏状态编码了答案正确性信息,利用这一信息可提升推理效率。想知道具体如何实现吗?快来一起来了解吧!

论文标题
Reasoning Models Know When They’re Right: Probing Hidden States for Self-Verification
来源
arXiv:2504.05419v1 [cs.AI] 7 Apr 2025
https://arxiv.org/abs/2504.05419

文章核心

研究背景

近年来,推理模型在复杂推理能力上取得显著进展,如OpenAI的o1和DeepSeekR1等在数学和逻辑推理任务中表现出色,其基于搜索的推理方式是重要优势。

研究问题

  1. 推理模型存在过度思考的问题,在得到正确答案后仍会进行不必要的推理步骤。
  2. 不清楚模型在推理过程中对中间答案正确性的评估能力如何。
  3. 模型虽能编码答案正确性信息,但在推理时未能有效利用该信息。

主要贡献

  1. 验证信息编码:证实推理模型的隐藏状态编码了答案正确性信息,通过简单的探测就能可靠地提取,且探测结果校准度高,在分布内和分布外示例上都有良好表现。
  2. 提前预测正确性:发现模型隐藏状态包含“前瞻性”信息,能在中间答案完全生成前预测其正确性。
  3. 提升推理效率:将训练好的探测模型用作验证器,实施基于置信度的提前退出策略,在不降低性能的情况下,可减少24%的推理令牌数量,揭示了模型在利用内部正确性信息方面的潜力。

方法论精要

  1. 核心算法/框架:使用两层多层感知器(MLP)作为探测模型,在推理模型生成的长思维链(Chain-of-Thought,CoT)基础上,将其分割为包含中间答案的多个块,利用该探测模型从这些块对应的隐藏状态中提取信息,进而预测中间答案的正确性。
  2. 关键参数设计原理:由于数据集存在类别不平衡问题,多数中间答案正确,因此使用加权二元交叉熵损失函数。其中, w w w是训练数据中负样本与正样本的比例, α \alpha α是缩放不平衡权重的超参数,通过调整这些参数来优化探测模型的训练。
  3. 创新性技术组合
  • 数据处理创新:设计了一套独特的数据处理流程。首先,收集推理模型针对任务数据集中每个问题的响应,将推理过程中封装在标记内的推理痕迹提取出来,并以 “\n\n” 为分隔符拆分成段落。通过检测段落中的 “wait”“double-check”“alternatively” 等关键词来识别新推理路径的起始点,然后将同一推理路径的段落合并成一个块。接着,借助 Gemini 2.0 Flash 工具,从每个块中提取中间答案(若存在),并与真实答案对比判断其正确性。对于相邻且不包含中间答案的块,将其与最近的含答案块合并。最终,每个合并后的块都包含一个中间答案以及由 Gemini 生成的表示答案正确性的二进制标签,形成 ( c 1 , y 1 ) , ( c 2 , y 2 ) , . . . ( c k , y k ) {(c_{1}, y_{1}),(c_{2}, y_{2}), ...(c_{k}, y_{k})} (c1,y1),(c2,y2),...(ck,yk) 这样的数据结构,为后续探测模型的训练提供了丰富且准确的数据。
  • 模型训练创新:在训练探测模型时,采用将长 CoT 分段处理后得到的块数据进行训练。对于每个块 c i c_{i} ci ,选取其最后一个令牌位置的最后一层隐藏状态作为该块的表示 e i e_{i} ei,以此构建探测数据集 D = ( e i , y i ) i = 1 N D={(e_{i}, y_{i})}_{i=1}^{N} D=(ei,yi)i=1N,这种基于块的隐藏状态表示方式能够有效捕捉推理过程中每个中间步骤的特征信息,为准确训练探测模型奠定了基础。同时,结合加权二元交叉熵损失函数进行训练,进一步提升了模型在不平衡数据上的训练效果。
  1. 实验验证方式:选择数学推理(GSM8K、MATH、AIME)和逻辑推理(KnowLogic)任务的数据集,使用开源的DeepSeek - R1 - Distill系列模型以及QwQ - 32B模型。通过在不同数据集上训练和测试探测模型,对比不同模型的性能,并将训练好的探测模型作为验证器,与静态提前退出策略对比,评估推理效率和准确性。

实验洞察

  1. 性能优势:在分布内实验中,所有探测模型的ROC - AUC得分均高于0.7,预期校准误差(ECE)低于0.1。例如,R1 - Distill - Qwen - 32B在AIME数据集上的ROC - AUC得分超过0.9。在跨数学推理数据集的实验中,部分探测模型具有良好的泛化性,如在MATH和GSM8K数据集上训练的探测模型在两个数据集之间转移时,ROC - AUC和ECE表现良好。
  2. 效率突破:使用基于探测模型置信度的提前退出策略,在MATH数据集上,当置信度阈值设为0.85时,推理准确率与不提前退出时大致相同(88.2%),但生成的令牌数量减少了约24%;当阈值设为0.9时,推理准确率为88.6%,令牌数量减少19%。且在节省相同数量令牌的情况下,该策略比静态提前退出策略的准确率高5%。
  3. 消融研究:训练非推理模型(Llama - 3.1 - 8B - Instruct)的探测模型并与推理模型对比,发现非推理模型探测模型的性能更差,分类得分更低,校准误差更高,表明答案正确性的编码信息在推理模型中更显著,与长CoT推理能力相关。同时,研究发现推理模型在中间答案生成前,隐藏状态就编码了正确性信息,且靠近答案生成位置的段落,探测模型性能更好。

本文由AI辅助完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2343661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据开发环境的安装,配置(Hadoop)

1. 三台linux服务器的安装 1. 安装VMware VMware虚拟机软件是一个“虚拟PC”软件,它使你可以在一台机器上同时运行二个或更多Windows、DOS、LINUX系统。与“多启动”系统相比,VMWare采用了完全不同的概念。 我们可以通过VMware来安装我们的linux虚拟机…

驱动开发硬核特训 · Day 16:字符设备驱动模型与实战注册流程

🎥 视频教程请关注 B 站:“嵌入式 Jerry” 一、为什么要学习字符设备驱动? 在 Linux 驱动开发中,字符设备(Character Device)驱动 是最基础也是最常见的一类驱动类型。很多设备(如 LED、按键、…

Virtuoso ADE采用Spectre仿真中出现MOS管最小长宽比满足要求依然报错的情况解决方法

在ADE仿真中错误问题如下: ERROR (CMI-2440): "xxx.scs" 46338: I2.M1: The length, width, or area of the instance does not fit the given lmax-lmin, wmax-wmin, or areamax-areamin range for any model in the I2.M3.nch_hvt group. The channel w…

大模型应用开发之LLM入门

一、大模型概述 1、大模型概念 LLM是指用有大量参数的大型预训练语言模型,在解决各种自然语言处理任务方面表现出强大的能力,甚至可以展现出一些小规模语言模型所不具备的特殊能力 2、语言模型language model 语言建模旨在对词序列的生成概率进行建模…

武汉昊衡科技OLI光纤微裂纹检测仪:高密度光器件的精准守护者

随着AI技术应用越来越广,算力需求激增,光通信系统正加速向小型化、高密度、多通道方向演进。硅光芯片、高速光模块等核心器件内部的光纤通道数量成倍增加,波导结构愈发精细,传统检测手段因分辨率不足、效率低下,难以精…

SQL 函数进行左边自动补位fnPadLeft和FORMAT

目录 1.问题 2.解决 方式1 方式2 3.结果 1.问题 例如在SQL存储过程中,将1 或10 或 100 长度不足的时候,自动补足长度。 例如 1 → 001 10→ 010 100→100 2.解决 方式1 SELECT FORMAT (1, 000) AS FormattedNum; SELECT FORMAT(12, 000) AS Form…

Tailwind CSS实战:快速构建定制化UI的新思路

引言 在当今快节奏的前端开发环境中,开发者不断寻找能够提高效率并保持灵活性的工具。Tailwind CSS作为一个功能型优先的CSS框架,正在改变开发者构建用户界面的方式。与Bootstrap和Material UI等传统组件库不同,Tailwind不提供预设组件&…

【数据可视化-25】时尚零售销售数据集的机器学习可视化分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个…

UML 活动图深度解析:以在线购物系统为例

目录 一、UML 活动图的基本构成要素 二、题目原型 三、在线购物系统用户购物活动图详细剖析 (一)概述 (二)节点分析 三、注意事项 四、活动图绘画 五、UML 活动图在软件开发中的关键价值 六、总结 在软件开发与系统设计领…

【MFC】 VS2022打开低版本的MFC,双击.rc文件,DIalog加载失败,页面弹窗fatal error RC***:cannot open*****

打开以前的MFC示例报错,打开VS2019的实例以及更早VS版本的实例都一样,打不开,还报错; 错误 MSB8041 此项目需要 MFC 库。从 Visual Studio 安装程序(单个组件选项卡)为正在使用的任何工具集和体系结构安装它们。 GxCameraEvents_VS2015 C:\P…

Centos9 安装 nginx 及配置

1. 安装nginx 安装依赖软件,安装之前可以看一下是否已经安装过以下软件,dnf list installed | grep zlib dnf install gcc-c dnf install zlib dnf install pcre pcre-devel dnf install openssl openssl-devel下载nginx,这里是下载到opt文…

使用Handsontable实现动态表格和下载表格

1.效果 2.实现代码 首先要加载Handsontable,在示例中我是cdn的方式引入的,vue的话需要下载插件 let hot null;var exportPlugin null;function showHandsontable(param) {const container document.getElementById("hot-container");// 如果…

Action:Update your application‘s configuration

在使用Maven项目时,有一个报错信息是:Update your applications configuration 这类问题,就是我们的application.yml文件 或者 application.properties文件 内容哪里写错了 最有可能就是对齐方式有问题

【计算机网络】IP地址

IPv4 五类地址 1.0.0.0 ~ 126.255.255.255A类子网8位,主机24位128.0.0.0 ~ 191.255.255.255B类子网16位,主机16位192.0.0.0 ~ 223.255.255.255C类子网24位,主机8位224.0.0.0 ~ 239.255.255.255D类不分网络地址和主机地址,作为组播…

Rundeck 介绍及安装:自动化调度与执行工具

Rundeck介绍 概述:Rundeck 是什么? Rundeck 是一款开源的自动化调度和任务执行工具,专为运维场景设计,帮助工程师通过统一的平台管理和执行跨系统、跨节点的任务。它由 PagerDuty 维护(2016 年收购)&#…

vue element使用el-table时,切换tab,table表格列项发生错位问题

展示问题 问题描述:使用el-table的fixed"right"属性后,如果切换tab时,回出现最后一列错误的问题 官网提供解决方法:doLayout 需要注意的事项:我这里是通过组件使用的table组件,涉及多层组件封装…

第十二章 Python语言-大数据分析PySpark(终)

目录 一. PySpark前言介绍 二.基础准备 三.数据输入 四.数据计算 1.数据计算-map方法 2.数据计算-flatMap算子 3.数据计算-reduceByKey方法 4.数据计算-filter方法 5.数据计算-distinct方法 6.数据计算-sortBy方法 五.数据输出 1.输出Python对象 (1&am…

AD相同网络的铜皮和导线连接不上

出现这样的情况是不是很烦恼,明明是相同的网络连接不上????? 直接修改铜皮属性(选择所有相同这个选项) 这样就可以连接上了

keil修改字体无效,修改字体为“微软雅黑”方法

在网上下载了微软雅黑字体,微软雅黑参考下载链接 结果在Edit->Configuration中找不到这个字体 这个时候可以在keil的安装目录中找到UV4/global.prop文件 用记事本打开它进行编辑,把字体名字改成微软雅黑 重新打开keil就发现字体成功修改了。 这个…

【网络编程】从零开始彻底了解网络编程(三)

本篇博客给大家带来的是网络编程的知识点. 🐎文章专栏: JavaEE初阶 🚀若有问题 评论区见 ❤ 欢迎大家点赞 评论 收藏 分享 如果你不知道分享给谁,那就分享给薯条. 你们的支持是我不断创作的动力 . 王子,公主请阅🚀 要开心要快乐顺便进步 TCP流…