基于重要性加权的LLM自我改进:考虑分布偏移的新框架

news2024/10/1 5:41:18

LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。

论文的主要贡献如下:

  • 提出了一个称为DS权重的指标,借助一个微小的有效集来近似LLM自生成数据的DSE
  • 利用DS权重,构建了一个新颖的自我改进框架,称为基于重要性加权的自我改进(IWSI),其中过滤策略同时考虑了答案正确性和DSE
  • 实证检验了论文提出方法的有效性,分析了高DSE样本对LLM自我改进的影响,并探讨了DS权重如何与其他过滤标准相互作用

方法论

给定一个无监督(仅问题)数据集D𝑞,首先使用预训练的LLM M𝐿使用CoT提示每个问题生成多个候选答案以及推理思路,然后IWSI使用多数投票选择最一致的答案和相应的思路,存储在过滤后的数据集D𝑐中在微小有效集D𝑣的帮助下,IWSI计算D𝑐中每个数据点的DS权重。IWSI通过保留DS权重最低的𝑘%样本将D𝑐过滤成D𝑑𝑠,最后对M𝐿进行自我训练

1、候选答案生成和自一致性过滤

在这个阶段,让预训练的LLM M𝐿为仅包含未标记问题的无监督数据集D𝑞生成候选答案和推理思路,给定一个问题𝑞𝑖 ∈ D𝑞,将少量样本CoT提示与𝑞𝑖连接形成输入文本𝑥𝑖。在温度𝑇 > 0的情况下,让M𝐿采样𝑚个候选答案[𝑎𝑖1 , 𝑎𝑖2 , . . . , 𝑎𝑖𝑚]及其推理思路[𝑟𝑖1 , 𝑟𝑖2 , . . . , 𝑟𝑖𝑚]。然后通过多数投票选择最一致的答案𝑎ˆ𝑖

并保留相应的推理思路𝑅𝑖 = {𝑟𝑖 𝑗 |𝑎𝑖 𝑗 = 𝑎ˆ𝑖 , 1 ≤ 𝑗 ≤ 𝑚},通过对D𝑞中的每个问题重复这个过程,构建了一致性过滤后的数据集D𝑐

2、DS权重计算

分布偏移问题表示训练数据和测试数据是从两个不同的分布𝑝𝑡𝑟𝑎𝑖𝑛和𝑝𝑡𝑒𝑠𝑡中抽取的,且𝑝𝑡𝑟𝑎𝑖𝑛 ≠ 𝑝𝑡𝑒𝑠𝑡。分布偏移的一个常见假设是存在一个函数𝑤∗(𝑥),满足:

对于x的任何函数,重要性加权方法[3][4]通过两个步骤处理分布偏移:权重估计为𝑤∗(𝑥)找到一个合适的解;加权分类通过将上述等式中的𝑓替换为目标损失函数来训练模型.为简化问题,DIW[5]在有效集的帮助下提供了一个经验替代目标:

其中𝑁𝑣、𝑁𝑡、𝑥𝑣和𝑥𝑡分别表示有效集的大小、训练集的大小、有效集中的数据和训练集中的数据。M是训练模型,L代表训练损失。

直观理解是,当训练数据分布与有效数据分布相同时,𝑤𝑖 ≡ 1将是上述等式的一个合适解。如果实际𝑤𝑖与1的差异越大,训练分布和有效分布的差异就越大。基于这个想法,首先通过将𝑁𝑡视为1来为𝑥𝑡𝑖设计一个简单的估计𝑤′𝑖:

其中M𝐿是预训练的LLM,L表示sft损失,D𝑣是一个微小的有效集,𝑥𝑡𝑖是一个自生成的训练数据点。然后定义DS权重𝑤𝐷𝑆 𝑖为:

3、利用DS权重改进LLM

通过DS权重测量DSE,能够进一步过滤D𝑐中的自生成数据,排除可能具有较高DSE的数据点,所有数据点根据其DS权重𝑤𝐷𝑆 𝑖进行排序,并选择𝑘-百分位数𝜎𝑘%,使得:

其中|·|表示集合大小,𝑤𝐷𝑆 𝑖是样本𝑥𝑖的相应DS权重

这样只有𝑤𝐷𝑆 𝑖 ≤ 𝜎𝑘%的样本被保留用于训练模型M𝐿。训练损失可以写为:

其中𝟙𝑘%(𝑥𝑖)等于𝟙(𝑤𝐷𝑆 𝑖 ≤ 𝜎𝑘%),L代表sft损失。

实验结果

1、基线

LMSI[6]:首个显著提高LLM推理能力而不需要任何外部监督的自我改进框架。LMSI的核心思想是采用多数投票来选择最可能正确的答案,从而过滤自生成数据

MoT[7]使用熵来衡量答案的不确定性,并进一步过滤数据。作者将这种技术与LMSI结合,并将其称为Entropy-filter

Self-Alignment[8]表明LLM自我评估在过滤策略中可能有帮助。作者用LMSI实现这个想法,并将其称为Self-filter

另外作者还实现了LMSI的一个变体作为参考,即RM-filter。RM-filter使用预训练的奖励模型对生成的数据进行评分,例如GENIE[9]

2、实现细节

使用Llama3-8B作为基础模型在候选答案生成阶段,让基础模型为每个问题生成15个候选答案,温度T = 1.1。每个设备的训练批次大小设置为1,梯度累积步骤为4,使用LoRA进行微调,仅在生成候选答案和评估阶段应用少样本CoT提示。

3、结果

下表显示了所有数据集的准确率结果

评估指标是准确率百分比,所有结果都是通过贪婪解码得出的。顶部是基础模型的性能。中间部分是自我改进基线和论文提出的方法IWSI

作为参考,在表格底部列出了RM-filter的性能,在自我改进方法(中间部分)中,IWSI是唯一一个始终优于LMSI的方法,并且在几乎所有数据集上都达到了最佳效果,这证明了过滤掉具有高DSE的自生成样本对LLM自我改进的有效性

与基础模型相比,LMSI在gsm8k上提升了310%,在SVAMP上提升了206%。IWSI进一步在gsm8k上超过LMSI 34.8%,在SVAMP上超过39.3%

4、超参数研究

下图显示了不同k值的准确率结果

如图所示,k值过大或过小都会导致性能下降。当k很大时,会保留更多具有高DSE的样本,从而可能损害性能;如果k非常小,则保留的样本不足以支持模型训练。最佳k值范围因任务而异。一般来说,约80%是一个适当的选择。

下图显示了DS权重的不同k-百分位数σk%

当k很小时,不同数据集的σk%相似,但随着k的增加,差异变大。这种现象表明样本DSE可被视为"高"的边界是相对的,根据不同的数据集而定。

5、有效集分析

有效集Dv在IWSI中起着至关重要的作用。它决定了DS权重的计算结果,并随后引导过滤策略。有效集组成的变化可能引入随机性,从而导致潜在的不稳定性。下图显示了IWSI前后有效集和自生成样本的分布

与作者的直觉相似,IWSI之前有效集样本和自生成样本之间的分布差异显著,而IWSI之后变得更加接近,说明IWSI在处理分布偏移问题上的有效性

6、正交性分析

在IWSI中,过滤策略考虑了两个因素:答案正确性(由自一致性表示)和样本DSE(由DS权重表示)。在下图中,第一行显示了答案正确性和DSE之间的关系,其中x轴是DSE间隔,y轴表示正确答案和错误答案的比例。第二行是在不同不确定性阈值u*下的DS权重概率密度函数曲线

对于所有数据集,观察到随着DS权重的增加,正确答案的比例普遍呈下降趋势。正确答案的最高比例出现在[1, 1.1)区间(对于gsm8k和ANLI-A1)或[1.1, 1.3)区间(对于StrategyQA),但是正确和错误的答案在每个区间都占据了不可忽视的部分,这表明这两个因素之间存在一定程度的独立性。

7、DSE的感知

比较了同一问题的最高和最低DSE生成答案,发现具有最高DSE的案例通常明显荒谬,很容易将它们与人工编写的样本区分开来,这些样本可以分为3类:

a) 冗余样本:冗余样本在推理思路中包含无关或重复的信息,使其令人困惑。

b) 跳跃样本:跳跃样本省略了重要的推理步骤,甚至直接给出答案,使其在逻辑上不那么流畅。

c) 虚假样本:虚假样本中的推理步骤完全错误。它们只是偶然得到了正确的答案。

总结

这篇论文研究了样本DSE对LLM自我改进的影响,受重要性加权方法的启发,提出DS权重来近似DSE,并提出一个新的框架IWSI,其过滤策略全面考虑了DSE和答案正确性。实验结果表明,纳入DS权重显著提高了LLM自我改进的有效性

论文:https://avoid.overfit.cn/post/f89e3b7f26f04cee892c3700a28618fa

参考文献:

  1. Importance Weighting Can Help Large Language Models Self-Improve by Jiang et al.arXiv:2408.09849
  2. Machine Learning in Non-Stationary Environments — Introduction to Covariate Shift Adaptation. by Sugiyama et al. Adaptive computation and machine learning. MIT Press
  3. Covariate shift adaptation by importance weighted cross validation.by Sugiyama et al. J. Mach. Learn. Res., 8:985–1005
  4. Direct importance estimation with model selection and its application to covariate shift adaptation. by Sugiyama et al. In NIPS, pages 1433–1440
  5. Rethinking importance weighting for deep learning under distribution shift. by Fang et al. In NeurIPS.
  6. Large language models can self-improve.by Huang et al. In EMNLP, pages 1051–1068. Association for Computational Linguistics.
  7. Mot: Memory-of-thoughtenables chatgpt to self-improve. by Li et al. In EMNLP, pages 6354–6374. Association for Computational Linguistics.
  8. Self-alignment with instruction backtranslation. by Li et al. In The Twelfth International Conference on Learning Representations
  9. Genie: Achieving human parity in content-grounded datasets generation. by Yehudai et al. CoRR, abs/2401.14367

作者:SACHIN KUMAR

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2065959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高并发集群饿了么后端的登录模块

高并发集群饿了么后端的登录模块 1.数据库 非交互式python: 非交互式: 2.数据库的负载均衡:阿里巴巴的mycat 修改配置文件 /usr/local/mycat/conf/server.xml :对外的账号 密码 数据库 /usr/local/mycat/conf/schema.xml 如果出现启动异常&…

搭建自己的金融数据源和量化分析平台(七):定时更新上市公司所属行业门类及大类

0x00 前言 由于此前从深交所下载的股票信息中只有行业门类信息,没有行业大类信息,导致后续解析三大报表和量化选股的时候无法进行: 可以看到深交所的股票是没有大类信息的。 再看看上交所的保险股: 因此需要将深交所股票的所属…

关于 IoTDB 的疑问,我们这次有奖征集!

新的社区活动来啦! 你是否对 IoTDB 的技术/操作还有疑问,并需要得到原厂研发团队的解答? 你是否希望在踊跃提出疑问的同时,收获一份精美小礼物? 为回馈新老朋友对 Apache IoTDB 开源社区的活跃贡献,最新社区…

数据结构day01(数据结构、算法基础知识)

目录 【1】数据结构基础知识 1》什么是数据结构 2》数据 3》逻辑结构 1>线性关系 2>层次关系 3>网状关系 4》存储结构 1>顺序存储 2>链式存储 3>索引存储结构 4>散列存储 5》操作 【2】算法基础知识 1> 什么是算法 2> 算法设计 3> 算…

8金收官!仿真工程师为你揭秘中国跳水梦之队的“水花消失术”

巴黎奥运会上,中国跳水梦之队再一次上演“水花消失术”,不仅赢得了裁判的高分,也令全球观众惊叹不已。 发挥出色的运动员入水如同“牛奶入水”,顺滑得仿佛不带一丝涟漪;而发挥失误的运动员仿佛“炸鱼队”来袭&#xf…

.Net Linux平台下System.Drawing.Imaging替代方案

文章目录 前言一、ImageSharp库二、SkiaSharp库三、System.Drawing.Common库总结 前言 在.NET Standard中,System.Drawing.Imaging 命名空间并不直接支持,因为 System.Drawing 命名空间主要是为了Windows Forms(WinForms)和GDI设计…

FPGA第 5 篇,FPGA技术优略势,FPGA学习方向,FPGA学习路线,FPGA专业知识的学习方向(FPGA现场可编程门阵列学习路线和方向)

前言 前几篇讲了一下FPGA的发展和应用,以及未来前景。具体详细,请看 FPGA发展和应用,以及未来前景https://blog.csdn.net/weixin_65793170/category_12665249.html 这里我们来,记录一下,FPGA专业知识的学习路线 一.…

World of Warcraft [CLASSIC] the Eye of Eternity [EOE] P1-P2

World of Warcraft [CLASSIC] the Eye of Eternity [EOE] 永恒之眼(蓝龙) 第一阶段 第二阶段 第三阶段 载具1-6技能介绍 World of Warcraft [CLASSIC] the Eye of Eternity [EOE]_永恒之眼 eoe-CSDN博客 永恒之眼怎么出副本呢,战斗结束&am…

泛微E9如何更新缓存

泛微E9如何更新缓存 在E9中,是默认开启了数据缓存的,如果直接操作数据库是会存在缓存不更新的问题,E9系统提供以下几种方式进行缓存清空的方式。 注:原则上禁止通过非程序渠道直接修改OA数据库数据,可以直接在页面进行…

LCR 162. 数字 1 的个数 题解

189轮转数组 189. 轮转数组 给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 时间复杂度o(n),空间复杂度 o(1) class Solution {public void rotate(int[] nums, i…

Python 如何使用 functools 模块

functools 模块是 Python 标准库中的一个重要模块,它提供了一些有用的高阶函数和工具,帮助开发者更轻松地操作和处理函数。functools 中的工具主要用于函数的缓存、包装、偏函数等功能。 1. functools 模块概述 functools 模块的设计目的是为了简化和增…

无人机+消防车:高楼灭火系统技术详解

“无人机消防车”高楼灭火系统技术是一种创新的消防解决方案,旨在解决高层建筑灭火难题。以下是对该技术的详细解析: 一、技术背景与需求 高层建筑数量多,火灾隐患多发。根据国家消防救援局发布的数据,高层建筑火灾频发&#xf…

MyBatis核心机制

实现MyBatis核心机制环境搭建 1.核心框架示意图 2.模块搭建 1.创建maven项目 2.引入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSc…

超维机器人在工业与能源领域的具身智能探索和应用

具身智能&#xff08;Embodied AI&#xff09;是指机器人能够通过其物理形态与环境的交互&#xff0c;进行感知、学习、决策和执行&#xff0c;从而完成复杂任务的能力。具身智能强调机器人不仅要具备感知环境和分析数据的能力&#xff0c;还要能够通过身体的行为和物理互动来适…

zabbix5.0与7.0版本区别 切换建议

Zabbix5.0和Zabbix7.0的区别 1. 性能和扩展性优化 1.1 高效的数据处理和存储 优化的数据库性能&#xff1a; Zabbix 7.0 在数据库层面进行了多项优化&#xff0c;以减少查询延迟和提高数据处理速度。这包括对数据库结构的改进和索引优化&#xff0c;使得大规模数据的读取和写…

Linux云计算 |【第二阶段】SECURITY-DAY3

主要内容&#xff1a; Prometheus监控服务器、Prometheus被监控端、Grafana监控可视化 补充&#xff1a;Zabbix监控软件不自带LNMP和DB数据库&#xff0c;需要自行手动安装配置&#xff1b;Prometheus监控软件自带WEB页面和DB数据库&#xff1b;Prometheus数据库为时序数据库&…

<数据集>翻越栏杆行为识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;512张 标注数量(xml文件个数)&#xff1a;512 标注数量(txt文件个数)&#xff1a;512 标注类别数&#xff1a;1 标注类别名称&#xff1a;[climbing] 使用标注工具&#xff1a;labelImg 标注规则&#xff1a;对类…

十五分钟两百行代码,手写一个vue项目全局通用的弹框

前言&#xff1a; 我们在写vue项目时&#xff0c;弹框是非常常用的组件&#xff0c;并且在同一个项目中&#xff0c;弹框大多类似。所以我们可以抽离封装出一个通用的弹框&#xff1b; 因为vue3可向下兼容&#xff0c;所以作者这边会使用vue2的写法&#xff0c;vue3写法大同小…

vue3 语法糖<script setup>

在 Vue 3 中&#xff0c;<script setup>是一种新的语法糖&#xff0c;它极大地简化了组件的编写方式。 <script setup> 是在单文件组件 (SFC) 中使用组合式 API 的编译时语法糖。当同时使用 SFC 与组合式 API 时该语法是默认推荐。 基本概念 简洁的语法&#xf…

使用Qg波形快速提取模型参数的新方法以准确捕获SiC MOSFET在不同负载条件下的开关特性

来源&#xff1a;Novel Methodology for Fast Model Parameter Extracting Using Qg Waveforms to Accurately Capture Switching Characteristics of SiC MOSFET Under Various Load Conditions&#xff08;ISPSD 24年&#xff09; 摘要 本文提出了一种快速提取模型参数的方…