自我激励学习提升语言模型的推理能力

news2024/11/24 9:52:12

随着人工智能技术的快速发展,语言模型(LMs)在各种下游任务中展现出了卓越的能力。特别是在少样本(few-shot)和零样本(zero-shot)学习环境中,通过吸收特定任务的指令和示例,这些模型已经引起了广泛关注。然而,要提升模型的推理能力,大规模高质量的训练数据是不可或缺的。由于注释成本高昂,包含推理步骤的高质量数据集相对稀缺。为了解决这一问题,本文提出了一种自我激励学习框架,旨在通过自动化地生成现有数据集上的推理步骤,激发模型自身的潜力。

自我激励学习方法的动机。图中显示了“Rationale”和“Answer”是由语言模型生成的,主要思想是:(1) 正确的给定答案更有可能产生正确的推理过程;(2) 导致正确答案的推理过程优于导致错误答案的推理过程

方法

自我激励学习框架是一种创新的方法,它通过激发模型自身的潜力,在现有数据集上自动生成推理过程。这种方法的核心在于利用模型产生的内在偏好——即能够产生正确答案的推理过程应当优于那些导致错误答案的推理过程。自我激励学习框架通过三个主要步骤实现:推理过程生成、推理收集和模型训练。

这张图概述了自我激励学习方法的三个主要步骤:推理过程生成、推理收集和模型训练。图中详细描述了如何使用少量样本CoT生成推理过程,如何通过比较给定答案和最终答案来过滤推理过程,以及如何使用这些数据进行模型训练

在推理过程生成阶段,框架采用了Few-shot-CoT技术来生成推理过程。具体来说,对于每个给定的任务,模型会根据问题和提供的答案(无论是正确还是错误)生成一系列的推理步骤。这些推理步骤随后被用来生成最终的答案。通过这种方式,模型能够学习如何基于不同的答案生成相应的推理过程。

生成推理过程和最终答案的提示模板。表格中有两个部分,一个是使用问题和给定答案生成推理过程,另一个是使用问题和生成的推理过程生成最终答案
表格提供了一个示例,展示了如何使用正确答案和错误答案生成更好的和更差的推理过程。表格中给出了一个问题和两个不同的答案,以及基于这些答案生成的推理过程

接下来,在推理收集阶段,生成的推理过程会根据其质量进行筛选。这一过程涉及到评估给定答案和最终答案与正确答案之间的一致性。如果两者都正确,则相应的推理过程被归类为高质量;如果都错误,则被归类为低质量。此外,还会根据推理内容、标签引用和数值准确性等标准进行进一步的筛选,以确保推理过程的相关性和准确性。

在模型训练阶段,筛选出的高质量推理过程被用来训练监督式微调模型(SFT Model)。该模型通过最小化语言建模损失来优化其参数。同时,使用不同质量的推理过程来训练奖励模型(RM),该模型能够评估生成的推理过程的质量。通过结合SFT Model和RM,模型利用PPO算法进行强化学习,进一步提升其生成高质量推理过程的能力。

自我激励学习框架的优势在于它减少了对外部大型模型或手动注释的依赖,通过模型自身的学习和优化,提高了推理能力。这种方法不仅提高了模型在复杂推理任务上的性能,而且具有很好的通用性和可扩展性。通过这种方式,即使是较小的模型也能够通过自我生成的高质量推理过程来提升其解决问题的能力。

实验

研究者们选择了8个数据集来评估自我激励学习框架,这些数据集覆盖了三类复杂的推理任务:数学问题求解、常识推理和策略推理。这些数据集包括了单步方程求解(SingleEq)、加减法问题(AddSub)、多步算术问题(MultiArith)、SVAMP、GSM8K、日期理解(Date Understanding)、常识问答(CommonSenseQA)和策略问答(StrategyQA)。这些任务和数据集的多样性确保了实验结果的广泛适用性和说服力。

在研究中使用的8个数据集,包括它们的任务类型、样本数量、测试样本数量、数据分割比例、许可证和参考文献

为了展示自我激励学习框架的优势,研究者们将其与几种基线方法进行了比较。这些基线方法包括直接使用开源和闭源的大型语言模型生成推理步骤,以及使用这些模型进行微调的方法。还包括了仅使用少量样本提示(Few-shot-CoT)的方法,以及在不同数据集上微调后使用CoT方法生成推理步骤的方法。

实验的实现使用Llama2 7B模型,并采用了Lora技术进行模型的微调。模型训练的过程,包括如何使用高质量的推理步骤数据来训练监督式微调模型(SFT Model),以及如何使用不同质量的推理步骤数据来训练奖励模型(RM)。

实验结果显示,自我激励学习框架在所有8个任务中都取得了显著的性能提升。在某些任务中,该框架的性能甚至超过了目前最先进的模型,如text-davinci-002。这些结果以百分比准确率的形式呈现,清楚地展示了自我激励学习框架相对于基线方法的改进。

不同模型和方法在8个任务中的准确率比较。表格中列出了不同的基线模型、在Llama2 7B上的方法,以及本文提出的方法

研究者们探讨了奖励模型得分与推理质量之间的关系,发现得分较高的推理步骤更可能是正确的。研究者还分析了给定答案与推理过程的一致性,以及强化学习如何帮助模型从错误中学习并提高其推理能力。通过这些分析,研究者们进一步证明了自我激励学习框架的有效性,并揭示了其在不同方面提升模型性能的潜力。

在SingleEq数据集上的分析,包括奖励模型得分阈值与正确推理比率和数量的关系,PPO/RM模型的准确率和平均得分随时间的变化,以及在PPO过程中每个时期的RM模型得分分布

自我激励学习框架提供了一种任务通用的方法,用于在减少对大型模型和手动注释依赖的同时,提升语言模型的推理性能。通过一系列实验证明了该方法能够在不同类别的复杂推理任务中显著提高模型性能。

论文链接:https://arxiv.org/abs/2404.07017

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1835859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA设置nacos权重

本地开发的时候,连接开发环境的NACOS,有时候会有其他请求发送到自己的机子上,由于本地代码会有更新不及时的情况,导致代码报错,同时也会影响本地的日志输出,此时只要在idea设置 spring.cloud.nacos.discov…

icloud 邮箱登入失败

APP NAME mail2HOSTING APP NAME cloudos2CLIENT TIME Tue Jun 11 2024 09:00:47 GMT0800 (中国标准时间) (1718067647802)USER AGENT Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36HOSTNAME www.icloud.…

掌握这三点软文营销技巧:轻松助力品牌传播

在营销方式层出不穷的今天,软文推广已不再只是简单的文字堆砌,而是成为了品牌与消费者深度沟通的桥梁。随着消费者获取信息的渠道越来越多元化,软文推广也迎来了新的趋势和挑战。今日投媒网将与您分享如何在新时代背景下,提升软文…

空气质量预报模式系统WRF-CMAQ

空气污染问题日益受到各级政府以及社会公众的高度重视,从实时的数据监测公布到空气质量数值预报及预报产品的发布,我国在空气质量监测和预报方面取得了一定进展。随着计算机技术的高速发展、空气污染监测手段的提高和人们对大气物理化学过程认识的深入&a…

已解决:geecg Column ‘id‘ in order clause is ambiguous

报错:Column id in order clause is ambiguous; MyBatis关联查询,相同字段名冲突,sql语句已经使用别名但仍然报错。 分析:写mapper映射文件时,在写到一对一关联,一对多关联时,由于两…

Maven 配置学习:存在两个本地私服如何配置

Maven 配置学习:存在两个本地私服如何配置 目录 Maven 配置学习:存在两个本地私服如何配置解释:1.本地仓库位置:2.Profiles 定义:3.Repositories 定义顺序:4.Active Profiles: 操作步骤&#xf…

掌握rpc、grpc并探究内在本质

文章目录 rpc是什么?又如何实现服务通信?理解rpcRPC的通信过程通信协议的选择小结RPC VS Restful net_rpc实践案例net/rpc包介绍创建服务端创建client 看看net_rpc的通信调度实现的内部原理明确目标基于自己实现的角度分析我会怎么做代码分析 grpc介绍与…

电脑数据恢复,掌握4个方法,恢复数据很简单!

在数字化浪潮席卷全球的今天,电脑数据已成为我们生活与工作中不可或缺的一部分。然而,当这些数据因各种原因意外丢失或损坏时,那种失落与无助的感觉常常令人倍感焦虑。 想象一下,你正在为一项重要项目加班加点,突然电…

PHP基础语法【上】

文章目录 一、环境安装二、代码应该写在哪里?三、什么是错误?四、变量无需声明变量变量命名规则变量的作用域可变变量 五、常量常量的定义常量的特性 六、数据类型NULL 空值Boolean 布尔类型Integer 整型Float 浮点型String 字符串Array 数组Object 对象…

Matlab复数相关

文章目录 MATLAB复数相关知识相关函数 MATLAB复数相关知识 相关函数 假定存在复数zabi 函数说明real(z)返回复数z的实部(a)imag(z)返回复数z的虚部(b)abs(z)返回复数的模即|z| ( ( a 2 ) ( b 2 ) \sqrt{(a^2)(b^2)…

国内docker镜像加速

自己注册一个阿里云或者华为云的账户,搜索镜像 点击开通,再点击镜像加速器,可以看到自己的加速器地址,然后替换就可以了。再去pull即可成功,但是响应还是要慢一点

神经网络模型---AlexNet

一、AlexNet 1.导入tensorflow库,这里给简称为tf库 import tensorflow as tf from tensorflow.keras import datasets, layers, modelsdatasets:是用于训练和测试机器学习模型的数据集合 layers:是构建神经网络模型的关键组成部分 models&a…

从实例出发,深入探索Java SE中数组的易错点

哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…

ICMR 2024在普吉岛闭幕,学者与泰国舞者共舞,燃爆全场

惊艳!ICMR 2024在普吉岛闭幕,学者与泰国舞者共舞,燃爆全场! 会议之眼 快讯 ICMR(International Conference on Multimedia Retrieval)即国际多媒体检索会议,是一个专注于多媒体检索领域的顶级…

【SkiaSharp绘图05】SKPaint详解(三)之ImageFilter(颜色、组合、膨胀、移位、光照、反射、阴影、腐蚀、变换)

文章目录 ImageFilterCreateColorFilter 颜色滤镜CreateCompose 滤镜组合CreateDilate 膨胀滤镜CreateDisplacementMapEffect 移位映射CreateDistantLitDiffuse 光照CreateDistantLitSpecular 反射光照CreateDropShadow阴影效果CreateDropShadowOnly 只阴影效果CreateErode腐蚀…

大模型基础知识:探索人工智能的巨轮

人工智能大模型,这个在近年来频繁出现在科技新闻和学术论坛的热门词汇,已经成为了推动人工智能技术发展的关键力量。这些大模型,如OpenAI的GPT-3、谷歌的BERT、百度的ERNIE等,以其强大的性能和广泛的应用范围,引起了广…

【STM32】GPIO简介

1.GPIO简介 GPIO是通用输入输出端口的简称,简单来说就是STM32可控制的引脚,STM32芯片的GPIO引脚与外部设备连接起来,从而实现与外部通讯、控制以及数据采集的功能。 STM32芯片的GPIO被分成很多组,每组有16个引脚。 最基本的输出…

Flutter 小技巧之面试题里有意思的异步问题

很久没更新小技巧系列了,本次简单介绍一下 Flutter 面试里我认为比较有意思的异步基础知识点。 首先我们简单看一段代码,如下代码所示,是一个循环定时器任务,这段代码里: testFunc 循环每 1 秒执行一次 asyncWorkasy…

缓存技术实战[一文讲透!](Redis、Ecache等常用缓存原理介绍及实战)

目录 文章目录 目录缓存简介工作原理缓存分类1.按照技术层次分类2.按照应用场景分类3.按照缓存策略分类 应用场景1.硬件缓存2.软件缓存数据库缓存Web开发应用层缓存 3.分布式缓存4.微服务架构5.移动端应用6.大数据处理7.游戏开发 缓存优点缓存带来的问题 常见常用Java缓存技术1…

npm install cnpm -g 报错4048

npm install cnpm -g 报错4048 设置淘宝镜像: 报错如下: 其他博主提供的方法都尝试了,比如管理员权限打开终端,删除.npmrc文件,清除缓存npm cache clean -f等都试了无效,最后怀疑是npm和cnpm版本不对应&…