微软卡内基梅隆大学:无外部干预,GPT4等大语言模型难以自主探索

news2024/11/24 5:57:21

目录

引言:LLMs在强化学习中的探索能力探究

研究背景:LLMs的在情境中学习能力及其重要性

实验设计:多臂老虎机环境中的LLMs探索行为

实验结果概览:LLMs在探索任务中的普遍失败

成功案例分析:Gpt-4在特定配置下的探索成功

探索失败的原因分析

相关工作回顾:LLMs能力研究的相关文献

讨论与未来工作方向

总结


引言:LLMs在强化学习中的探索能力探究

在强化学习和决策制定的核心能力中,探索(exploration)扮演着至关重要的角色。探索能力指的是智能体为了评估不同选择并减少不确定性而有意识地收集信息的能力。近年来,大型语言模型(Large Language Models,简称LLMs)在多种任务中展现出了令人瞩目的性能,特别是在无需训练干预的情况下,通过上下文学习(in-context learning)来解决问题。然而,LLMs在没有额外训练干预的情况下是否能够展现出探索行为,尤其是在简单的多臂老虎机(multi-armed bandit,简称MAB)环境中,这一问题仍然不甚明了。

本研究通过将LLMs部署为代理,放置在MAB环境中,通过LLM提示(prompt)完全指定环境描述和交互历史,来探究LLMs的探索能力。实验结果显示,只有在使用了特定提示设计的情况下,LLMs才能表现出满意的探索行为。这一发现提示我们,为了在更复杂的环境中获得理想的行为,可能需要非平凡的算法干预,例如微调或数据集策划。本文的研究为理解LLMs作为决策制定代理的潜力提供了新的视角,并指出了未来研究的方向。

1313d01709709f273db74ee6e8359411.jpeg

论文标题:Can large language models explore in-context?

机构:Microsoft Research, Carnegie Mellon University

论文链接:https://arxiv.org/pdf/2403.15371.pdf

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

研究背景:LLMs的在情境中学习能力及其重要性

在人工智能领域,大型语言模型(LLMs)的出现标志着一个新的时代。这些模型,如GPT-3.5、GPT-4和Llama2,已经展示了在没有参数更新的情况下,通过简单地在模型提示(prompt)中指定问题描述和相关数据,即所谓的“情境中学习”(in-context learning),来解决问题的能力。这种能力的出现并非由于模型被显式地训练来执行这些任务,而是因为这些算法能够从大规模训练语料库中提取出来,并在大规模应用时显现出来。

情境中学习的发现自GPT-3模型以来,已经成为研究的热点。尽管对于情境中的监督学习(ICSL)的理论进展仍处于初级阶段,但我们对如何在实践中使用ICSL的理解正在迅速形成。然而,除了监督学习之外,许多应用要求使用机器学习模型进行下游决策制定。因此,情境中的强化学习(ICRL)和序列决策制定成为了自然的下一个研究前沿。LLMs已经被用作从自然科学实验设计到游戏玩耍等应用的决策制定代理,但我们对ICRL的理论和操作理解远不如ICSL。

决策制定代理必须具备三个核心能力:泛化(对于监督学习是必需的)、探索(为了收集更多信息而做出可能在短期内不是最优的决策)和规划(考虑决策的长期后果)。本文关注探索,即有意识地收集信息以评估替代方案和减少不确定性的能力。最近的一系列论文证明了当LLMs被明确训练以产生包括探索在内的强化学习行为时,变换器模型会表现出情境中的强化学习行为。然而,这些发现并未阐明是否在标准训练方法下获得的通用LLMs中会表现出探索行为,这引出了以下基本问题:LLMs是否能够作为通用的决策制定代理。

实验设计:多臂老虎机环境中的LLMs探索行为

1. 多臂老虎机问题简介

多臂老虎机(MAB)是一种经典且被广泛研究的强化学习问题,它突出了探索与利用之间的权衡,即根据可用数据做出最佳决策。MAB的简单性、对RL的中心性以及对探索与利用的关注使其成为系统研究LLMs情境中探索能力的自然选择。

2. 实验中的提示设计多样性

我们使用LLMs作为在MAB环境中操作的决策制定代理,通过提示来与MAB实例进行交互。我们的提示设计允许多种独立选择,包括“场景”(例如作为选择按钮的代理或作为向用户显示广告的推荐引擎)、“框架”(明确提示需要平衡探索和利用的需要或保持中立)、历史呈现方式(作为一系列原始列表或通过每个臂的播放次数和平均奖励进行总结)、最终答案的请求方式(单个臂或臂的分布)以及是否允许LLM提供“思维链”(CoT)解释。这些选择共同导致了32种提示设计。

我们发现,只有一种配置(即提示设计和LLM配对)在我们的实验中表现出令人满意的探索行为。所有其他配置都表现出探索失败,未能显著概率地收敛到最佳决策(臂)。我们得出结论,尽管当前一代LLMs在适当的提示工程下或许可以在简单的RL环境中探索,但可能需要进一步的训练干预,例如微调或数据集策划,以赋予LLMs在更复杂环境中所需的更复杂的探索能力。

5e73a3f0c547be044d75f1ea9b3c8774.jpeg

8ee75de0bbb2c61b23994aa4734a48ff.jpeg

实验结果概览:LLMs在探索任务中的普遍失败

在研究大型语言模型(LLMs)在探索任务中的表现时,我们发现它们在没有额外训练干预的情况下普遍无法有效地进行探索。我们使用了多种提示设计,部署了Gpt-3.5、Gpt-4和Llama2作为代理,在多臂老虎机环境中进行实验。实验结果显示,除了一种特定配置外,其他所有配置都未能展现出稳健的探索行为。这些配置中,即使包含了链式推理(chain-of-thought reasoning)但没有经过外部总结的历史记录,也未能成功引导模型进行有效探索。这表明在更复杂的环境中,如果无法进行外部总结,LLMs可能无法进行有效的探索。

成功案例分析:Gpt-4在特定配置下的探索成功

成功配置的详细介绍

在我们的实验中,唯一一种成功的配置涉及到Gpt-4模型,结合了增强型提示设计。这种配置包括:使用按钮场景(buttons scenario)、建议性框架(suggestive framing)、外部总结的互动历史(summarized interaction history),以及要求模型使用零次射击链式推理(zero-shot chain-of-thought reasoning)。此外,该配置使用了温度参数为0,以确保模型的确定性行为,从而隔离了模型自身的“有意”探索行为。

成功配置与基线算法的对比

与基线算法相比,Gpt-4在这种配置下的表现与UCB(上置信界算法)和TS(汤普森采样算法)等具有理论保证的标准多臂老虎机算法有着根本的不同。在实验中,Gpt-4的这种配置避免了后缀失败(suffix failures),并且在奖励方面与TS相当。这表明,通过精心设计提示,最新的LLMs确实具备稳健探索的能力。然而,这种配置如果没有外部总结,就会失败,这进一步表明在需要外部算法设计的复杂环境中,LLMs可能无法进行有效探索。因此,我们得出结论,为了在复杂环境中赋予LLMs更复杂的探索能力,可能需要进行非平凡的算法干预,如微调或数据集策划。

探索失败的原因分析

1. 后缀失败与均匀失败的定义与检测

在研究大型语言模型(LLMs)的探索能力时,我们发现了两种主要的失败模式:后缀失败和均匀失败。后缀失败指的是在一系列尝试之后,模型未能选择最佳选项,即使在后续的尝试中也是如此。这种情况通常发生在某个时间段的后半部分,表明模型在初期的探索之后未能继续探索。例如,Gpt-4在基本提示设计下的后缀失败率超过60%。均匀失败则是指模型在选择时表现出近似均匀的行为,未能区分表现好的和表现差的选项。

为了检测这些失败模式,我们引入了两个代理统计量:SuffFailFreq和MinFrac。SuffFailFreq衡量的是在一定时间段内未选择最佳选项的频率,而MinFrac则衡量的是模型选择每个选项的最小比例。通过这些统计量,我们可以在实验的适度规模下检测长期探索失败,即使在标准性能度量(如奖励)过于嘈杂时也是如此。

2. 失败配置的行为模式

我们发现,除了一种特定的配置外,大多数LLM配置都表现出探索失败。这些配置未能在显著的概率下收敛到最佳选项。唯一的例外是Gpt-4结合增强提示、外部总结的交互历史和零次射击链式推理(chain-of-thought reasoning)的配置。这表明,只有在提示设计得当时,LLMs才能表现出强大的探索能力。然而,没有外部总结的相同配置失败了,这表明在更复杂的环境中,LLMs可能无法进行探索,因为在这些环境中外部总结历史是一个非平凡的算法设计问题。

相关工作回顾:LLMs能力研究的相关文献

在研究LLMs的能力时,已有大量文献集中于探索这些模型的各种能力。例如,Brown等人(2020)发现了LLMs的在上下文中学习(in-context learning)的能力,这是一种使得预训练的LLM能够通过在LLM提示中完全指定问题描述和相关数据来解决问题的能力。Garg等人(2022)通过在提示中包含数值协变量向量和标量目标,然后在提示中包含新的协变量向量来获得类似回归的预测,展示了LLMs的这一能力。

讨论与未来工作方向

对LLMs探索能力的启示

在探索Large Language Models(LLMs)在强化学习和决策制定中的探索能力时,我们发现现有的LLMs并不能在没有显著干预的情况下稳定地进行探索。在多臂老虎机(multi-armed bandit, MAB)环境中,只有Gpt-4结合链式推理(chain-of-thought reasoning)和外部总结的交互历史,表现出了令人满意的探索行为。这一发现提示我们,尽管LLMs在设计合适的提示(prompt)时能够表现出探索能力,但在更复杂的环境中,这种能力可能会受限,因为外部总结历史在这些环境中可能是一个复杂的算法设计问题。

提高LLMs决策能力的潜在干预措施

为了提高LLMs在复杂环境中的决策能力,可能需要采取非平凡的算法干预措施,例如微调(fine-tuning)或数据集策展(dataset curation)。这些干预措施的目的是为LLMs赋予更复杂的探索能力,使其能够在更具挑战性的设置中有效地作为决策代理。此外,我们可能需要进一步的方法论或统计进步,以便成本效益地诊断和理解LLM代理的行为。

总结

本文的研究表明,当前代LLMs在没有适当的提示工程或训练干预的情况下,可能无法在简单的强化学习环境中进行探索。尽管Gpt-4在特定配置下展现了一定的探索能力,但这一成功配置依赖于外部总结的交互历史和增强的链式推理提示,这在更复杂的环境中可能不可行。因此,我们得出结论,为了在复杂环境中赋予LLMs更高级的探索能力,可能需要进行更深入的算法干预研究。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1588489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TS在interface和type的区别

在TypeScript中,interface和type都是用来定义类型的方式 (1)语法: interface 关键字用于定义接口,一般定义对象类型,可以描述对象的形状,即一个对象应该具有哪些属性和方法。interface可以声明对象应该具有的结构和属性。 type 关键字用于…

Java 中文官方教程 2022 版(三十二)

原文:docs.oracle.com/javase/tutorial/reallybigindex.html 一个基本的打印程序 原文:docs.oracle.com/javase/tutorial/2d/printing/printable.html 本节解释了如何创建一个基本的打印程序,显示打印对话框,并将文本“Hello Worl…

导入芯片原厂SDK Mirror源码到gerrit

下载镜像代码 repo init --mirror --repo-url ssh://xx/repo.git -u ssh://xx/manifests.git -m manifest.xml repo sync 创建AOSP project 对All Project权限修改 创建repo 在刚才下载的codebase根目录执行如下命令: repo forall -c echo $REPO_PROJECT; ssh -p 29…

Linux使用docker安装RocketMQ并登录管理界面

Linux使用docker安装RocketMQ并登录管理界面 1、创建 /opt/rocketmq/docker-compose.yml和/opt/rocketmq/broker.conf两个配置文件 2、docker-compose.yml,并配置管理页面端口为8090 version: 3.5 services:rmqnamesrv:image: foxiswho/rocketmq:servercontainer_…

Ubuntu 22.04进行远程桌面连接

文心一言 Ubuntu 22.04进行远程桌面连接,无论是连接到Windows 10还是另一个Ubuntu 22.04,都可以通过不同的方式实现。以下是具体的步骤: 连接到Windows 10 在Windows 10上开启远程桌面功能:首先,需要在Windows 10上…

linux系统特殊符号

分号可以对命令分割,如下图,单独使用ls与pwd,与使用分号进行分割 井号可以将后面内容注释掉,以及作为root身份提示符 $可以取出变量的值,同时也是普通用户身份提示符 反斜杠可以将特殊字符转义为普通字符 花括号可以用…

(五)PostgreSQL的管理工具pgAdmin

PostgreSQL的管理工具pgAdmin pgAdmin 是一款流行的开源图形界面管理工具,用于 PostgreSQL 数据库的管理和开发。它提供了一个易于使用的界面,允许用户执行各种数据库任务,如创建和修改数据库对象(表、视图、索引等)、…

一文看懂标准版和Pro版的区别

在CRMEB的众多产品中,有这样两款产品经常被拿来比较,它们就是CRMEB的标准版和Pro版商城系统,今天,我们就来盘一下这两款系统之间究竟有哪些不同。 1、Pro版系统性能更卓越 CRMEB Pro版采用Tp6 SwooleRedis高性能框架开发&#…

组件与组件之间的传递-事件总线

两个组件之间的数据传递(属于非父子组件通讯) 当项目中只是两个组件的少量数据传递时使用事件总线这种方法会比较方便,但当遇到大量数据传递时推荐使用vuex 思路 组件与组件之间不能直接传递,这是候可以创建一个EventBus.js文件…

【火猫TV】Spirit.Collapse-不清楚队伍的问题出在哪里

1、近日Spirit战队三号位选手Collapse在精英联赛期间接受采访时表示:不清楚队伍目前的问题出在哪里,可能只是因为我们如今的状态和表现都不太好吧。转载:火猫TV资讯 【队伍目前的问题】 “我不是很清楚目前我们的问题出在哪里,可…

2024年,怎么开通一个属于自己的抖店?

我是王路飞。 抖店,依旧是普通人做抖音最好的渠道。 至于短视频直播带货,门槛较高,尤其是在当前的环境下,个人是很难竞争的过那些达人团队的。 不管是在门槛、操作、还是利润回报等方面,抖店都是一个不错的选择。 …

奎芯科技:智能时代的芯片上游企业如何突破?

半导体IP(Intellectual Property,知识产权),通常也称作IP核(IP core),指芯片设计中预先设计、验证好的功能模块,主要服务于芯片设计,因部分通用功能模块在芯片中被反复使…

五:函数基础:概念、基础语法、库函数与自定义函数

本章学习链接如下: 1.函数的概念 函数是执行特定任务的自包含代码块,它可以接受输入,处理输入,并产生输出。函数的使用提高了代码的重用性、模块性和可读性。C语言中的函数可以分为两大类:库函数和用户定义函数。 2.函…

为什么程序员老婆都很漂亮?网友:new出来的。。。

最近,我被一个问题吸引了,一网友提问:“为何程序员老婆都很漂亮?”哈哈,说到这个话题,我瞬间就不困了。 评论区的网友们也非常来劲儿。有位网友打趣说:“因为是自己用代码new出来的,…

换换换 码题集

难度:钻石 时间限制:1秒 占用内存:128M 输入 5 5 5 car van track dog cat 1 2 4 5 3 2 5 1 1 4 van car track dog cat 输出 5 3 2 4 1 原始思路&#xff1a;for循环&#xff0c;但会运行超时 #include<bits/stdc.h> using namespace std; int main(){int n,m,t;cin…

校园论坛系统

文章目录 校园论坛系统一、项目演示二、项目介绍三、10000字论文参考四、系统部分功能截图五、部分代码展示六、底部获取项目和10000字论文参考&#xff08;9.9&#xffe5;&#xff09; 校园论坛系统 一、项目演示 校园论坛系统 二、项目介绍 基于springbootvue的前后端分离…

网上一个叫阳哥的网红分享的人力RPO项目靠谱吗?

在抖音平台上&#xff0c;阳哥以其专业的知识和独到的见解&#xff0c;吸引了大量粉丝的关注。最近&#xff0c;他分享的人力RPO项目更是引起了广泛关注。那么&#xff0c;阳哥介绍的这个人力RPO项目到底靠不靠谱呢?本文将从四个方面进行分析和佐证。 首先&#xff0c;阳哥作为…

ARM/X86+FPGA轨道交通/工程车辆行业的解决方案

深圳推出首条无人驾驶地铁—深圳地铁20号线&#xff0c;可以说是深圳地铁的一次开创性的突破。智能交通不断突破的背后&#xff0c;需要很严格的硬件软件等控制系 统&#xff1b;地铁无人驾驶意味着信号系统、通信系统、综合监控系统、站台屏蔽门工程等项目必须严格执行验收。…

路由器端口映射是什么意思?

路由器端口映射是一种网络配置技术&#xff0c;在私有网络中允许外部网络访问特定的服务或应用程序。通过将路由器的端口映射到内部客户端设备&#xff0c;可以实现从公共网络访问内部网络资源的目的。 天联组网介绍 天联是一款异地组网内网穿透产品&#xff0c;由北京金万维科…

【全网最详细】如何保证缓存和数据库一致性

如何保证缓存和数据库一致性&#xff0c;这是一个老生常谈的话题了。 但很多人对这个问题&#xff0c;依旧有很多疑惑&#xff1a; 到底是更新缓存还是删缓存&#xff1f;到底选择先更新数据库&#xff0c;再删除缓存&#xff0c;还是先删除缓存&#xff0c;再更新数据库&…