深度强化学习+大模型综述Survey on Large Language Model-Enhanced Reinforcement Learning

news2025/1/12 10:56:27

cfbca9c23e4944648a8858a4e3a1469d.png

论文地址:[2404.00282] Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods (arxiv.org)

摘要

对 LLM 增强 RL 中现有文献进行了全面的回顾,并总结了其与传统 RL 方法相比的特征,旨在阐明未来研究的研究范围和方向。利用经典的代理-环境交互范式,我们提出了一种结构化分类法来系统地对RL中llm的功能进行分类,包括四个角色:信息处理器、奖励设计者、决策者和生成器

INTRODUCTION

概念

强化学习 (RL) 是一种强大的学习范式,专注于控制和决策,其中代理通过与环境的试错交互来学习优化指定的目标。但是当应用于涉及语言和视觉信息的实际应用中时,深度 RL 算法面临着重大挑战,因为代理必须联合学习特征和控制策略。

目前深度强化学习存在的一些挑战

1、采样效率低下

样本效率低下:深度 RL 代理需要与环境的广泛交互来学习有效的策略,但是对于昂贵或有风险的数据收集场景是不切实际的,实际机器人或无人驾驶收集一些特殊的数据需要付出一定代价(如碰撞的数据等),所以深度强化学习训练机器人一般都是sim2real,而且需要大量的时间来收集熟悉,还需要克服虚拟场景到实际场景的迁移差别性;

2、奖励函数设计

奖励函数设计: 策略学习的性能在很大程度上取决于奖励函数的设计(为什么这样说呢,DRL的本质是将环境状态映射为动作决策量,并使得累积回报值最大化,而累积汇报和每一次的状态-动作对都是相关的,即预先定义的奖励模型,智能体执行一次动作转移到下一个状态,并得到一个奖励值,通过回溯一个eposide的过程得到每一步的回报值)。

55bdaaad24ad4d19b6c46798cb5c48ad.png

而奖励函数需要事先人为设计好,才能让智能体朝着期望的方向去更新深度强化学习的参数,不过这需要大量的人为测试,需要对任务进行深入的理解,进行手动试错(很自然的一个想法:是否需要一个奖励函数模型,让神经网络来拟合一个奖励函数,不断调整,而不是一个固定的分段函数);

第二章背景知识中提到的:在反馈有限的稀疏奖励设置中,奖励塑造对于引导代理走向有意义的行为至关重要;然而,这引入了无意中将代理偏向次优策略或过度拟合特定场景的风险。相反,对于复杂的任务,高性能奖励函数通常需要大量的手动试错,因为大多数设计的奖励是次优的或导致意外的行为。

3、泛化性

泛化性: 深度RL代理的泛化性仍然令人生畏,因为它们经常难以适应新的、看不见的环境,限制了代理在动态现实世界设置中的适用性。

第二章背景知识中提到的:核心问题在于 RL 算法能够将学习到的知识或行为转移到新的、以前未见过的环境中的能力。RL 模型通常在模拟或特定设置中进行训练,在这些场景中表现出色,但在面对新颖或动态条件时难以保持性能。这种限制阻碍了 RL 在现实世界情况下的实际应用,其中环境很少是静态的或完全可预测的。实现泛化要求模型不仅要学习特定的任务解决方案,还要理解可以适应一系列情况的基本原理。

4、自然语言理解能力

自然语言理解:深度 RL 在自然语言处理和理解场景中较困难,可以理解为在强化学习 (RL) 和模仿学习 (IL) 等主要范式中使用传统方法训练的代理通常缺乏这种能力,并且难以从丰富多样的环境的交互中有效地学习。

5、Multi-modal Reinforcement Learning(背景中提到的)

多模态数据的集成挑战 RL 范式,因为代理必须同时学习如何处理复杂的多模态数据并优化环境中的控制策略。需要解决自然语言理解和基于视觉的奖励函数设计等问题。(智能体需要同时处理模态之间的特征统一性和特征映射的决策,利用奖励机制去更新特征网络未必是明智的选择)。

大型语言模型 (LLM) 

与小型语言模型相比,llm具有在小型语言模型中不存在的能力,如上下文学习、推理能力等。此外,利用大量的训练数据,预训练的llm配备了广泛的世界知识。得益于这些功能,语言模型的应用已经从语言建模转移到任务解决,从基本的文本分类和情感分析到复杂的高级任务规划和决策。

这里补充下大模型的定义:

大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。可以参考下述论文:

4348af4592fa4e93beffef48ae8c258a.png

论文链接:[2303.18223] A Survey of Large Language Models (arxiv.org)

大模型的改进上述RL的挑战的角度

对于样本效率低下: LLM 可用于通过提供丰富、上下文明智的预测或建议来提高 RL 代理的样本效率,从而减少对广泛环境交互的需求。

对于奖励函数设计:LLM可以帮助构建更微妙和有效的奖励函数,通过提供对复杂场景的更深入理解来增强学习过程。

对于泛化性:利用基于语言的反馈来提高 RL 策略在看不见的环境中的泛化能力。

对于自然语言理解:使用 LLM 将复杂的基于自然语言的指令转换为 RL 代理的简单任务指定语言。

主要贡献

LLM-enhanced RL paradigm 

总结了特征并提供了一个相应的框架,清楚地说明了 1) 如何将 LLM 集成到经典代理-环境交互中,以及 2) LLM 为传统 RL 范式提供的多方面增强。

结构化分类法

信息处理器、奖励设计者、决策者和生成器.

工作回顾

Background of Large Language Models

优点

上下文学习

上下文学习能力消除了显式模型再训练或梯度更新的需要,因为它可以通过输入提示示例或相关知识来生成更好的响应或执行任务。具体来说,与任务相关的文本包含在提示中作为上下文信息,帮助 LLM 理解情况并执行指令。

Instruction Following

大型语言模型能够在没有明确示例的情况下,理解和遵循针对新任务的指令,并且能够有效地泛化到之前未遇到的任务。模型能够泛化到训练期间未曾遇到的任务,而不需要针对每个新任务提供大量的示例。

逐步推理

大型语言模型可以通过复杂的提示策略,如思维链(CoT)、思维树(ToT)和思维图(GoT),有效地解决复杂的任务。这些策略将解决问题的过程结构成顺序或分层步骤,促进更清晰和可理解的推理途径。此外,为规划而设计的提示使llm能够输出反映思想或行动进展的序列。

LARGE LANGUAGE MODEL-ENHANCEDREINFORCEMENT LEARNING

定义

LLM-enhanced RL是指利用预先训练的知识固有AI模型的多模态信息处理、生成、推理等能力来辅助RL范式的方法。利用具有一般知识的模型,这意味着与其他数据驱动模型相比,该模型在学习过程中具有相当大的能力水平和更好的泛化。此外,LLM 增强的 RL 仍然使用 AI 模型,并且可以通过 RL 交互数据持续学习以提高其能力。

Framework

LLM处理状态信息,重新设计奖励,帮助行动选择,并在行动选择后解释策略。

6b88797a79654b62a0f8c42a86ebf6ae.png

一方面,当代理从环境中接收状态和奖励信息时,LLM 能够处理或修改信息以过滤不必要的基于自然语言的信息或设计适当的奖励以加速学习过程,基于自然语言理解和推理能力。

另一方面,当代理即将根据观察选择一个动作时,LLM可以通过模拟世界模型或作为策略网络来辅助动作选择过程,根据建模能力和常识知识生成合理的动作。此外,在动作选择过程之后,集成状态、奖励和动作信息,LLM可以解释策略选择背后的潜在可能原因。划分四个不同的LLM角色,包括信息处理器、奖励设计者、生成器和决策者。

LLM-enhanced RL paradigm

多模态信息理解:LLM 增强了 RL 代理对涉及多模态信息的场景的理解,使它们能够更有效地从自然语言和视觉数据中描述的任务或环境中学习。

多任务学习和泛化:受益于多学科预训练知识,LLM 通过设计奖励或生成参考动作来增强 RL 代理,促进多任务学习和泛化。

提高样本效率:鉴于固有的探索性性质,RL 范式需要大量样本来学习。预训练的LLM可以通过模拟或利用先验知识来提高RL的样本效率。

长视距处理: 由于信用分配问题,随着轨迹长度的增加,RL变得更具挑战性。llm可以将复杂的任务分解为子任务,以帮助RL代理在更长的时间范围内规划,帮助复杂、多步任务的决策过程,如Minecraft游戏。

奖励信号生成: 基于上下文理解和领域知识,llm有助于奖励塑造和奖励函数设计,帮助引导RL在稀疏奖励环境中进行有效的策略学习。

四种归类方法

Information Processor

当观察或任务描述涉及语言或视觉特征时,代理很难同时理解复杂的信息并优化控制策略。为了从理解多模态数据的负担中释放代理,LLM 可以通过

1) 作为环境信息或任务指令信息的信息处理器:提取有意义的特征表示来加速网络学习;

2) 将基于自然语言的环境信息或任务指令信息翻译成正式的特定任务语言,以降低学习的复杂性。

动机

具有语言或视觉信息的深度 RL 的正常方法是联合处理信息并学习控制策略端到端。然而,这要求 RL 代理学会同时理解信息并管理任务。此外,通过简单地依赖奖励函数来学习语言或视觉特征具有挑战性,并可能将学习到的特征缩小到狭窄的效用,阻碍了代理的泛化能力。

无监督技术和大规模预训练模型在 CV 和 NLP 方面的进步,编码器单独训练的解耦结构越来越受欢迎。利用强大的表示能力和先验知识,预训练的 LLM 或视觉语言模型 (VLM) 模型可以作为信息处理器,用于提取下游网络的观察表示或将无界自然语言转换为形式规范语言,从而提高 RL 的样本效率和零样本性能。

bc3aa9885a1b4ae8b1251dbbd15e7371.png5c8415a9119d448ba49d92b1a3420cd2.png

方法

Feature Representation Extractor

在 CV 和 NLP 中采用大型预训练模型,此范式直接使用Frozen Pre-trained Model或者通过对比学习进行Fine-tuning Pre-trained Model,修改预训练模型以学习不变特征表示。学习到的特征表示可以成为下游网络学习的脚手架嵌入,提高样本效率。

Language Translator

LLM 可以用作语言翻译器,以减少为 RL 代理理解自然语言的额外负担并提高样本效率。如上图 右所示,LLM 将多样化和非正式的自然语言信息转换为正式的特定于任务的信息,例如特征表示或特定于任务的语言,从而协助 RL 代理的学习过程。

1)Instruction Information Translation

将基于自然语言的指令翻译为可以由指令遵循系统理解的形式。这个过程可以看作是“Instruction Information Translation”,即将自然语言指令转化为机器能够理解和执行的信息。将自然语言指令转换成机器可以理解和操作的形式,从而在强化学习和指令遵循应用中实现更高效的学习和执行。

2)Environment Information Translation

将自然语言描述的环境信息翻译成用于指定马尔可夫决策过程(MDP)信息的正式特定领域语言方面的应用,帮助强化学习代理将自然语言描述的环境信息转换为一种更正式、更易于处理的语言,从而使代理能够更有效地学习和执行任务。

LLM AS REWARD DESIGNER

1)隐式奖励模型,根据环境信息提供奖励值,无论是通过训练还是提示;

2)显式奖励模型,它根据环境规范和基于语言的指令或目标透明地指定奖励标量的逻辑计算过程。

Implicit Reward Model

根据对任务目标和观察的理解直接提供辅助或整体奖励值,一种方法是通过语言描述直接提示,另一种方法是通过对视觉观察的特征表示和基于语言的指令之间的对齐进行评分。

ee96c773a5d54d44a5403df9ecb632e4.png

 Explicit Reward Model

生成显式指定计算过程细节的可执行代码

fb69d07125344ab49f2a3059feef992a.png

LLM AS DECISION-MAKER 

Direct Decision-Maker

在直接决策中,LLM 使用更强大的预训练模型来增强基于决策 Transformer 的方法,该模型具有更强大的预训练模型,具有更多的先验知识来解决具有更高样本效率的稀疏奖励和长期任务。

9bd4c8f0e30b4f009f107f2a644cbf25.png

基于决策 Transformer 的方法通过将离线 RL 的学习过程构建为监督学习问题,直接从序列建模的角度预测动作。

2d1a415da467406aaabecf6a45622a7b.png

013c6b99d47a418b849f41bd3e3c5166.png

Indirect Decision-Maker 

作为间接决策者,LLM 通过生成一组动作候选或提供指示或规范策略学习的参考策略来指导动作选择。

e1932d32d90540c182fd8d6c15403a82.png

1)Action Candidates

当LLM生成一组动作候选时,RL代理可以根据值函数进一步重新排列候选,并最大化累积奖励。

2)Reference Policy

利用大型语言模型提供的参考策略来指导强化学习过程中的策略更新,以更好地符合人类的偏好,并在动态环境中提高基于LLM的代理的适应能力。通过这种方式,强化学习代理能够更有效地学习和适应新环境,同时减少对大量数据的依赖。

LLM AS GENERATOR

利用强大的建模能力和世界知识,LLM可以作为世界模型模拟器,通过迭代预测下一个状态和奖励来学习高保真的复杂环境动态,从而提高基于模型的RL中的样本效率。

在 RL 中,可解释性仍然是当前黑盒 AI 系统中的一个重要问题,因为它们越来越多地被部署以帮助最终用户完成日常任务。策略的解释可以提高对代理决策的最终用户理解,并为代理学习的奖励函数设计提供信息。在这方面,LLM 可以根据知识和推理能力充当策略解释器。

ac1731df94414da183717830686996e1.png

总结 

阅读完了这篇论文之后,对于我来说收益最多的就是如何考虑RL的缺点,并如何利用大模型的优点从而进行有效的结合,作者以四个角度来总结了LLM-enhance RL的范式,对于机器人导航来说,可能重要的的是:

1、数据的生成,是否可以基于真实世界的机器人数据,将大模型作为数据生成器,但是考虑数据的随机性较强,可以尝试使用大模型来分析机器人数据得到有用的信息;

2、机器人历史信息的应用,深度强化学习的缺点之一就是无法高效利用上下文信息进行推理,而这正是大模型所具备的,可以尝试将二者进行有效互补;

3、奖励函数的设计,这确实是一个有用的且很好的建议,是深度强化学习的一大难题,需要考虑的因素较多,且人们可能会将reward设计成一个固定的分段函数,需要不断的“调参”可能才会得到想要的效果;

4、策略选择器,在机器人RL的连续动作选择过程需要进行一个限制范围的随机抽样,随机抽样的参考是否可以通过大模型根据常识来做出选择,从而使得智能体朝着正确的方向更新;

5、数据采样的提升,大模型是具备一定常识的深度神经网络,而DRL代理(agent)通过试错来学习如何在给定的环境中执行任务,这个过程通常需要大量的交互和经验积累。根据大模型可以对数据进行进一步的筛选,从而提高训练的效率。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1805475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux高级IO】select、poll、epoll

【Linux高级IO】select、poll、epoll toc 作者:爱写代码的刚子 时间:2024.6.5 前言:本篇博客将会介绍面试重点考察的select、poll、epoll IO: input && Output read && write 应用层read&&write的时候&#xff0c…

nest入门教程

1.介绍: Nest (NestJS) 是一个用于构建高效、可扩展的 Node.js 服务器端应用的框架。它使用渐进式 JavaScript,构建并完全支持 TypeScript(但仍然允许开发者使用纯 JavaScript 进行编码)并结合了 OOP(面向对象编程&am…

LLM技术

LLM 是利用深度学习和大数据训练的人工智能系统,专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法,从而能够执行各种语言相关任务。以 GPT 系列为代表,LLM 以其在自然语言处理领域的卓越表现&…

【Node.js快速部署opencv项目】图像分类与目标检测

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支…

Java Web学习笔记22——前端工程化

实际的前端开发: 前端工程化:是指在企业级的前端项目开发中,把前端开发所需的工具、技术、流程、经验等进行规范化、标准化。 环境准备: vue-cli: 介绍:vue-cli是Vue官方提供的一个脚手架,用于…

推荐云盘哪个好,各有各的优势

选择合适的云盘服务是确保数据安全、便捷分享和高效协作的关键。下面将从多个维度对目前主流的云盘服务进行详细的对比和分析: 速度性能 百度网盘青春版:根据测试,其上传和下载确实不限速,但主要定位是办公人群,适用于…

STM32快速入门(ADC数模转换)

STM32快速入门(ADC数模转换) 前言 ADC数模转换存在的意义就是将一些温度传感器、各自数据传感器产生的模拟信号转换成方便识别和计算的数字信号。 导航 图24 通用定时器框图: 图片截取自STM32 F1XX中文参考手册。还是以框图为中心&#x…

MySQL—多表查询—标量子查询

一、引言 上篇学习完子查询的概念和分类。 现在来学习第一种子查询——标量子查询。 (1)标量子查询的基本概念 子查询返回的结果是单个值,也就是一行一列(可以是数字、字符串、日期等) 是一种最简单的子查询形式&am…

Go 语言的函数详解:语法、用法与最佳实践

在 Go 语言的世界里,函数是构建和维护任何应用程序的基石。不仅因为它们提供了一种将大问题划分为更小、更易管理部分的方法,而且还因为它们在 Go 程序中扮演着至关重要的角色。从简单的工具函数到复杂的系统级调用,理解和利用 Go 的函数特性…

论文阅读:All-In-One Image Restoration for Unknown Corruption

发表时间:2022 cvpr 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Li_All-in-One_Image_Restoration_for_Unknown_Corruption_CVPR_2022_paper.pdf 项目地址:https://github.com/XLearning-SCU/2022-CVPR-AirNet 在本文…

Mysql使用中的性能优化——索引对插入操作的性能影响

当我们往表中插入数据时,如果表中有索引,则会给插入操作增加更多的工作量。带来的好处是可以提升查询效率。但是这种优劣该如何权衡,则需要通过数据对比来提供佐证。本文我们将对比没有索引、有一个普通索引、有一个唯一索引的性能差距。 结…

UniAnimate:华科提出人类跳舞视频生成新框架,支持合成一分钟高清视频

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

堆排序讲解

前言 在讲堆的删除时,我们发现一步一步删除堆顶的数据,排列起来呈现出排序的规律,所以本节小编将带领大家进一步理解堆排序。 1.堆排序概念 那么什么是堆排序? 堆排序(Heap Sort)是一种基于堆数据结构的排…

如何从 Android 图库中恢复误删除的照片

如果您正在阅读这篇文章,那么您肯定意外地从 Android 设备中删除了照片。并且您正在寻找一种简单的方法来恢复 Android 图库中已删除的照片。 从图库恢复已删除的照片 随着技术的进步,现在使用单个设备(即 Android 手机)&#xf…

vue27:脚手架详细介绍main.js

在 Vue.js 中,render 函数是一个可选的选项,它允许你自定义组件的渲染逻辑。 如果你没有在 Vue 实例中提供 render 函数,Vue 将使用模板(template)来生成虚拟 DOM。 以下是render / template 两种方式的比较&#…

C++ Qt实现http url启动本地应用程序

更多Qt文章,请访问《深入浅出C++ Qt开发技术专栏》:https://blog.csdn.net/yao_hou/category_9276099.html 文章目录 1、注册自定义协议2、编写web页面3、编写C++应用程序我们在使用腾讯会议时经常会通过http链接打开本地的腾讯会议,例如下图: 打开会议发起人给的链接,会出…

Python代码大使用Paramiko轻松判断文件类型,提取上级目录

哈喽,大家好,我是木头左! 一、Paramiko简介 Paramiko是一个用于SSHv2协议的Python实现,提供了客户端和服务器功能。它可以用于远程连接和管理服务器,执行命令、上传下载文件等。本文将介绍如何使用Paramiko判断文件类…

树莓派4B 零起点(二) 树莓派 更换软件源和软件仓库

目录 一、准备工作,查看自己的树莓派版本 二、安装HTTPS支持 三、更换为清华源 1、更换Debian软件源 2,更换Raspberrypi软件仓库 四、进行软件更新 接前章,我们的树莓派已经启动起来了,接下来要干的事那就是更换软件源和软件…

LeetCode ---400周赛

题目列表 3168. 候诊室中的最少椅子数 3169. 无需开会的工作日 3170. 删除星号以后字典序最小的字符串 3171. 找到按位与最接近 K 的子数组 一、候诊室中的最少椅子数 简单的模拟题,我们可以这样来模拟:当有顾客来时,我们加一把椅子&…

java并发控制(猴子摘桃例子)

【问题】 有n个桃子, 猴子A每次固定摘2个,猴子B每次固定摘3个,这2只猴子不断摘桃子直到剩余桃子数量不足以摘(必须满足摘桃个数); 【1】 使用AtomicInteger(推荐) 1)利…