深度强化学习+大模型综述Survey on Large Language Model-Enhanced Reinforcement Learning

论文地址：[2404.00282] Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods (arxiv.org)

摘要

对 LLM 增强 RL 中现有文献进行了全面的回顾，并总结了其与传统 RL 方法相比的特征，旨在阐明未来研究的研究范围和方向。利用经典的代理-环境交互范式，我们提出了一种结构化分类法来系统地对RL中llm的功能进行分类，包括四个角色:信息处理器、奖励设计者、决策者和生成器。

INTRODUCTION

概念

强化学习 (RL) 是一种强大的学习范式，专注于控制和决策，其中代理通过与环境的试错交互来学习优化指定的目标。但是当应用于涉及语言和视觉信息的实际应用中时，深度 RL 算法面临着重大挑战，因为代理必须联合学习特征和控制策略。

目前深度强化学习存在的一些挑战

1、采样效率低下

样本效率低下：深度 RL 代理需要与环境的广泛交互来学习有效的策略，但是对于昂贵或有风险的数据收集场景是不切实际的，实际机器人或无人驾驶收集一些特殊的数据需要付出一定代价（如碰撞的数据等），所以深度强化学习训练机器人一般都是sim2real，而且需要大量的时间来收集熟悉，还需要克服虚拟场景到实际场景的迁移差别性；

2、奖励函数设计

奖励函数设计: 策略学习的性能在很大程度上取决于奖励函数的设计（为什么这样说呢，DRL的本质是将环境状态映射为动作决策量，并使得累积回报值最大化，而累积汇报和每一次的状态-动作对都是相关的，即预先定义的奖励模型，智能体执行一次动作转移到下一个状态，并得到一个奖励值，通过回溯一个eposide的过程得到每一步的回报值）。

而奖励函数需要事先人为设计好，才能让智能体朝着期望的方向去更新深度强化学习的参数，不过这需要大量的人为测试，需要对任务进行深入的理解，进行手动试错（很自然的一个想法：是否需要一个奖励函数模型，让神经网络来拟合一个奖励函数，不断调整，而不是一个固定的分段函数）；

第二章背景知识中提到的：在反馈有限的稀疏奖励设置中，奖励塑造对于引导代理走向有意义的行为至关重要；然而，这引入了无意中将代理偏向次优策略或过度拟合特定场景的风险。相反，对于复杂的任务，高性能奖励函数通常需要大量的手动试错，因为大多数设计的奖励是次优的或导致意外的行为。

3、泛化性

泛化性: 深度RL代理的泛化性仍然令人生畏，因为它们经常难以适应新的、看不见的环境，限制了代理在动态现实世界设置中的适用性。

第二章背景知识中提到的：核心问题在于 RL 算法能够将学习到的知识或行为转移到新的、以前未见过的环境中的能力。RL 模型通常在模拟或特定设置中进行训练，在这些场景中表现出色，但在面对新颖或动态条件时难以保持性能。这种限制阻碍了 RL 在现实世界情况下的实际应用，其中环境很少是静态的或完全可预测的。实现泛化要求模型不仅要学习特定的任务解决方案，还要理解可以适应一系列情况的基本原理。

4、自然语言理解能力

自然语言理解：深度 RL 在自然语言处理和理解场景中较困难，可以理解为在强化学习 (RL) 和模仿学习 (IL) 等主要范式中使用传统方法训练的代理通常缺乏这种能力，并且难以从丰富多样的环境的交互中有效地学习。

5、Multi-modal Reinforcement Learning（背景中提到的）

多模态数据的集成挑战 RL 范式，因为代理必须同时学习如何处理复杂的多模态数据并优化环境中的控制策略。需要解决自然语言理解和基于视觉的奖励函数设计等问题。（智能体需要同时处理模态之间的特征统一性和特征映射的决策，利用奖励机制去更新特征网络未必是明智的选择）。

大型语言模型 (LLM)

与小型语言模型相比，llm具有在小型语言模型中不存在的能力，如上下文学习、推理能力等。此外，利用大量的训练数据，预训练的llm配备了广泛的世界知识。得益于这些功能，语言模型的应用已经从语言建模转移到任务解决，从基本的文本分类和情感分析到复杂的高级任务规划和决策。

这里补充下大模型的定义：

大型语言模型（LLM）是指包含数千亿（或更多）参数的语言模型，这些参数是在大量文本数据上训练的，例如模型 GPT-3、PaLM、Galactica 和 LLaMA。LLM 在很大程度上扩展了模型大小、预训练数据和总计算量（扩大倍数）。他们可以更好地理解自然语言，并根据给定的上下文（例如 prompt）生成高质量的文本。可以参考下述论文：

论文链接：[2303.18223] A Survey of Large Language Models (arxiv.org)

大模型的改进上述RL的挑战的角度

对于样本效率低下： LLM 可用于通过提供丰富、上下文明智的预测或建议来提高 RL 代理的样本效率，从而减少对广泛环境交互的需求。

对于奖励函数设计：LLM可以帮助构建更微妙和有效的奖励函数，通过提供对复杂场景的更深入理解来增强学习过程。

对于泛化性：利用基于语言的反馈来提高 RL 策略在看不见的环境中的泛化能力。

对于自然语言理解：使用 LLM 将复杂的基于自然语言的指令转换为 RL 代理的简单任务指定语言。

主要贡献

LLM-enhanced RL paradigm

总结了特征并提供了一个相应的框架，清楚地说明了 1) 如何将 LLM 集成到经典代理-环境交互中，以及 2) LLM 为传统 RL 范式提供的多方面增强。

结构化分类法

信息处理器、奖励设计者、决策者和生成器.

工作回顾

Background of Large Language Models

优点

上下文学习

上下文学习能力消除了显式模型再训练或梯度更新的需要，因为它可以通过输入提示示例或相关知识来生成更好的响应或执行任务。具体来说，与任务相关的文本包含在提示中作为上下文信息，帮助 LLM 理解情况并执行指令。

Instruction Following

大型语言模型能够在没有明确示例的情况下，理解和遵循针对新任务的指令，并且能够有效地泛化到之前未遇到的任务。模型能够泛化到训练期间未曾遇到的任务，而不需要针对每个新任务提供大量的示例。

逐步推理

大型语言模型可以通过复杂的提示策略，如思维链(CoT)、思维树(ToT)和思维图(GoT)，有效地解决复杂的任务。这些策略将解决问题的过程结构成顺序或分层步骤，促进更清晰和可理解的推理途径。此外，为规划而设计的提示使llm能够输出反映思想或行动进展的序列。

LARGE LANGUAGE MODEL-ENHANCEDREINFORCEMENT LEARNING

定义

LLM-enhanced RL是指利用预先训练的知识固有AI模型的多模态信息处理、生成、推理等能力来辅助RL范式的方法。利用具有一般知识的模型，这意味着与其他数据驱动模型相比，该模型在学习过程中具有相当大的能力水平和更好的泛化。此外，LLM 增强的 RL 仍然使用 AI 模型，并且可以通过 RL 交互数据持续学习以提高其能力。

Framework

LLM处理状态信息，重新设计奖励，帮助行动选择，并在行动选择后解释策略。

一方面，当代理从环境中接收状态和奖励信息时，LLM 能够处理或修改信息以过滤不必要的基于自然语言的信息或设计适当的奖励以加速学习过程，基于自然语言理解和推理能力。

另一方面，当代理即将根据观察选择一个动作时，LLM可以通过模拟世界模型或作为策略网络来辅助动作选择过程，根据建模能力和常识知识生成合理的动作。此外，在动作选择过程之后，集成状态、奖励和动作信息，LLM可以解释策略选择背后的潜在可能原因。划分四个不同的LLM角色，包括信息处理器、奖励设计者、生成器和决策者。

LLM-enhanced RL paradigm

多模态信息理解：LLM 增强了 RL 代理对涉及多模态信息的场景的理解，使它们能够更有效地从自然语言和视觉数据中描述的任务或环境中学习。

多任务学习和泛化：受益于多学科预训练知识，LLM 通过设计奖励或生成参考动作来增强 RL 代理，促进多任务学习和泛化。

提高样本效率：鉴于固有的探索性性质，RL 范式需要大量样本来学习。预训练的LLM可以通过模拟或利用先验知识来提高RL的样本效率。

长视距处理: 由于信用分配问题，随着轨迹长度的增加，RL变得更具挑战性。llm可以将复杂的任务分解为子任务，以帮助RL代理在更长的时间范围内规划，帮助复杂、多步任务的决策过程，如Minecraft游戏。

奖励信号生成: 基于上下文理解和领域知识，llm有助于奖励塑造和奖励函数设计，帮助引导RL在稀疏奖励环境中进行有效的策略学习。

四种归类方法

Information Processor

当观察或任务描述涉及语言或视觉特征时，代理很难同时理解复杂的信息并优化控制策略。为了从理解多模态数据的负担中释放代理，LLM 可以通过

1) 作为环境信息或任务指令信息的信息处理器：提取有意义的特征表示来加速网络学习；

2) 将基于自然语言的环境信息或任务指令信息翻译成正式的特定任务语言，以降低学习的复杂性。

动机

具有语言或视觉信息的深度 RL 的正常方法是联合处理信息并学习控制策略端到端。然而，这要求 RL 代理学会同时理解信息并管理任务。此外，通过简单地依赖奖励函数来学习语言或视觉特征具有挑战性，并可能将学习到的特征缩小到狭窄的效用，阻碍了代理的泛化能力。

无监督技术和大规模预训练模型在 CV 和 NLP 方面的进步，编码器单独训练的解耦结构越来越受欢迎。利用强大的表示能力和先验知识，预训练的 LLM 或视觉语言模型 (VLM) 模型可以作为信息处理器，用于提取下游网络的观察表示或将无界自然语言转换为形式规范语言，从而提高 RL 的样本效率和零样本性能。

方法

Feature Representation Extractor

在 CV 和 NLP 中采用大型预训练模型，此范式直接使用Frozen Pre-trained Model或者通过对比学习进行Fine-tuning Pre-trained Model，修改预训练模型以学习不变特征表示。学习到的特征表示可以成为下游网络学习的脚手架嵌入，提高样本效率。

Language Translator

LLM 可以用作语言翻译器，以减少为 RL 代理理解自然语言的额外负担并提高样本效率。如上图右所示，LLM 将多样化和非正式的自然语言信息转换为正式的特定于任务的信息，例如特征表示或特定于任务的语言，从而协助 RL 代理的学习过程。

1）Instruction Information Translation

将基于自然语言的指令翻译为可以由指令遵循系统理解的形式。这个过程可以看作是“Instruction Information Translation”，即将自然语言指令转化为机器能够理解和执行的信息。将自然语言指令转换成机器可以理解和操作的形式，从而在强化学习和指令遵循应用中实现更高效的学习和执行。

2）Environment Information Translation

将自然语言描述的环境信息翻译成用于指定马尔可夫决策过程（MDP）信息的正式特定领域语言方面的应用，帮助强化学习代理将自然语言描述的环境信息转换为一种更正式、更易于处理的语言，从而使代理能够更有效地学习和执行任务。

LLM AS REWARD DESIGNER

1）隐式奖励模型，根据环境信息提供奖励值，无论是通过训练还是提示；

2）显式奖励模型，它根据环境规范和基于语言的指令或目标透明地指定奖励标量的逻辑计算过程。

Implicit Reward Model

根据对任务目标和观察的理解直接提供辅助或整体奖励值，一种方法是通过语言描述直接提示，另一种方法是通过对视觉观察的特征表示和基于语言的指令之间的对齐进行评分。

Explicit Reward Model

生成显式指定计算过程细节的可执行代码

LLM AS DECISION-MAKER

Direct Decision-Maker

在直接决策中，LLM 使用更强大的预训练模型来增强基于决策 Transformer 的方法，该模型具有更强大的预训练模型，具有更多的先验知识来解决具有更高样本效率的稀疏奖励和长期任务。

基于决策 Transformer 的方法通过将离线 RL 的学习过程构建为监督学习问题，直接从序列建模的角度预测动作。

Indirect Decision-Maker

作为间接决策者，LLM 通过生成一组动作候选或提供指示或规范策略学习的参考策略来指导动作选择。

1）Action Candidates

当LLM生成一组动作候选时，RL代理可以根据值函数进一步重新排列候选，并最大化累积奖励。

2）Reference Policy

利用大型语言模型提供的参考策略来指导强化学习过程中的策略更新，以更好地符合人类的偏好，并在动态环境中提高基于LLM的代理的适应能力。通过这种方式，强化学习代理能够更有效地学习和适应新环境，同时减少对大量数据的依赖。

LLM AS GENERATOR

利用强大的建模能力和世界知识，LLM可以作为世界模型模拟器，通过迭代预测下一个状态和奖励来学习高保真的复杂环境动态，从而提高基于模型的RL中的样本效率。

在 RL 中，可解释性仍然是当前黑盒 AI 系统中的一个重要问题，因为它们越来越多地被部署以帮助最终用户完成日常任务。策略的解释可以提高对代理决策的最终用户理解，并为代理学习的奖励函数设计提供信息。在这方面，LLM 可以根据知识和推理能力充当策略解释器。

总结

阅读完了这篇论文之后，对于我来说收益最多的就是如何考虑RL的缺点，并如何利用大模型的优点从而进行有效的结合，作者以四个角度来总结了LLM-enhance RL的范式，对于机器人导航来说，可能重要的的是：

1、数据的生成，是否可以基于真实世界的机器人数据，将大模型作为数据生成器，但是考虑数据的随机性较强，可以尝试使用大模型来分析机器人数据得到有用的信息；

2、机器人历史信息的应用，深度强化学习的缺点之一就是无法高效利用上下文信息进行推理，而这正是大模型所具备的，可以尝试将二者进行有效互补；

3、奖励函数的设计，这确实是一个有用的且很好的建议，是深度强化学习的一大难题，需要考虑的因素较多，且人们可能会将reward设计成一个固定的分段函数，需要不断的“调参”可能才会得到想要的效果；

4、策略选择器，在机器人RL的连续动作选择过程需要进行一个限制范围的随机抽样，随机抽样的参考是否可以通过大模型根据常识来做出选择，从而使得智能体朝着正确的方向更新；

5、数据采样的提升，大模型是具备一定常识的深度神经网络，而DRL代理（agent）通过试错来学习如何在给定的环境中执行任务，这个过程通常需要大量的交互和经验积累。根据大模型可以对数据进行进一步的筛选，从而提高训练的效率。