【连载3】基础智能体的进展与挑战综述

基础智能体的进展与挑战综述

从类脑智能到具备可进化性、协作性和安全性的系统

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

2. 认知

人类认知是一种复杂的信息处理系统，它通过多个专门的神经回路协调运行，从而实现感知、推理和目标导向的行为。这种认知架构通过心理状态运作，心理状态是学习和推理发生的基础。人类在不同抽象层次处理信息并适应新情境的卓越能力，是大语言模型（LLM）智能体的重要灵感来源。

认知系统展现出一些基本的架构特性，如图1.1所示：

（1）学习可以在不同的心理状态空间中进行：它可以在整个额叶（支持执行控制和认知）和颞叶（负责语言、记忆和听觉处理）中整体发生，也可以聚焦在特定方面进行针对性的提升，如图中展示的不同研究层次所示。

（2）推理以不同的模式出现：它可以遵循结构化模板，用于系统性问题解决，这种逻辑推理和认知灵活性由额叶支持；也可以以非结构化的形式出现，体现出灵活思维，尤其在决策和执行控制功能中表现明显。

（3）该系统展现出显著的适应能力，能够通过经验不断更新心理状态，同时利用有监督的反馈（如小脑中的自适应误差校正）和无监督的环境统计信息，这在图中展示的不同认知功能的探索阶段中有所体现。

（引用）图1.1：按主要脑区分组的人脑关键功能示意图

这些认知过程由一个模块化的组织结构支持，该结构由彼此独立但相互连接的组件组成，构成一个统一的系统。这些模块包括：

（1）将原始感官数据转换为有意义表征的感知系统；

（2）提供信息存储与提取基础的记忆系统；

（3）支持未来情境模拟的世界模型；

（4）通过强化学习引导行为优化的奖励信号；

（5）调节注意力和资源分配的情绪系统；

（6）形成决策的推理系统；

（7）以及将决策转化为对环境行为的行动系统。

尽管人类认知是通过进化形成的复杂神经结构来实现的，大语言模型智能体则尝试通过大规模神经网络模型和算法技术来模拟类似功能。理解这种生物与人工的对比对于开发更强大的智能体至关重要，它揭示了当前系统相较于人类认知在适应性、泛化能力和上下文理解等方面的成就与局限。

本节首先探讨“学习”，包括它在心理状态中发生的空间以及其服务的具体目标。随后我们将研究“推理”，分析其结构化与非结构化的方法，最后我们将以“规划能力”作为一种特殊的推理行为进行深入探讨。

2.1 学习

学习是智能体将经验转化为知识的基本过程，这一过程在其心理状态中进行。这种转化可以发生在不同的认知空间中，既包括对整个心理状态的整体更新，也包括对特定认知组件的精细调整。学习的范围涵盖了服务于不同目标的卓越能力：增强感知理解、提升推理能力，以及构建更丰富的世界理解。

图2.1：认知系统的分类图，包括学习和推理范式

人类的学习通过大脑中具有适应性的神经网络在多个空间和目标上进行。大脑通过一体化系统在整个神经网络中协调学习：

（1）海马体促进情景经验的快速编码；

（2）小脑支持用于精细运动技能的有监督学习；

（3）基底节通过多巴胺奖励信号实现强化学习；

（4）大脑皮层区域则促进无监督的模式提取。

在更集中的层面上，特定的神经回路可以发生有针对性的适应，从而实现专门技能的发展和知识的获取。这些系统在不同的时间尺度上协同工作，从即时反应到终身发展，同时受到注意力、情绪和社会环境等因素的影响。

尽管大语言模型智能体在架构上与人类大脑本质不同，但它们在其心理状态空间中实现了类似的学习过程。在整体层面，它们通过在大规模数据集上的预训练获得广泛知识，表现出一种无监督学习形式。在更具体的层面，它们通过如有监督微调和强化学习等参数更新机制来优化特定能力。其独特之处在于还具备“上下文学习”能力，在不改变参数的情况下，依赖注意力窗口中的上下文信息适应新任务；这一能力在某种程度上类似于人类的工作记忆，但其运作机制却截然不同。

对比人类和人工学习系统为开发更强大、更具适应性的智能体提供了重要启示。人类学习在效率、情境理解和与情绪系统的整合方面具有显著优势，而基于大语言模型的方法则在处理大规模数据、形式化知识表示以及跨领域信息综合方面展现出独特能力。这些互补优势为未来的研究指明了有益方向。在深入探讨学习的基础时，我们首先考察学习在心理状态中发生的空间，随后分析驱动学习过程的具体目标。

表2.1：不同学习方法对状态修改影响的总结，其中符号 • 表示主要影响，符号 ◦ 表示次要影响或没有直接影响

2.1.1 学习空间

大语言模型（LLM）智能体中的学习方法代表了一种结构化、数据驱动的范式，这与人类学习中体现的探索性和情感驱动形成对比。人类学习通常伴随着主动的好奇心、动机和情绪强化，而基于LLM的智能体则更多地通过形式化的过程进行学习，例如训练期间的参数更新或探索过程中的结构化记忆形成。当前的智能体架构正尝试通过引入模拟人类学习某些方面的机制，同时发挥计算系统优势，以弥合这一差距。

在智能体中，学习发生在不同的空间，既包括底层模型参数θ，也包括心理状态M，前者从根本上决定了后者的能力边界。形式上，我们将智能体的内部状态定义为一个二元组

，其中包括模型参数和心理状态组成部分。心理状态可以进一步被分解为不同的结构，正如我们在图1.2中所展示的那样。

其中，表示记忆，表示世界模型，表示情绪状态，表示目标，表示奖励信号。

对底层模型的修改可以被视为“整体心理状态学习”，因为它从根本上改变了智能体的能力。虽然模型层级的修改对不同的心理状态组件影响程度不同，但对模型的上下文窗口或外部结构的变更通常更集中地作用于特定的心理状态组件。例如，从环境中学习到的经验和技能主要影响记忆（），而利用LLM本身的预测能力则能增强世界模型（）。

整体心理状态学习是通过对底层模型参数 θ 的全面修改来提升智能体能力的过程，这种修改会影响到心理状态 M 的所有组成部分。该过程始于预训练，通过吸收海量的世界知识，为语言模型打下基础。这类似于人类婴儿在成长过程中吸收环境信息的方式，尽管前者更加结构化和大规模。

后训练技术是提升智能体能力的核心支撑。类似于人类大脑在教育中被塑造的方式，这些技术虽然作用于整个模型，但可以侧重于认知发展的不同方面。具体而言，各类基于微调的学习方法使智能体能够获取特定领域的知识和逻辑推理能力。

有监督微调（Supervised Fine-Tuning,SFT）【41】是基础方法，通过人类标注的数据训练模型，将知识直接编码到模型权重中。为了提高计算效率，出现了参数高效微调（Parameter-Efficient Fine-Tuning,PEFT）方法。例如，Adapter-BERT【42】引入了模块化设计，在不更改全部参数的情况下，使模型适应下游任务；而 LoRA（Low-Rank Adaptation）【109】则通过将权重更新分解为低秩矩阵，仅调整少量有效参数，实现类似效果。

某些智能体能力与其是否能够很好地对齐人类偏好密切相关。对齐学习方法通过修改模型来重塑智能体的底层表征，以实现与人类价值的对齐。从人类反馈中进行强化学习（RLHF）【110】就是典型方法，它通过人类比较判断训练奖励模型，并用其引导策略优化。InstructGPT【43】展示了该方法在提高模型与用户意图一致性方面的显著效果。直接偏好优化（DPO）【111】进一步简化了这一流程，将其转化为直接的偏好学习过程，无需显式奖励建模，同时保持对齐质量并降低计算复杂性。

强化学习（RL）为在特定环境中的专门学习提供了有前景的路径，尤其在增强推理能力方面表现突出，使模型能够在“思维空间”中进行学习。比如，Reinforcement Fine-Tuning（ReFT）【44】通过使用在线强化学习奖励机制下自动采样的推理路径进行微调，从而增强推理能力。DeepSeek-R1【89】采用基于规则的奖励机制与群体相对策略优化（GRPO）【112】，进一步推进了这一方法。而 Kimi k1.5【113】则结合上下文强化学习和优化的“思维链”（Chain-of-Thought）技术，提高了规划过程与推理效率。

在具体环境中，修改模型以增强智能体对行动和外部环境的理解也显示出良好效果。例如，DigiRL【103】通过两阶段的强化学习方法，使智能体能够在真实的安卓设备模拟器上执行多种命令。

近期研究还尝试将智能体的行动空间直接整合进模型训练中【45，55】，利用RL或SFT方法学习在不同状态下应采取的恰当行为。这种整合从根本上影响了智能体的记忆机制、奖励理解能力以及世界模型的构建，预示着“智能体模型”的兴起将成为一个极具潜力的发展方向。

部分心理状态学习（Partial Mental State Learning）是相较于通过模型修改进行的整体心理状态学习而言的另一种重要且更高效的学习方式。这种方式聚焦于智能体心理状态 M 的特定组成部分，可通过有针对性的模型更新，或无需改变模型参数的上下文适应方式实现。

上下文学习（In-Context Learning, ICL）展示了智能体在不修改整个模型的情况下，如何有效调整其特定心理状态组件。该机制允许智能体通过在上下文窗口中利用示例或指令来适应新任务，类似于人类工作记忆在快速任务适应中的作用。Chain-of-Thought（CoT）【46】技术进一步证明了这一方法的有效性，展示了智能体如何在保持基础模型参数不变的前提下增强特定认知能力。

部分心理状态学习的可行性在多个组件上得到验证，如记忆（）、奖励（），和世界模型（）。记忆方面，Generative Agents【50】通过正常的交流与社交互动积累并重放记忆，从中提取高层次洞察，以指导动态行为规划。在与环境交互的场景中，Voyager【47】展示了智能体如何在 Minecraft 环境中不断更新技能库，积累过程性知识，而无需重新训练模型。Learn-by-Interact【102】进一步扩展了这种方法，智能体通过与环境直接互动合成经验数据，避免了人工标注或强化学习框架的需求。此外，智能体还可以通过反思自身错误实现学习和提升，Reflexion【48】就是典型案例，它通过获取文本反馈，引导智能体在反复试错中优化未来的思考和行动路径。

对奖励模型和世界模型的修改也是部分心理状态学习的又一重要体现。ARMAP【106】通过分析智能体的行为轨迹提炼环境奖励模型，为进一步学习提供基础。AutoMC【114】则通过探索环境构建密集的奖励模型，以支持智能体的行为。还有研究【107】直接利用LLM作为世界模型，预测未来行动的影响，从而有效修改智能体对世界的理解（）。ActRe【49】在语言模型已有的世界知识基础上构建任务路径，通过迭代训练增强其作为世界模型和推理引擎的能力。

总之，部分心理状态学习通过灵活、高效地聚焦于智能体的特定认知模块，不仅在多种任务场景中表现出强大的适应性，也展现了人工智能从“泛化”走向“智能体化”的关键路径。

2.1.2 学习目标

智能体的学习过程贯穿其与环境交互的各个方面。在输入层面，智能体学习更好地感知和解析环境信息；在处理层面，智能体学习如何基于已有知识或推理能力进行有效推理；在理解层面，智能体通过持续交互形成并优化其对世界的理解。这一多层次的学习目标框架使智能体能够在不同维度上持续进化，从而更好地应对复杂和动态的任务环境。

感知能力提升的学习：从环境中有效感知和处理信息的能力是智能体智能的基础。为增强感知能力，智能体主要采用两种学习方法：扩展多模态感知和利用检索机制。

多模态感知学习使智能体能够处理和整合多样的感官输入，类似于人类的多感官整合，但不受生物机制的限制。这一能力通过诸如CLIP【51】的进展显著发展，CLIP首次将视觉与语言表征在共享嵌入空间中对齐。在此基础上，LLaVA【52】通过在图文对上训练专用投影器增强了视觉感知能力，而CogVLM【53】通过统一的表示架构推动了视觉推理的发展。

感知模态的扩展在多个感官领域持续进行。在音频处理方面，Qwen-Audio【54】展示了从语音到环境声等多样声音信息的统一编码。近期研究甚至拓展到触觉感知【115】，开发了将触觉、视觉和语言表征对齐的数据集。这些进展使智能体能够更全面地与物理和数字环境交互。

智能体还通过检索机制提升其观察能力。不同于受限于即时感官输入的人类感知，智能体可以学习访问并整合来自庞大外部知识库的信息。诸如RAG【116】等检索增强方法通过将即时观察与相关的已存知识连接，增强了感知理解能力。

近期有关基于检索的智能体研究展示了提升主动信息获取能力的潜力。Search-o1【117】通过提示引导推理模型学习主动检索，从而扩展其知识边界。进一步地，R1-Searcher【45】和Search-R1【55】将检索能力直接整合入模型中，使其在推理过程中具备自主的信息检索能力。这些进展为提升智能体感知能力指明了一个有前景的方向：通过增强模型层面的主动感知能力，丰富其决策基础，这一方法可能成为未来智能体发展的重要途径。

推理能力提升的学习：推理是智能体心理状态与其行动之间的关键桥梁，有效推理的能力以及推理能力的发展对于智能体而言至关重要。现代智能体的推理基础源于两个关键要素：其底层模型中丰富的世界知识，以及内部支持或通过上下文结构支持的强大逻辑框架。这使得推理能力的学习成为智能体发展的重要目标。

推理能力的发展通过几个关键现象表现出来。首先，高质量的推理数据可以直接提升模型的推理能力；其次，这些高质量数据往往需要通过验证机制或奖励模型进行筛选；第三，对基础模型进行直接强化学习训练可以自发展现推理能力。

随着o1系列的发布，推理在智能体发展中的重要性再次被强调。一种常见的方法是收集并提炼来自开源或闭源推理模型的数据。例如，SKY-32B【56】通过提炼QWQ-32B【118】的数据，以约450美元的成本训练出一个32B推理模型。同样，Open Thoughts【57】通过从R1中提炼并合成数据集，以较低成本训练了Bespoke-Stratos-32B。这些研究表明，即使没有复杂的算法设计，也可以通过对推理数据进行有监督微调（SFT），有效激活基础模型的推理能力。

关于数据质量的另一个重要见解是，高度结构化的推理数据能够更有效地使智能体和语言模型学习推理过程。值得注意的是，LIMO【58】表明，通过为复杂推理任务构建冗长且有效的推理链，即便数据样本极少，也可以构建强大的推理模型。这一见解源于他们的观察：语言模型本身就具备足够的知识进行推理，但需要高质量的推理路径来激活这些能力。对此观点的支持来自于Li等人的研究【119】，他们指出Long CoT与Short CoT实质上都是在教授模型学习推理结构而非具体内容，这也表明未来一个重要的发展方向可能是自动筛选高质量推理数据。

一种可行的探索方法是先进行广泛搜索，再借助可验证的环境或可训练的奖励模型对推理轨迹提供反馈，从而筛选出高质量的推理数据。这一方法催生了多个依靠不同反馈机制来提升推理能力的技术系列。

第一类方法遵循了以 STaR【59】为代表的自举范式，这些方法通过让模型生成逐步推理的理由，并在成功推理路径上进行微调以实现迭代改进。该系列包括 Quiet-STaR【91】、V-STaR【120】和 rStar-Math【121】，后者尤其通过强化学习原理增强了数学推理能力。这些方法通过迭代筛选正确推理路径进行训练，从而实现逐步优化和自我提升。

第二类方法在此基础上更明确地融入了强化学习原理。ReST 系列以 ReST【60】为起点，提出了强化自训练的思路，每个样本进行多次尝试（通常为10次），并从成功的推理实例中创建新的训练数据集。ReST-EM【122】结合了期望最大化方法，ReST-MCTS 则进一步集成蒙特卡洛树搜索（MCTS），通过更复杂的探索策略增强推理能力。

还有若干方法引入了策略奖励模型（PRM）来对推理路径提供质量反馈。例如 OpenR【61】和 LLaMA-Berry【62】将推理任务建模为马尔可夫决策过程（MDP），并利用树搜索探索多样推理路径，同时借助 PRM 进行质量评估。在特定领域应用中，rStar-Math【121】和 DeepSeekMath【112】通过多轮自我迭代和平衡的探索-利用策略在数学问题求解方面取得成功。用于代码生成的 o1-Coder【123】采用 MCTS 生成带有推理过程的代码，Marco-o1【123】将该方法扩展到开放性任务中。这些实践展示了 MCTS与 PRM的协同如何在保持解决方案质量的同时实现高效的推理路径探索。

除了数据驱动的方法外，强化学习在提升语言模型推理能力方面也表现出显著成效，代表性的突破包括 DeepSeek R1【89】和 Kimi-K-1.5【113】。LLM 的 RL 基础源于多个开创性框架：ReFT【44】提出了监督微调与在线强化学习相结合的方法，VeRL【123】建立了支持多种 RL 算法、可扩展至70B参数的开源框架，RFT【125】则进一步验证了在特定推理任务中，基于奖励的优化策略的有效性。

在这些基础上，后续研究探索了多种应用与改进方向。OpenR1【64】和RAGEN【63】将RL技术扩展到通用推理能力的提升上，而如 SWE-Gym【126】的特定实现则在软件工程任务中取得成功。值得注意的是，DigiRL【103】引入了针对数字世界智能体优化的新方法。

近期的进展进一步将 RL 与工具使用和推理过程结合。Qwen-QwQ-32B【118】通过强化学习与通用奖励机制将工具调用纳入推理过程，使模型在推理中能够无缝使用任意工具，从而在模型内部实现类智能体能力。RAGEN【63】则专注于多步骤智能体场景，建立了在复杂环境中进行智能体强化学习的框架。这些发展表明模型训练与智能体开发之间的边界正日益融合，有可能催生更具集成性和能力的智能系统。这些实现强调了强化学习在提升模型性能、尤其在复杂推理场景中减少对大规模人工标注数据依赖方面的有效性。

世界理解的学习：智能体智能的一个关键方面是通过直接交互和经验积累理解世界如何运作。这种理解涵盖了环境对不同动作的反应方式及其带来的结果。通过持续与环境交互，智能体可以构建和完善其记忆、奖励理解与世界模型，从成功和失败中学习，从而更全面地掌握其所处的操作领域。

近期研究展示了多种面向世界理解的经验学习方法。在基础层面，Inner Monologue【65】展示了智能体如何通过持续交互积累基本的环境知识。同样，Learn-by-Interact【102】表明有意义的理解可以通过直接环境参与而产生，无需明确的奖励机制。更复杂的方法则由 DESP【66】和 Voyager【47】在 Minecraft环境中体现出来，这些智能体不仅积累经验，还主动处理经验：DESP通过结果分析实现，Voyager则通过动态技能库扩展完成。

对积累经验的处理和利用已经通过高级框架进一步系统化。Generative Agents【50】引入了复杂的记忆重放机制，使智能体能够从过去的交互中提取高层次的洞察。这种系统化方法通过 Self-refine【67】和Critic【68】得到增强，它们实现了结构化的经验评估与优化循环。

通过环境交互优化奖励理解也成为世界理解的另一个关键方面。Text2Reward【105】展示了智能体如何通过人类反馈不断优化奖励函数，使其更好地与任务目标和环境特征对齐。类似地，AutoManual【108】通过持续交互构建行为指导方针，发展出基于奖励验证的协议，为理解环境奖励和决策提供基础。这些基于交互的优化机制使智能体能够更好地理解环境动态，并生成更精确的奖励信号，从而在复杂动态环境中提升其适应能力和决策能力。

在这些基础上，RAP【74】实现了重要进展，它将推理概念化为基于世界模型的规划。通过将大语言模型重新用作推理智能体与世界模型，RAP 使智能体能够在执行行为前模拟潜在行为的结果，从而通过蒙特卡洛树搜索实现更有效的规划。这一方法使智能体能够在探索与利用之间实现策略性平衡，深入探索推理空间。

在利用世界模型进行智能体学习方面的进一步创新包括 ActRe【127】，它颠覆了传统的推理—行为顺序，先执行动作再生成事后解释。这种对行为进行合理化的能力展现出大语言模型对世界动态的内在理解，能够实现自主轨迹标注并促进对比式自我训练。

研究还强调了认知地图在世界理解中的重要性，研究【128】表明，受人类认知启发的结构化心理表征显著增强了大语言模型在新环境中的外推能力。这些认知地图不仅改善了规划能力，还展现出类人特征，如结构化心理模拟与快速适应。

在基于网络的环境中，近期研究【107，129】表明大语言模型可以作为有效的世界模型，用于预测网络交互的结果。通过在执行动作前模拟潜在状态变化，这些方法使决策过程更安全高效，特别适用于那些操作不可逆的环境。

通过 Reflexion【48】和ExpeL【69】等系统，智能体在经验学习方面也取得了进步，能够自主管理经验的收集、分析与应用全流程，从成功与失败中有效学习。

这些进展共同说明，世界模型正日益成为智能体学习系统的核心，为理解环境动态提供基础，并在复杂交互环境中促进更有效的规划、推理与决策。

2.2 推理

推理是智能行为的关键，它将原始信息转化为可执行的知识，从而推动问题解决和决策过程。对于人类和人工智能体而言，推理使其能够进行逻辑推断、假设生成，以及有目的地与世界互动。在人类认知中，推理通过多种策略实现：演绎推理将一般规则应用于具体案例，归纳推理从个别实例中建立一般性结论，而溯因推理则从不完整的数据中构建合理的解释。这些推理过程还会通过启发式策略得到增强——启发式是帮助在不确定性条件下简化决策的心理捷径，并通过环境反馈不断优化，确保推理保持现实基础并适应变化。

对于基于大语言模型的智能体而言，推理具有类似的作用，使其超越被动响应系统，成为能够进行复杂认知的主动实体。通过推理，这些智能体可以处理多模态输入、整合多源知识，并制定连贯的策略以实现目标。环境在此过程中扮演双重角色：既是提供支撑推理的信息源，又是推理行为验证的试验场，形成一个反馈循环，使智能体能够验证推论并从错误中学习。

在基于大语言模型的智能体中，推理可以被正式定义为基于心理状态进行动作选择的过程，构成感知与行动之间的关键桥梁。更具体地说，给定时间的心理状态，推理可以形式化为一个函数,，其中表示被选择的动作。该过程可在多种环境中运行——包括文本环境、数字环境和物理环境——其中任务的完成通常需要一个推理步骤，或是由多个推理动作组成的过程。

推理动作的组合自然形成了两种不同的方法：结构化推理与非结构化推理。结构化推理（）可以形式化为显式的组合：。其中每个表示一个独立的推理步骤，具有明确的逻辑依赖关系。相反，非结构化推理（）则采取更整体的形式：其组合方式是隐式的和灵活的，能够根据上下文动态适应。这种双重框架与人类认知相似：结构化推理对应我们显式的逻辑推导过程，而非结构化推理则体现我们进行直觉性问题解决与模式识别的能力。环境在这一形式化过程中发挥着关键作用，它既是影响心理状态更新的观察源（），也是推理结果的测试场。这就形成了一个持续的反馈循环，在该循环中，推理不仅驱动动作选择，也影响智能体心理状态的演化，从而使推理策略能够通过经验不断迭代优化。

在本节中，我们将探讨这些推理方法在实践中的表现。首先我们分析结构化推理，其强调系统性的问题分解和多步骤逻辑链条。接着我们探索非结构化推理，它支持灵活的响应模式和并行的解决方案探索。最后，我们将研究规划这一特殊的推理形式，它融合了结构化与非结构化的方法，用以应对复杂的、具有长时间跨度的任务。

图2.2：基于LLM的智能体的推理范式比较

2.2.1 结构化推理

结构化推理是一种系统化的问题解决方法，它通过明确的组织框架来引导推理过程。与非结构化方法不同，结构化推理将推理步骤的组合明确表达出来，可形式化为：。其中每个表示一个具有清晰逻辑依赖关系的独立推理步骤。在这一表达中，每个推理节点都是一个被显式执行的计算单元，节点之间的连接则代表明确的信息流路径。

这种方法使得解空间的探索更加系统化，并通过有意识的逐步分析支持更稳健的决策过程，同时在整个推理过程中提供高度的可解释性与可追溯性。

2.2.1.1 动态推理结构

动态推理结构允许在问题解决过程中自适应地构建推理路径，形成能够根据中间结果和洞察灵活调整的推理框架。

线性顺序推理：线性结构将推理视为一系列顺序步骤，其中每一步都建立在前一步的基础之上。ReAct【70】通过将推理轨迹与特定任务的动作交替结合，展示了这一结构的运作方式。这种结合使得推理轨迹能够指导并调整行动计划，而行动又可以访问外部信息来源以获取更多信息。这种相互作用增强了推理的完整性和对环境的适应能力。

通过规划进行推理（RAP）【74】扩展了线性推理范式，它将大语言模型的推理过程形式化为马尔可夫决策过程，尽管该方法受限于为特定问题专门设计的状态空间。马尔可夫思维链（MCoT）进一步拓展了这一范式，将每个推理步骤概念化为一个伴随可执行代码的马尔可夫状态。该方法通过将先前的推理压缩为简化的数学问题，实现了无需长上下文窗口的高效下一步推断。Atom of Thoughts【132】则将问题明确表示为状态，并设计了一个通用的“分解—收敛”两阶段状态转移机制，从而构建出马尔可夫式的推理流程，将复杂问题转化为一系列原子问题。

树结构探索则超越了线性结构，通过将推理组织为支持分支探索的层级框架，提供更系统的路径选择方式。Tree of Thoughts (ToT)【72】提出了一种结构化方法，将复杂问题分解为中间步骤，支持对解空间进行广度优先或深度优先搜索，使模型能够同时考虑多个推理路径，并系统地探索可替代方案。

Language Agent Tree Search (LATS)【73】进一步推动了该范式的发展，它结合了蒙特卡洛树搜索（MCTS）与大语言模型，并利用环境作为外部反馈机制。通过大语言模型驱动的价值函数与自我反思，该方法在探索与利用之间实现平衡，从而实现更有目的性和适应性的求解。

RAP【74】也进一步增强了树结构推理，它将大语言模型重新定位为推理智能体和世界模型的双重角色，使其在采取推理行动前可以模拟潜在路径的结果，从而建立一种在推理空间中平衡探索与利用的系统性规划框架。

图结构推理提供了比树结构更大的灵活性，允许推理步骤之间存在非层级关系。Graph of Thoughts (GoT) 【75】将树结构方法扩展为任意图结构，支持更复杂的推理模式，可捕捉不同推理步骤之间的相互依赖。这种方法允许原本看似分离的推理分支相互连接，从而更细致地探索解决方案空间。

Path of Thoughts (PoT) 【76】专注于关系推理难题，将问题分解为三个关键阶段：图结构提取、路径识别与推理。通过明确提取任务无关的图结构，识别问题上下文中的实体、关系和属性，PoT 构建了结构化表示，从而更好地识别相关的推理链条，大幅提升了长链推理任务的表现。

Diagram of Thought (DoT) 【77】将迭代推理建模为一个有向无环图（DAG）的构建过程，将命题、批判、优化和验证整合为统一结构。该方法在保持逻辑一致性的同时，支持对复杂推理路径的探索，并提供了基于拓扑理论的理论框架。

2.2.1.2 静态推理结构

静态推理结构采用固定框架来指导推理过程，不动态调整结构本身，而是专注于在既定结构内优化推理内容。

集成方法（Ensemble Methods）：集成方法通过整合多个独立的推理尝试来提升整体性能。Self-Consistency【78】首创了这一方法，通过对多个推理路径进行采样，而非依赖单一路径的贪婪解码，并通过对生成解进行多数投票显著提升了性能。

MedPrompt【133】展示了领域特定的集成技术如何通过精心设计的提示词来引发多样化的推理方式，从而在医学基准测试上取得了最先进的结果，这得益于系统性构造的提示策略组合。

LLM-Blender【134】引入了一种复杂的集成框架，通过候选输出的成对比较（PairRanker）和融合（GenFuser）来利用多个大语言模型的多样化优势。这一方法使系统能够为每个具体问题选择最优模型输出，从而生成超过任何单一模型能力的响应。

渐进优化（Progressive Improvement）：渐进优化框架专注于通过结构化反馈循环不断改进推理。Self-Refine【67】实现了一种迭代方法，模型首先生成初始输出，然后对其进行自我反馈，并基于反馈进行自我修正。这一机制模仿了人类的修订过程，无需额外训练或强化学习即可在多种任务中带来显著性能提升。

Reflexion【48】扩展了渐进优化的概念，通过整合环境反馈，使智能体能够对任务反馈信号进行语言反思，并将反思内容保存在情景记忆缓冲区中。这种方法通过吸收以往尝试中的洞察来指导未来的决策，在序列决策、编程和推理任务中显著提升了性能。

Progressive-Hint Prompting（PHP）【79】进一步发展了这一范式，它将先前生成的答案作为提示，逐步引导模型走向正确的解决方案。这种方法支持用户与大语言模型之间的多轮自动交互，在保持高效率的同时显著提高了准确率。

错误纠正（Error Correction）：该类框架专注于识别和修正推理过程中的错误。

Self-Verification【80】引入了自我批判机制，模型可以对自己的结论进行反向验证，即将得出的答案作为条件重新求解原问题，并生成可解释的验证评分以指导最终答案的选择。

Refiner【135】针对关键信息分散的问题，能够自适应地提取与查询相关的内容，并根据信息之间的关联性进行重构，突出信息区别，有效地使下游模型对齐原始上下文。

Chain-of-Verification（CoVe）【81】通过结构化的验证流程应对事实幻觉问题。模型首先起草初始响应，然后规划验证问题、独立回答这些问题，最后生成一个经过验证的最终回答。这一严谨的验证过程在多个任务中显著减少了幻觉现象。

Recursive Criticism and Improvement（RCI）【1228】使大语言模型能够通过递归批判与改进执行计算机任务，仅需每个任务少量示例且无需任务特定奖励函数，便在 MiniWoB++ 基准测试中超越了现有方法。

Critic【68】扩展了上述方法，通过集成外部工具进行验证，使大语言模型能够像人类使用工具那样评估并逐步修正自己的输出。该框架使原本“黑箱”的模型能参与持续的评估与优化循环，在多种任务中持续提高性能。

2.2.1.3 领域特定的推理框架

面向特定领域的推理框架将结构化推理方法适配于特定领域的独特需求，借助专业知识与技术手段，在特定语境中提升推理性能。

MathPrompter【82】针对算术推理中的挑战，通过生成多个代数表达式或 Python 函数，从不同角度解决同一道数学问题。该方法通过提供多条验证路径提升对结果的置信度，在算术基准测试中显著超越现有最先进方法。

Physics Reasoner【84】针对物理问题的独特复杂性，采用知识增强型推理框架，构建全面的公式集合，并利用详细的检查清单指导知识的正确应用。该方法通过问题分析、公式检索和引导式推理三个阶段，有效缓解了知识不足和误用问题，显著提升了物理基准测试中的表现。

Pedagogical Chain-of-Thought（PedCoT）【83】借鉴教育理论，特别是布鲁姆认知模型，引导数学推理中的错误识别。该方法将教学理念融入提示设计，并采用双阶段交互流程，为可靠的数学错误识别与自动评分提供了理论和实践基础。

结构化推理在大语言模型智能体中的演化体现出人们对通过显式组织框架提升推理能力的日益深入理解。从线性序列到复杂图结构，从集成方法到特定领域框架，这些方法共同展示了结构化指导在不同任务和领域中提升推理表现的强大能力。

2.2.2 非结构化推理

与显式组织推理步骤的结构化推理方法相对，非结构化推理（）采用整体性形式，表示为，其中推理过程的组合是隐式且灵活的。在这种模式中，推理过程被封装为一个单一的函数映射，不明确划分中间步骤或状态转移。

该方法依赖语言模型固有的生成连贯推理的能力，无需强加严格的结构约束。中间的推理过程可以显式地体现在语言空间中，也可以隐式地发生在潜在空间中。非结构化推理方法在保持实现简洁和高效的同时，已在多种任务中展现出显著的有效性。

2.2.2.1 基于提示词的推理

在大语言模型智能体中，激发推理能力最便捷的方式在于精心设计的提示词（prompt）。通过提供合适的推理示例或引导模型执行推理步骤，智能体能够借助其逻辑推导能力，以灵活的推理过程解决问题。

Chain-of-Thought（CoT）及其变体

CoT 提示【46】是基于提示的推理的基石技术，它通过少量示例演示显式的中间推理步骤，实现在语言空间中显性化推理过程。这一基础方法激发了多个变体的诞生，以增强其能力：Zero-shot CoT【136】：无需提供示例，通过策略性提示（如“我们一步一步地思考”）激发推理能力，提高了可用性，同时保持了效果。

Auto-CoT【137】：自动生成有效的推理演示，通过对问题进行聚类，为每个簇的代表性问题生成推理链，提升了自动化程度。

Least-to-Most Prompting【138】：针对复杂问题，将其分解为一系列子问题，形成逐步递进的规划过程，有利于从简单到复杂的泛化。

Complex CoT【139】：选择高复杂度的问题示例作为提示模板，提升模型处理复杂推理任务的能力。

问题重构策略（Problem Reformulation Strategies）

一些提示方法通过对原始问题的重构来引导推理过程，体现出架构上的创新：Step-Back Prompting【85】：采用“抽象优先”的策略，引导模型先提炼出高层概念或基本原理，再处理具体细节。在物理、化学和多跳推理任务中表现出 7–27% 的性能提升。

Rephrase and Respond【140】：通过语义扩展将原问题转换为更易处理的形式，使模型从不同语言角度出发探索问题。

Abstraction-of-Thought（AoT）【141】：引入一种新型结构化推理格式，要求模型在推理过程中经历不同抽象层级。通过在高质量样本上进行微调，AoT 在多个推理任务中相较于传统 CoT 模型展现出显著性能提升。

增强型提示框架（Enhanced Prompting Frameworks）

多个系统在基本提示范式基础上构建了更复杂的推理环境：Ask Me Anything 【86】：将开放式生成任务重构为结构化的问答序列，从而控制推理轨迹并提升稳定性。该方法使开源模型 GPT-J-6B 在 20 项主流基准中的 15 项上匹敌或超越 GPT3-175B。

Algorithm of Thoughts（AoT）【142】：利用完整算法示例，引导 LLM 沿算法路径进行推理，借助其递归动态机制扩展思维探索范围。在节省大量 token 的情况下，超越单轮及多轮提示方法，甚至优于所用的基础算法。

Chain-of-Knowledge（CoK）【87】：通过动态集成来自多源异构知识的内容，增强 LLM 的事实基础和理性推理能力。CoK 包括推理准备、动态知识适配和答案整合三个阶段，有效减少推理过程中的幻觉与误差传播。

Self-Explained Keywords（SEK）【88】：针对代码生成中低频术语的挑战，模型提取并解释问题描述中的关键术语，并依据频率进行排序，从而显著提高在多个基准上的代码生成性能，使注意力从低频关键词转向其高频对等词。

这些提示技术和策略共同展示了非结构化推理方法在无需明确结构引导的前提下，如何通过语言建构实现高效、灵活且具有解释性的推理过程，推动大语言模型在广泛推理任务中的表现不断攀升。

2.2.2.2 推理模型

近年来语言模型的进步促使了一类专门面向复杂推理任务的推理模型的发展。这些模型通过微调或专门训练，旨在优化其推理能力，并在需要多步骤逻辑推导的任务中表现出更强性能。

这类推理模型通常融合了架构设计上的创新与训练机制上的改进，包括引入结构化提示模板、推理路径控制机制、复杂示例驱动训练，以及基于强化学习的推理反馈优化等。这些技术提升了模型在链式推理、多跳问答、复杂规划与命题验证等任务中的表现，使其超越了通用语言模型在高阶推理任务中的能力瓶颈。

像 DeepSeek 的 R1【89】、Anthropic的Claude 3.7 Sonnet【9】、以及 OpenAI的o系列模型【90]】等推理模型，代表了当前语言模型在推理能力方面的前沿发展。这些模型在各种推理基准测试中表现出卓越的能力，展现出在复杂推理任务上的显著优势。

这些模型采用了强调推理模式的专门训练方法，通常结合了大量人类反馈（Human Feedback）与强化学习（Reinforcement Learning），以增强其推理能力。相比于通用语言模型，这类推理模型在数学推导、多步骤问题求解、逻辑推理等复杂任务上具备更高的准确性与稳定性。

专用推理模型的兴起，反映了人们对推理能力在语言模型中重要性的日益认识，也突显了为推理任务定制训练所带来的潜在收益。通过聚焦于推理导向的训练数据与目标函数，这些模型在特定任务上的性能大幅超越了通用模型，成为解决高阶认知问题的新一代关键工具。

2.2.2.3 隐式推理

除了显式推理方法，近期研究还探索了隐式推理方法的潜力，即在不明显暴露推理过程的前提下进行推理。这类方法旨在通过减少生成的 token 数量来提升效率，同时维持甚至提升推理表现。

Quiet-STaR【91】是对 Self-Taught Reasoner 方法的泛化，教会语言模型在生成文本的每个 token 时提供对未来文本的推理解释，从而提升预测能力。该方法应对了多个关键挑战，包括计算成本、模型对“生成内部思维”模式的不熟悉，以及对超越单 token 预测的需求。实验结果显示，在持续预训练后，数学推理准确率从 5.9% 提升至 10.9%，常识推理从 36.3% 提升至 47.2%，标志着模型向更通用、可扩展推理方向的重要进展。

Chain of Continuous Thought（Coconut）【92】提出了在连续隐空间中进行推理的新范式，而非使用自然语言。该方法利用语言模型的最终隐藏状态作为推理状态的表示，并将其直接反馈为后续输入嵌入。Coconut 在推理任务中显著减少了生成的推理 token 数量，同时提升了推理性能。它还能编码多个潜在的下一个推理步骤，使模型具备“广度优先”搜索能力，而非仅沿单一路径推理。

同时，对 transformer 模型中隐式推理能力的分析研究【143】揭示了其局限性。研究发现，当模型在固定模式的数据上训练时，能够通过隐式推理在域内与域外测试中实现高准确率；但在非固定模式数据上训练时，模型往往通过“捷径学习”过拟合特定模式，导致泛化能力不足。这说明当前语言模型的隐式推理能力在某些任务中虽强，但在广泛泛化方面仍存在明显限制。

总体而言，非结构化推理方法的演化展现了语言模型在不同推理范式下的出色适应能力。从简单提示策略到复杂的隐式推理机制，这些方法依托 LLM 的内在能力，在不依赖明确结构约束的情况下实现复杂逻辑推理。这种灵活性不仅使问题求解过程更自然直观，也在保持推理效率的同时，保障了广泛任务中的推理效果。

2.2.3 规划

规划是人类认知的基本组成部分，使个体能够在复杂、动态的环境中组织行为、预测结果并实现目标【144】。形式上，规划可描述为从初始状态到目标状态的路径构建过程，记作: 。其中是起始状态，是可能动作的序列，是目标状态。

不同于直接推理，规划涉及在执行之前生成假设性的动作序列，这些动作在部署前作为计算节点处于非激活状态。这种认知能力源自多个专门神经回路之间的协作，例如额前皮层（负责执行控制）和海马体（支持情景前瞻和空间映射）。来自决策理论、心理学和控制论的研究——如理性框架、前景理论和反馈回路——展示了规划如何帮助人类超越被动行为，通过有意识的意图和自适应策略主动塑造未来。这一能力不仅支撑着智能行为，也为开发拟仿并增强此能力的大语言模型（LLM）智能体提供了参考模型【145, 146】。

在人类认知中，规划作为一种分层过程运行，将即时决策与长期目标整合。这反映了大脑的模块化结构，不同神经系统协作以平衡当前需求与未来可能性——这一动态正是控制理论中稳定性与优化原则的体现。相应地，基于LLM的智能体也通过利用其丰富的语言知识和上下文推理能力来执行规划任务，将输入转化为可执行步骤。无论面对结构化任务还是不可预测挑战，这些模型通过目标分解、结果评估和策略优化等方式模拟人类的规划方式，实现生物灵感与人工智能的融合。

本节将探讨规划的理论基础与实践技术，从顺序方法到并行探索，凸显其在智能系统中的关键角色。尽管LLM在自动规划方面显示出潜力，其性能仍面临一系列限制，主要源于世界知识的不足【147】。LLM往往缺乏对世界动态的深层理解，依赖模式识别而非真实因果推理，限制了其处理子目标交互与环境变化的能力【148】。此外，它们对静态预训练数据的依赖，也限制了在实时场景中的适应能力，从而影响其在动态规划任务中的泛化能力【149】。由于缺乏内在的“系统2型”推理机制，LLM难以独立生成结构化的最优规划方案【150】。

不过，研究者已经提出多种策略来应对这些挑战，如：

任务分解（Task Decomposition）

任务分解通过将复杂目标拆解为更小、可管理的子任务来增强LLM的规划能力，从而降低问题复杂度并提升系统化推理。Least-to-Most Prompting【138】是此方法的典范，引导LLM逐步解决子问题。ADaPT【151】进一步优化了这一策略，依据任务复杂度与模型能力动态调整分解方式，特别适用于交互式决策情境。这些方法还能实现并行子任务处理、反向误差追踪和独立性判断【132】，为推理提供结构化框架。

在LLM规划中，任务被视为可执行单元——不同于形式模型中的静态状态描述——强调结构化的行动序列来达成预期结果 [66]。这些任务形式多样：有些是需具体求解的子问题（如数学方程），有些涉及工具调用（如在旅行规划中查询天气API）【152, 153】，还有一些表现为依赖图中的节点（如项目管理中的目标优先排序）【154】。通过清晰、模块化地定义目标，这些方法提升了推理与行动效率，使智能体能更精准地应对复杂问题空间【93】。

搜索（Searching）

由于LLM本质上的随机性 [155]，并行采样结合聚合推理能够提升推理质量。任务分解结构组织了单独的解轨迹，从而构建出一个包含多个通往目标路径及其关联的解空间【72, 156】。该解空间支持对多种潜在方案进行采样【157】，可结合反思、评审、并行采样与知识指导进行探索【158】。受限于计算资源，无法穷举解空间时，有效导航显得尤为关键。

常见方法包括：

树搜索算法，如LAT【159】

启发式策略，如PlanCritic的遗传算法【160】

自一致性检查（CoT-SC），识别重复解路径【78】

基于奖励的模型，如ARMAP，对中间与最终结果进行评估以优化路径【106】

这一迭代探索与优化过程提升了策略的适应性，使智能体能够在复杂问题中生成更稳健的解法。

世界知识（World Knowledge）

有效规划要求智能体能在动态环境中导航、预见变化并预测结果，因此世界知识尤为重要。RAP【74】探讨了LLM、智能体系统与世界模型之间的关系，将LLM定位为双重角色：作为世界模型，它预测行为后的状态变化【107, 161】；作为智能体，它基于当前状态与目标选择行动【70】。该框架模拟人类认知——在采取行动前模拟其后果——并统一了语言模型、智能体模型与世界模型的角色【162】。

智能体还通过整合外部知识增强LLM能力，弥补其对世界理解的不足。ReAct【70]】使用行动-观察循环（action-observation loop）获取环境反馈，结合实时数据与语言知识，在复杂场景中提升决策能力，使模型在执行过程中持续完善其世界模型，支持自适应规划。

另一个方法是LLM+P【163】，它将LLM与PDDL（规划领域定义语言）结合，将自然语言输入转化为正式表示，再由传统规划器求解【164, 165】。这种混合方法弥补了LLM在结构化规划中的不足，融合其语言灵活性与传统系统的可靠性。

进一步的进展还包括：