In-Context Learning(ICL)
将一些带有标签的样本拼接起来,作为prompt的一部分。不涉及梯度更新,因此不属于ft
CoT
但是其依然属于静态的黑盒子,依靠其推理的结果很难与真实知识保持一致,且限制了推理过程中及时反应和知识更新的能力。从而可能引发推理过程中的幻觉问题。虽然目前有一些工作在研究嵌入式reasoning,但还没有研究如何将推理和行动以协同的方式结合起来解决通用任务,以及这种结合是否比单独的推理或行动带来系统性的好处
Reason-Only
可能只需要进行推理,而不需要采取任何行动。例如,一个天气预报系统可能需要分析大量的气象数据来预测未来的天气状况,但不需要执行任何物理行动。
Act-Only
有些智能代理可能主要负责执行任务,而不需要进行复杂的推理。例如,一个自动化的咖啡机可以根据用户的简单指令(如“一杯咖啡”)来制作咖啡,而不需要进行复杂的环境分析或预测。
ReAct
旨在通过提示的方式来让大语言模型能够协同Action和Reasoning。大语言模型在执行动作与外部环境进行交互的同时,能够及时的进行推理和思考,并基于这些思考及时地调整后续的Action。下图展示了ReAct的工作机制,挑选了两个例子(HotpotQA和AlfWold)并对比了其他三个Baseline(ICL、CoT、Act-only):