近年来,大型语言模型(LLM)的功能已经改变了自然语言处理和理解,取得了令人瞩目的里程碑式成就。尽管取得了这些进步,大型语言模型在交互环境中仍面临巨大挑战,尤其是在需要多步骤推理的任务中,如网络导航。当前的训练方法依赖于静态语言数据集,不足以让这些模型适应真实世界的动态交互。
Agent Q的出现是Agent的一个重要里程碑,它将搜索、自我批评和强化学习结合在一起,创造出能够规划和自我修复的最先进的自主网络代理。我们的突破性方法解决了以往 LLM 训练技术的局限性,为自主网络导航引入了一个新颖的学习和推理框架。
当前方法的问题
目前的方法,如在专家示范的基础上进行有监督的微调,往往由于误差的累积和探索数据的有限而无法满足代理多步骤任务的要求。这些方法会产生次优策略,尤其是在需要复杂决策和自适应学习的动态环境中。
Agent Q 研究:解释
Agent Q 的创新之处在于将引导蒙特卡洛树搜索(MCTS)和人工智能自我批评与迭代微调相结合,利用了人类反馈强化学习(RLFH)方法,如直接偏好优化(DPO)算法。这种方法使 LLM 代理能够从成功和不成功的轨迹中学习,从而增强其在多步骤推理任务中的概括能力。
Agent Q. 的关键组成部分
-
MCTS 引导搜索:该技术通过探索不同的行动和网页自主生成数据,在探索和利用之间取得平衡。MCTS 利用高采样温度和多样化的提示来扩展行动空间,确保收集到多样化的最佳轨迹。
-
人工智能自我批评:在每一步中,基于人工智能的自我批评都会提供有价值的反馈,完善代理的决策过程。这种步骤级反馈对于长视距任务至关重要,因为信号稀少往往会导致学习困难。
-
直接偏好优化(Direct Preference Optimization):DPO 算法通过从 MCTS 生成的数据中构建偏好对来微调模型。这种非策略训练方法能让模型从总体数据集(包括搜索过程中探索的次优分支)中有效学习,从而提高在复杂环境中的成功率。
真实世界验证
在 Open Table 的实际预订实验中,MultiOn 的代理大幅提高了 LLaMa-3 模型的零成功率,从 18.6% 提高到 81.7%,仅一天的自主数据收集就提高了 340%,在线搜索的零成功率进一步提高到 95.4%。这些结果凸显了我们的方法在自主网络代理改进方面的效率和能力。
论文:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
官网: https://www.multion.ai/
结论
MultiOn 的 Agent Q 为自主网络代理树立了一个新的重要里程碑,它结合了先进的搜索技术、人工智能自我批判和强化学习,克服了当前的局限性,代表了自主代理能力的重大飞跃。随着我们不断完善这些方法并解决相关挑战,我们的产品将更接近于全面发布,智能自主网络代理在现实世界中的前景一片光明。
今年晚些时候,MultiOn 的开发人员和消费者用户都将可以使用这一研究突破。
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!