超越GPT-4，清华发布网页导航智能体AutoWebGLM

随着大语言模型（LLMs）的发展，Agent在网络导航等任务中展现出了前所未有的能力。想象一下，一个基于LLM的Agent能够在你享用早餐时为你总结在线新闻，这样的场景已经不再遥不可及。这种将LLMs融入日常任务的做法，不仅优化了我们与技术的互动方式，也重新定义了机器辅助生产力的边界。

许多公司都看好这一块的发展，已着手耕耘，期待着引发一场交互技术的变革，如腾讯的AppAgent、阿里的Mobile Agent等。前百度智能家居硬件总经理吕骋再次创业推出的智能网页访问一体机Rabbit R1，更是引领了一股时代潮流。这不，据说Sam Altman与前苹果设计总监Jony Ive共同创办的神秘AI硬件公司，也与这脱不了干系。

但是，目前真正能使用的网页操作Agent，因现实世界中网页行动的多样性、HTML文本的庞大以及网络开放性质带来的决策复杂性等原因，在实际应用中表现得远不尽人意。

为了应对这些挑战，清华大学的研究者们开发了AutoWebGLM，这是一个基于ChatGLM3-6B构建的自动化网络导航Agent，它在多个方面超越了GPT-4（下图），并通过人工智能与人类的混合方法构建了网络浏览数据，以进行课程训练。AutoWebGLM通过强化学习和拒绝采样进一步提升了模型对网页的理解、浏览器操作以及自身高效任务分解的能力。这一切的进展，都预示着Agent在网络世界中的新征程已经开启。

GPT-3.5研究测试：

https://hujiaoai.cn

GPT-4研究测试：

https://higpt4.cn

Claude-3研究测试（全面吊打GPT-4）：

https://hiclaude3.com

论文标题:
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

论文链接:
https://arxiv.org/pdf/2404.03648.pdf

项目地址:
https://github.com/THUDM/AutoWebGLM

挑战与动机：网络导航中的三大难题

网络导航面临的三大挑战包括：

缺乏统一的行动空间：缺少一个全面且便捷的行动空间，能够覆盖浏览器上各种网站所需执行的所有必要任务。
缺乏网页简化方法：网页的多样性和复杂性，以及它们倾向于冗长的文本，对LLMs理解内容和执行正确操作构成了重大挑战。内容丰富的网页的token长度通常可以达到30k以上。
缺乏高质量的训练跟踪：现有的训练Agent在网络任务的正确推断和自检方面明显缺乏能力。一旦陷入错误循环，它们很难及时纠正问题。

为了应对这些挑战，研究者们设计了AutoWebGLM，这是一个基于开源ChatGLM3-6B模型的网页浏览Agent。与之前的WebGLM相比，AutoWebGLM专注于通过真实浏览器自主完成复杂任务。我们采用高效的数据策略快速构建训练数据集，并使用监督和强化学习方法训练AutoWebGLM，以提高其在网页浏览任务上的性能。

此外，我们使用拒绝采样微调（RFT）技术进行持续学习，使Agent能在特定领域成为专家。我们还开发了基于AutoWebGLM的Chrome扩展（下图，任务是为小孩选择圣诞节礼物），并创建了首个双语（英文和中文）网页浏览评估数据集，以适应不同地区网站的风格差异。

AutoWebGLM框架介绍

如下图，我们通过HTML简化和OCR技术处理网页信息，以便于Agent交互，并启动动作预测。AUTOWEBGLM将这些组件整合，提升了交互和导航精度。为了构建健壮的网页浏览框架，我们定义了观察空间和动作空间，以标准化数据源的转换。

观察空间包括任务描述、简化HTML、当前位置和历史操作记录，旨在提供接近浏览器界面的信息，提升模型的网页理解和操作能力。

动作空间则基于语言模型，定义了一套完整的函数调用（下表），使Agent能够在网页浏览中执行各种操作。我们通过这些设计，旨在提高模型在网页浏览任务中的性能和适应性。

为了应对网页HTML文本的庞大和复杂性，AutoWebGLM框架设计了一种HTML简化算法。这个算法的目标是在保留网页关键信息的同时，去除冗余或干扰元素，以便模型能够更有效地理解和操作网页。简化过程中，必须保留HTML的基本结构和重要内容信息，以便模型能够理解并利用这些信息完成网页浏览任务。算法通过递归计数、最大深度、最大子节点数和最大兄弟节点数等参数，有效地将元素树转换为简洁的表示形式。

混合人工智能方法构建训练数据集AutoWebBench

鉴于实际用户产生的高质量、复杂网页浏览数据稀缺，我们旨在创建一个训练数据集，但面临几个挑战：

任务收集：获取不同网站上多样化的真实用户任务查询是一个重大障碍。
隐私与安全：隐私和安全限制阻碍了直接获取用户浏览器操作序列，同时确认用户任务完成情况也具有挑战性。
目标标注：为每个操作步骤收集用户目标在现实世界数据收集中不切实际。
模型限制：现有模型无法处理跨网站的复杂用户查询，限制了在真实环境中使用自动化方法收集准确浏览轨迹的能力。

为应对这些挑战，我们提出了一种混合人机数据构建方法，并把数据分为两类进行构建（如下图所示）：

网络识别和简单任务操作构建：我们的目标是训练模型准确识别网页结构并执行基本操作。我们收集中英文主流网站的URLs，使用HTML解析器识别可操作组件，并生成简化的HTML。我们还设计任务描述，如网站和组件功能，以帮助模型识别网页结构和交互组件的功能。
复杂任务操作构建：我们开发了一个数据集，以使模型能够在网页浏览场景中进行规划和推理。每个样本包括一个真实世界的复杂网页浏览任务、完成任务的操作序列和每个步骤的意图。

在上面的基础上，我们构建了AutoWebBench，一个用于评估的复杂任务操作数据集，分为领域内和领域外两部分，以衡量模型在熟悉和陌生环境下的性能。我们为每个分割选择50个浏览轨迹作为测试数据，并进行全面评估以衡量模型操作的准确性。

强化学习与拒绝采样在模型训练中的应用

为了提升模型在网页浏览任务中的表现，我们采取了三个关键步骤进行训练（如下图）：

课程学习：我们实施了监督微调（SFT），并利用课程学习（CL）策略，即从简单任务开始，逐步过渡到复杂任务，以此增强模型对网页的理解和操作执行能力。
强化学习：在SFT的基础上，我们采用自采样强化学习方法来进一步训练模型，通过多次采样和对比正负样本，以及DPO训练方法，减少操作错误并提升模型的推理能力。
拒绝采样微调（RFT）：最后，我们通过RFT针对特定网页环境进行优化，通过大量采样和奖励信号选择，提高了模型在没有实例的情况下的准确度。

实验设计：AutoWebBench双语基准测试

1. 测试设置与评估指标

AutoWebBench是一个双语（英语和中文）的网页浏览评估数据集，用于测试AutoWebGLM的性能。测试集被分为四个部分：中文、英文、领域内和领域外，以评估模型在熟悉和不熟悉环境中的表现。评估指标为步骤成功率（Step Success Rate, SSR），这允许对模型在执行操作的每一步中的准确性进行评估（下表）。

2. 实验结果与模型性能分析

实验结果显示，AutoWebGLM在多任务训练后，在预测用户操作模式方面表现出色，与用户操作高度一致。与其他基线模型相比（下表），AutoWebGLM在没有足够训练的情况下，能够更准确地学习基于网页内容和任务描述的用户操作。此外，通过对不同数据和训练策略的消融研究，发现复杂任务数据集显著提高了模型性能，而简单任务数据集在与复杂任务数据集联合训练时也显示出显著改进。强化学习和拒绝采样进一步增强了模型在特定领域的性能。

模型训练策略的消融研究

1. 训练数据的影响

我们训练和测试了那些包含原始训练集，并融合了简单任务和复杂任务数据的模型。实验结果显示（下表上半部分），引入复杂任务数据集能显著提升模型的性能。我们假设这是因为复杂任务数据更接近真实世界的操作场景，因此从根本上改善了模型的表现。相比之下，仅包含简单任务的数据集在单独训练时对性能的提升作用有限。但是，当它与复杂任务数据集结合训练时，模型性能却有了显著的提高。我们还发现，如果仅用复杂任务数据集进行训练，可能会导致一些基本的操作错误。这表明，在训练中加入简单任务数据集可以有效减少这类问题的发生。

2. 训练策略的效果对比

我们将SFT（监督微调）、DPO（自采样强化学习）和RFT（拒绝采样微调）增强模型的结果进行了比较（上表下半部分），并发现：（1）与SFT相比，DPO训练有助于模型从错误中学习，进一步提升了模型的性能。（2）RFT使我们的模型能够在不同领域进行自举增强。随着实践的深入，模型在每个领域内的熟练度提高，从而带来了性能上的改进。

错误分析与案例研究

1. 常见错误类型与分布

在AutoWebGLM的实际应用中，我们通过错误分析识别了一些在任务执行过程中偶尔出现的错误类型。这些错误可以大致分为四类：幻觉错误、图形识别不良、任务上下文误解和弹窗干扰。在我们的分析中（下表），幻觉错误占比最大，达到44%，其次是图形识别不良，占比28%，任务上下文误解占比20%，弹窗干扰占比8%。尽管这些错误相对不频繁，但它们在我们持续改进和提高系统能力的努力中至关重要。

2. 典型案例展示与讨论

我们进行了一系列案例研究，涵盖了包括日常使用、休闲放松和学术研究在内的各种基于网页的任务，覆盖了网页需求的典型范围。在大多数情况下，我们的系统都取得了令人满意的结果。

例如，在一个涉及使用社交媒体网站的任务中，模型成功地根据用户指令导航到了正确的页面，并执行了相关的点击和输入操作。然而，在另一个涉及在线购物的任务中，模型由于图形识别不良，错误地点击了一个广告链接，而不是预期的产品链接。这些案例展示了AutoWebGLM在处理真实世界任务时的潜力和局限性，为未来的研究和改进提供了宝贵的见解。

结论与展望

本文提出了AutoWebGLM，这是一个基于高级语言模型的Agent，它在多个自动网页导航基准测试中表现出色。该模型克服了现有LLM的局限，通过控制HTML文本长度和处理开放领域特性来简化网页。我们采用了课程学习、强化学习和拒绝采样微调等策略来提升网页理解和浏览器操作的学习效果。此外，我们还引入了一个独特的双语网页浏览基准，为未来研究打下了基础。这些研究成果在利用LLM开发Agent方面取得了显著进展。

AutoWebGLM作为一种新兴的网络导航Agent，其未来的发展方向包括进一步提升模型的泛化能力，以适应更多样化的网络环境和任务。此外，研究者们可能会探索如何减少模型对人类辅助的依赖，使其能够更独立地完成复杂任务。随着技术的进步，AutoWebGLM有望在网络导航的准确性和效率方面取得更大的突破，从而更好地服务于实际应用。

Agent技术的发展将对我们与技术互动的方式产生深远的影响。随着LLMs在日常任务中的集成，我们可以预见到各种以前难以想象的场景。例如，一个基于LLM的Agent可以在我们早餐时为我们总结在线新闻。这种技术的融合预示着我们与技术互动方式的重大转变，它将优化我们的效率并重新定义机器辅助生产力的边界。随着Agent技术的不断进步，我们可以期待它们在未来为人类带来更多便利和效率的提升。