罗格斯大学：通过输入嵌入对齐选择agent

news2026/2/13 1:40:48

在这里插入图片描述

📖标题：AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback
🌐来源：arXiv, 2501.13333

🌟摘要

🔸多代理系统必须决定哪个代理最适合给定的任务。我们提出了一种新的架构，通过扩展句子BERT（SBERT）编码器模型，在给定自然语言提示的情况下，推荐许多LLM代理中的哪一个应该执行任务。
🔸在测试数据上，我们能够实现92.2%的top-1准确率，每次分类的时间不到300毫秒。与传统的分类方法相比，我们的架构计算成本低，适应新类，可解释，并且可以通过强化学习用任意度量进行控制。通过将自然语言提示编码到句子嵌入中，我们的模型捕获了与推荐代理相关的语义内容。然后，通过调优，将属于同一主体的句子嵌入之间的距离最小化，并通过从人类反馈中进行强化学习，使其与人类价值观保持一致。这允许通过测量嵌入之间的余弦相似性，基于最近邻对自然语言提示进行分类。
🔸这项工作是通过为代理推荐生成一个合成数据集来实现的，我们已经将该数据集与AgentRec推荐系统的代码一起开源给公众，网址为https://github.com/joshprk/agentrec.

🛎️文章简介

🔸研究问题：在多代理系统中如何根据自然语言提示快速、准确地推荐最适合的代理来执行特定任务？
🔸主要贡献：论文提出了一个名为AgentRec的框架，通过使用句子嵌入和对齐人类反馈的方法，实现了在多代理系统中高效、准确的代理推荐。

📝重点思路

🔸主要思想：将自然语言用户提示编码成句子嵌入，并与代理句子嵌入进行相似度比较，从而推荐适合完成特定任务的代理。
🔸数据集生成：使用Llama-3.1-8B-Instruct模型生成合成数据集，确保数据集的代表性和非重复性。
🔸句子嵌入生成：使用SBERT编码器生成每个代理的句子嵌入，并将这些嵌入缓存以加快系统初始化。
🔸评分函数设计：通过比较余弦相似度的均值来设计评分函数，发现对数广义p均值效果最佳。
🔸对齐人类反馈（RLHF）：通过监督微调（SFT）生成初始RL策略，并通过奖励模型对齐人类价值观。
🔸系统架构：扩展了Sentence-BERT模型，提供了一个端到端的方法来推荐代理，处理用户提示的标准化和重述。

🔎分析总结

🔸整体表现：AgentRec在8个代理上的top-1测试准确率达到92.2%，显示出较高的推荐准确性。
🔸系统性能：推荐系统在单个NVIDIA RTX A5000上每个提示的平均处理时间少于300毫秒。
🔸鲁棒性：系统对结构相似但语义不同的提示具有鲁棒性，能够准确推荐适合的代理。
🔸数据集的影响：使用合成数据集进行训练和测试，确保了数据的多样性和代表性。
🔸人类反馈对齐：通过RLHF方法，系统能够更好地对齐人类价值观，提高了推荐的准确性。