大模型范式下的知识检索增强实践（非常详细）零基础入门到精通，收藏这一篇就够了

导读

OpenKG新开设“TOC专家谈”栏目，推送OpenKG TOC（技术监督委员会）专家成员的观点文章。本期邀请到阿里巴巴通义实验室自然语言处理方向负责人黄非研究员介绍通义大模型在知识检索增强方面的一些实践。

随着人工智能技术的飞速发展，大模型以其强大的自然语言理解和生成能力，在诸多领域展现出前所未有的潜力。然而，面对瞬息万变的信息环境、海量的专业知识需求以及对精准性、时效性的严苛要求，纯粹依赖模型内部参数固化知识的大模型有时显得力有未逮。在此背景下，“检索增强”的技术应运而生，旨在通过巧妙结合外部知识库与大模型的核心能力，实现知识处理与智能交互效能的显著提升。以下是对检索增强这一前沿技术的专家访谈，旨在引导读者了解相关技术发展动态和前沿实践。

通义大模型

通义系列大模型是由阿里巴巴集团通义实验室研发的一系列大型预训练模型，代表了阿里巴巴在人工智能领域的先进技术与研究成果。这些模型以其强大的语言理解、生成、推理和多模态处理能力，广泛应用于各类场景，致力于实现接近人类智慧的通用智能，并推动AI技术在各行各业的落地应用。

通义大模型已经广泛应用于众多实际场景中，特别是在阿里巴巴集团内部产品得到深度集成和应用。如阿里云、钉钉、天猫等。

大模型知识检索增强（RAG）

大模型时代的检索增强技术是指在当前以大规模预训练语言模型为主导的自然语言处理（NLP）背景下，对检索增强策略进行的革新和发展。大模型，如GPT系列等，凭借其庞大的参数规模，对广泛的通用知识进行压缩表示学习，实现了强大的语言理解与生成能力，已经在诸多NLP任务中取得了突破性进展。然而，即使是最先进的大模型也存在知识边界、时效性不足、缺乏特定领域知识等问题。检索增强技术在此背景下扮演了重要角色，通过巧妙地融入外部知识源，进一步提升大模型的性能和适用范围，具体而言是一种结合信息检索技术和现代大模型技术，来提升模型性能和泛化能力的技术策略。它的核心思想是利用外部存储的知识库（如文本数据库、知识图谱、多模态信息等）在模型推理过程中实时获取相关信息，以此辅助模型做出更准确、更具上下文信息的决策。

在工业界实际应用中，传统的RAG方法仍面临诸多挑战。首先，单一的Query文本表示方法存在一些局限性，无法准确捕捉复杂语义的文档关联性，仅能确定相关性，而无法进行深入的语义理解。其次，RAG所需的意图理解，query 改写，检索生成等技术在训练过程中依赖标注数据，而获取大规模线上Query标注数据异常困难且成本高昂，限制了其在实际应用中的可行性和效率。

最近，我们在RAG场景下和浙江大学陈华钧老师团队合作做了两个工作，一个是通过优化RAG最为核心的组件–Query改写，通过基于排序反馈增强RAG有效提升通义大模型开放域知识问答的效果，另一个是基于检索增强来提升大模型的NLU能力，分别介绍如下：

基于排序反馈增强RAG方法

当RAG链路中使用原始Query没能检索到可回答的文档时，我们就需要通过对原Query进行改写来实现对相关搜索文档的扩充。现阶段，尽管大模型自身可以实现Query改写，但因其高昂的调用成本，RAG链路中小型改写模型仍非常重要。目前学术界和工业界改进小型Query改写模型的主要思路之一是基于强化学习反馈。然而，过去对于改写的反馈通常基于标注数据如特定数据集的标注文档或特定任务的标注答案等。在通义的开放域问答场景往往缺乏这样的标注，此外依赖标注数据的反馈思路缺乏足够的泛化能力。

针对上述问题，我们提出了面向RAG场景的基于排序(Reranker)反馈的Query改写方法。Reranker的目标和功能是对于文档和原始Query之间的相关性进行打分，最后根据分数对检索文档进行重排，因此Reranker在不需要标注文档的情况下，可以利用开放域搜索引擎的检索结果来提供信号，并且这个信号与Query改写的目标高度一致。基于Reranker的改写反馈信号，我们的改写训练框架同时支持在线实时的(PPO等)以及离线的(DPO、KTO等)反馈训练，以实现开放域问答效果的提升。

基于语言模型随机点过程的上下文学习方法

除了开放域问答之外，RAG还可以应用于更多任务如NLU。然而，当前通义RAG系统因缺乏大量的标注数据而在NLU等实际应用上存在限制。事实上，获取大规模的线上Query标注数据既困难又昂贵。针对这一问题，我们探索了如何通过主动学习的方式降低标注成本，提出了一种基于语言模型随机点过程的上下文学习标注选择机制，旨在优化大模型的少量样本学习能力，选择性标注位于标准示例检索之前。

我们提出的语言模型随机点过程（LM-DPP）方法通过结合大模型的困惑度（Perplexity）来评估每个候选实例的不确定性，并构建一个Gram矩阵（Gram matrix）来平衡候选实例的不确定性和多样性。应用多项式时间最大后验（Maximum a Posteriori, MAP）推断来识别最有用的实例子集进行标注。

通过在12个分类和2个生成数据集上进行实验，我们验证了LM-DPP的有效性，并展示了其在不同大模型上的通用性。在资源有限的情况下，该方法为如何有效地利用大模型进行标注和RAG在低资源场景下的NLU应用提供了新思路。

检索增强与AI智能体

当前，通义RAG技术已深度融入阿里巴巴集团旗下的多项核心应用，包括通义千问、阿里云百炼以及阿里云AI助理，以及办公协作平台钉钉等等，显著提升了这些应用在信息检索、对话交互与定制化模型构建等方面的能力。

在通义千问这一智能问答平台上，通义RAG技术扮演着关键角色。面对用户提出的涉及实时信息查询、新闻事件更新、市场动态追踪等需求时，通义RAG能够迅速从互联网的海量资源中精准检索到最相关、最新的数据，并以此为依据生成准确且即时的回答。这种融合检索与生成机制的方式确保了通义千问在应对瞬息万变的信息环境时，仍能提供高度时效性与可靠性的支持，满足用户对实时信息获取的高期待。

在阿里云百炼平台上，通义RAG则助力外部企业实现基于自身数据的个性化大模型构建。企业客户通过安全上传其独有的业务数据，通义RAG系统能够有效整合这些数据与云端大规模预训练模型的力量，形成对企业特有知识深度理解和精准建模的专属大模型服务。

对于阿里云AI助理这一服务于阿里云产品咨询的对话式智能助手而言，通义RAG的应用进一步增强了其专业性与响应效率。用户通过自然对话方式提出关于阿里云各项产品和服务的疑问时，AI助理不仅依赖于内置的知识库，更利用通义RAG的检索能力，实时抓取阿里云官方资料、最新公告、技术文档等权威来源信息，确保回复内容的准确性与全面性。这种即时检索与对话生成的无缝结合，使得用户在寻求技术支持、了解产品特性或规划云解决方案时，能够获得如同与资深专家交谈般的流畅体验。

总结与展望

在工业领域，RAG模块的复杂多样性和链路的错综复杂性带来了诸多挑战，其中包括但不限于检索库中存在的噪音等问题。如何精准识别用户意图并实现鲁棒且自动的知识检索增强过程，如何结合通用知识库（如互联网），专业知识库，私有域的知识库，以及提供个性化智能体，是我们亟待解决的任务。自动化构建高质量的检索增强知识库、设计原生支持检索和规划的大模型架构，是关键的技术路径。

在未来，我们期望通过结合规划知识库等技术进一步提升大模型执行检索和推理、规划能力，通过基于参数与符号相结合的弹性可编辑知识库等技术提升大模型的知识更新能力，不断探索并推动大模型和智能体的自主进化新技术。