利用语义搜索和混合查询策略提升RAG系统的准确性

人工智能咨询培训老师叶梓转载标明出处

在构建基于大模型（LLM）的生成式问答系统（Generative Q&A）时，检索增强生成（Retrieval-Augmented Generation, RAG）方法被广泛采用。RAG通过结合检索器（Retriever）和生成器（Generator）来实现，其中检索器负责从大量文档中提取最相关的信息，为语言模型提供上下文支持。然而，随着文档库规模的扩大，RAG的准确性面临挑战。IBM的研究人员提出了一种名为“Blended RAG”的新方法，通过利用语义搜索技术以及混合查询策略，显著提高了RAG的检索准确性，并在多个信息检索（IR）数据集上设立了新的基准。

方法

提升RAG系统的性能有三种不同的搜索策略。包括基于关键词的相似性搜索、基于密集向量的搜索，以及基于语义的稀疏编码器搜索。这些策略被整合到混合查询中，与传统的关键词匹配不同，语义搜索深入挖掘用户查询的细微差别，解读上下文和意图。

BM25索引：BM25索引擅长利用全文搜索能力，并增强了模糊匹配技术，为更复杂的查询操作奠定了基础。
密集向量索引：构建了一个由句子转换器支持的密集向量索引。它通过文档和查询内容派生的向量表示来识别向量之间的接近程度。
稀疏编码器索引：稀疏编码器检索模型索引结合了语义理解和基于相似度的检索，以捕捉术语之间细微的关系，从而更真实地表示用户意图和文档的相关性。

研究的方法论是分阶段进行的，首先在BM25索引中进行基本的匹配查询。然后，研究者们升级到混合查询，这些查询结合了多个字段中的不同搜索技术，利用稀疏编码器基础索引中的多匹配查询。当文档库中查询文本的确切位置不确定时，这种方法非常有效，确保了全面的匹配检索。多匹配查询分为以下几类：

Cross Fields：针对多个字段的一致性。
Most Fields：通过不同视角在各个字段中寻找文本表示。
Best Fields：在单一字段内追求词的聚合。
Phrase Prefix：类似于Best Fields，但优先考虑短语而非关键词。

在完成初步的匹配查询之后，研究人员进一步整合了基于密集向量的方法（KNN）和稀疏编码器索引。针对每种索引技术，他们都设计了专门的混合查询策略。通过这种策略性的方法，研究人员充分利用了各种索引的优势，并集中力量提高RAG系统内部的检索精确度。为了深入理解每种查询方式的特点，他们计算了top-k检索准确度这一关键指标。

在众多可能的组合中，研究人员精心挑选了六种表现最佳的混合查询方法进行深入研究。这些查询方法在检索效率上表现最为出色，随后接受了严格的评估，以验证它们在RAG系统中检索组件的精确性。这六种混合查询不仅是检索器实验的成果展示，也代表了与不同索引类型相结合的最优查询策略。这些经过精挑细选的查询方法随后被应用到生成式问答系统中，目的是寻找能够最有效地为RAG生成器提供信息的最佳检索器。面对与不同索引类型结合后潜在的查询组合数量呈指数级增长的挑战，这一过程显得尤为重要。

构建一个高效的RAG系统是一项复杂且多面的任务，尤其是当处理的源数据集在内容和结构上都呈现出多样性和复杂性时。研究人员对众多混合查询方案进行了全面的评估，并细致地考察了它们在多个基准数据集上的表现，这些数据集包括自然问题（NQ）、TREC-COVID、斯坦福问答数据集（SqUAD）和HotPotQA等。

图1 展示了一个创新的设计框架，该框架专门用于创建混合检索器。其核心思想是融合语义搜索技术和多种混合查询技术。通过这种集成方法，研究者们能够有效地处理各种类型的查询，并针对广泛的文档库优化检索过程。这种优化旨在为大模型提供更精确、更相关的信息，以便它们能够生成更有深度和知识性的答案。

在这一设计中，语义搜索技术尤为重要，因为它能够理解查询的深层含义和上下文，而不仅仅是关键词的简单匹配。这样的技术使得检索系统能够返回更加相关和有用的结果，从而显著提升大模型在生成回答时的准确性和可靠性。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚，实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费CSDN听直播后的录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验与结果分析

研究者首先通过实验评估了检索器的性能，目的是找出最佳的混合检索器（索引 + 混合查询）组合。实验使用了top-10检索准确率作为评估标准，针对不同的基准数据集进行了评估。

在NQ数据集上的Top-10检索准确率：对于NQ数据集，实验分析显示，混合查询策略的性能优于其他方法，这归功于其有效利用多个数据字段的能力。图2展示了使用Sparse Encoder和Best Fields的混合查询方法达到了最高的检索准确率，达到了88.77%，这一结果超过了所有其他形式的有效性，为该数据集内的检索任务设立了新的基准。
在TREC-COVID数据集上的Top-10检索准确率：TREC-COVID数据集涵盖了从-1到2的相关性评分，其中-1表示不相关，2表示高度相关。初步评估针对的是相关性为1的文档，即部分相关的文档。图3的分析显示，基于向量的混合查询的性能超过了基于关键词的查询。特别是，利用Sparse Encoder和Best Fields的混合查询在所有索引类型中显示出最高的有效性，准确率达到了78%。

在对TREC-COVID数据集的相关性评分为2的文档进行评估后，这些文档与相关查询完全相关。图4用相关性评分为2的文档进一步证实了基于向量的混合查询的有效性，超过了传统的基于关键词的方法。值得注意的是，结合Sparse Encoder和Best Fields的混合查询显示出98%的top-10检索准确率，超过了所有其他形式。这表明，转向更细致的混合搜索方法，尤其是那些有效利用Best Fields的方法，可以显著提高信息检索系统内的检索结果。

在HotPotQA数据集上的Top-10检索准确率：HotPotQA数据集拥有超过500万份文档和7500个查询项的庞大语料库，由于计算需求，对全面评估构成了巨大挑战。因此，评估仅限于选定的混合查询子集。尽管存在这些限制，分析仍提供了富有洞见的数据，如图5所示，特别是那些使用Cross Fields和Best Fields搜索策略的混合查询表现出色。值得注意的是，结合Sparse EncodeR和Best Fields查询的混合查询在HotPotQA数据集上达到了最高的效率，为65.70%。

表II展示了使用NDCG@10评分（标准化折扣累积增益指标）对检索器进行基准测试的结果。在NQ数据集基准测试中，使用六种混合查询的NDCG@10得分为0.67，比当前基准得分0.633高出5.8%，该基准得分由monoT5-3B模型实现。所有基于语义搜索的混合查询均优于当前基准得分，表明这些混合查询是开发RAG管道的更佳候选。

在TREC-COVID数据集基准测试中，设计的混合查询套件明显超过了当前0.80 NDCG@10得分的基准，显示出它们对RAG管道的优越候选资格。图7展示了使用六种混合查询的NDCG@10结果。混合检索器实现了0.87的NDCG@10得分，比COCO-DR Large模型建立的基准得分0.804高出8.2%。

研究者利用检索器评估实验的结果，进一步评估了RAG管道。为了避免大模型的大小或类型的影响，所有实验都使用FLAN-T5-XXL进行。

图8展示了跨数据集的Top-5检索准确率。

SqUAD是用于RAG系统或使用大模型的生成式问答的常用基准数据集。研究比较了先前工作的三种RAG管道变体，使用确切匹配（EM）和F1分数作为评估生成答案的准确性的指标，以及Top-5和Top-10作为检索准确率的指标。

RAG-original：这个变体是在自然问题数据集上微调的模型，未经特定领域的适配评估。
RAG-end2end：作为RAG-original的扩展，这个模型进行了额外的微调，专为SQuAD的领域适配。
Blended RAG：特别是Blended RAG变体没有在SQuAD数据集或任何相关语料库上进行训练。它利用优化的字段选择和混合查询公式与语义索引相结合，为大模型提供最精确的响应。

表IV显示，Blended RAG在没有特定数据集微调的情况下，展示了增强的性能，F1分数提高了50%。这一特性对于大型企业数据集尤其有利，因为微调可能是不切实际或不可行的，突显了这项研究的主要应用。

自然问题（NQ）是另一个常用于RAG的基准数据集。使用零样本学习的Blended RAG管道被评估以确定其与其他非微调模型的有效性。评估侧重于以下指标：确切匹配（EM）、F1分数以及Top-5和Top-20的检索准确率。

表V展示了Blended RAG（零样本学习）展示了优越的性能，EM达到了42.63，比之前的基准提高了35%。

表III和表IV分别展示了在SqUAD和NQ数据集上对RAG管道进行评估的结果。在SqUAD数据集上，Blended RAG在没有特定数据集微调的情况下，展示了增强的性能，F1分数提高了50%。在NQ数据集上，Blended RAG（零样本学习）展示了优越的性能，EM达到了42.63，比之前的基准提高了35%。