RAG系统的7个检索指标：信息检索任务准确性评估指南

大型语言模型（LLMs）作为一种生成式AI技术，在近两年内获得了显著的关注和应用。但是在实际部署中，LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成（Retrieval Augmented Generation，RAG）通过为LLM提供额外的外部知识和上下文，有效地解决了这些问题。截至2024年RAG已经成为应用生成式AI领域中最具影响力的技术之一。事实上，几乎所有基于LLM的应用都在某种程度上采用了RAG技术。

RAG通过引入非参数记忆访问来增强LLM的参数记忆能力

RAG评估：超越表面实现

为了充分发挥RAG的潜力，使LLM的响应能够切实地建立在可靠数据基础之上，我们需要超越简单的索引、检索、增强和生成的实现方式。要实现这一目标，首先需要建立有效的性能度量标准。RAG评估为建立系统性能基准提供了重要依据，进而为后续的优化提供了方向。

构建RAG概念验证（PoC）管道的复杂度相对较低。借助LangChain和LlamaIndex等工具，这一过程已经变得相对简单。通过简短的训练和有限样本的验证即可实现初步功能。但是为了提高系统的鲁棒性，在真实反映生产环境用例的数据集上进行全面测试至关重要。值得注意的是RAG管道本身也可能产生幻觉。从宏观角度来看，RAG系统存在三个主要的失效点：

检索器未能检索到完整或相关的上下文
LLM虽然接收到上下文，但未能有效利用
LLM没有针对查询给出回答，而是从上下文中提取了不相关信息

本文将重点讨论几个专注于评估第一个失效点的指标 —— “检索器未能检索到完整或相关上下文”。换言之这些指标旨在评估检索器的质量。

检索指标概述

用于评估RAG系统的指标可以大致分为三类：

信息检索任务中使用的检索指标（本文的讨论重点）
专注于评估生成内容流畅性、相关性和语义相似性的指标，如BLEU、ROUGE、METEOR等
随RAG应用发展而演变的特定指标

RAG的检索组件可以独立评估确定检索器满足用户查询的能力。我们将详细介绍七个广泛应用于RAG、搜索引擎、推荐系统等信息检索任务的重要指标。

注：在RAG中，知识库是一个核心概念。它是一个非参数记忆存储，用于存储RAG系统将处理的所有文档。

核心检索指标详解

1. 准确率（Accuracy）

准确率在信息检索领域通常定义为正确预测（包括真阳性和真阴性）占总样本的比例。这一概念源自监督学习中的分类问题，但在检索和RAG语境下有其特定解释：

准确率 = (检索到的相关文档数 + 未检索到的不相关文档数) / 知识库中总文档数

尽管准确率是一个直观的指标，但它并不是评估检索系统的最佳选择。在大型知识库中，对于任何给定查询大多数文档通常都是不相关的，这可能导致准确率呈现误导性的高值。此外该指标并不考虑检索结果的排序质量。

2. 精确率（Precision）

精确率聚焦于检索结果的质量，衡量检索到的文档中与用户查询相关的比例。它回答了这样一个问题：在所有被检索到的文档中，有多少是真正相关的？

精确率 = 检索到的相关文档数 / 检索到的总文档数

高精确率表明检索器能够有效地识别和提取相关文档。

注：精确率在分类任务中也是一个常用指标，定义为模型预测为正例的样本中实际为正例的比例，即真阳性 /（真阳性 + 假阳性）。

Precision@k

Precision@k是精确率的一个变体，它仅考虑检索结果中排名前k的文档。这一指标在RAG系统中尤为重要，因为通常只有排名靠前的结果会被用于增强。例如如果RAG系统仅使用前5个文档进行增强，那么Precision@5就成为一个关键指标。

Precision@k = 前k个结果中相关文档的数量 / k

例如，Precision@5为0.8（或4/5）意味着在前5个检索结果中，有4个是相关的。

Precision@k在比较不同系统的检索性能时特别有用，尤其是当系统间检索的总文档数可能不同时。但是它的局限性在于k值的选择可能带有主观性，且该指标不考虑k之外的结果。

3. 召回率（Recall）

召回率评估检索系统的覆盖范围，衡量从知识库中所有相关文档中成功检索到的比例。它回答了这样一个问题：在所有相关文档中，实际检索到了多少？

召回率 = 检索到的相关文档数 / 知识库中相关文档总数

与精确率不同召回率的计算需要预先知道知识库中相关文档的总数。在大规模系统中这可能是一个挑战。召回率同样不考虑检索文档的排序。理论上检索所有文档可以获得完美的召回率，但这显然不符合实际需求。

Recall@k

类似于Precision@k，Recall@k考虑了前k个检索结果中的相关文档比例：

Recall@k = 前k个结果中相关文档的数量 / 知识库中相关文档总数

召回率和精确率的不同场景

4. F1分数

F1分数是精确率和召回率的调和平均值，提供了一个平衡检索器质量和覆盖范围的单一指标。

F1分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)

F1分数的特点是当精确率或召回率任一指标较低时，分数会受到显著影响。只有当两个指标都较高时，F1分数才会较高。这种特性使得F1分数不会被单一指标的高值所误导。

F1分数平衡了精确率和召回率。中等水平的精确率和召回率可能获得比一个指标很高而另一个很低时更高的F1分数。

F1分数提供了一个综合度量，便于比较不同系统的整体性能。但是它不考虑检索结果的排序，且默认给予精确率和召回率相同的权重，这在某些应用场景中可能不够理想。

重要说明：

文档相关性判定：大多数讨论的指标都涉及"相关"文档的概念。确定文档相关性的最直接方法是通过人工评估。通常由领域专家审查文档并判定其相关性。为减少个人偏见，这种评估往往由专家小组而非个人完成。但是从规模和成本的角度考虑，人工评估存在局限性。因此任何能可靠建立相关性的数据都变得极为宝贵。在这一背景下，基准事实（Ground Truth）指的是已知真实或正确的信息。在RAG和生成式AI领域，基准事实通常表现为一组预先准备的提示-上下文-响应或问题-上下文-响应示例，类似于监督学习中的标记数据。为知识库创建的基准事实数据可用于RAG系统的评估和优化。