大语言模型-检索测评指标

news2025/2/25 18:18:19

1. MRR （Mean Reciprocal Rank）平均倒数排名：

衡量检索结果排序质量的指标。
计算方式： 对于每个查询，计算被正确检索的文档的最高排名的倒数的平均值，再对所有查询的平均值取均值。
意义： 衡量对于多次查询，检索结果的排名，适用于评估检索结果排序效果好坏的情况。强调“顺序性”。
公式： |Q|表示查询的总次数， $rank_{i}$ 表示第i次查询中第一个准确结果的排序。
$\frac{1}{{|Q|}}\sum_{i=1}^{|Q|}\frac{1}{rank_{i} }$

2. AP（Average Precision）平均精度:

衡量检索结果排序质量的指标。
计算方式： 一次查询结果正确结果的精确率求和除以查询结果的总数
意义： 衡量对于一个查询，检索结果中所有与 ground-truth相关的文档是否都有较高的排序。AP衡量的是整个排序的平均质量。
公式： K表示一次查询共查询K个文档，Pre代表精确率，Rel(n)表示这次查询结果中的第n个结果相关性分数，这里命中为1，未命中为0。
$\frac{\sum_{n=1}^{K}Pre@n*Rel(n)}{K}$

2. MAP（Mean Average Precision）平均准确率:

衡量检索结果排序质量的指标。
计算方式： 对于每个查询，计算被正确检索的文档的平均精确率，再对所有查询的平均值取均值。
意义： 衡量对于多个查询，检索结果的平均精确率，适用于评估排序结果精确度的情况。
公式： |Q|表示查询的总次数，AP(i)表示第i次查询的平均精度。
$\frac{1}{{|Q|}}\sum_{i=1}^{|Q|}AP(i)$

3. NDCG（Normalized Discounted Cumulative Gain）归一化折损累积增益：

衡量检索结果排序质量的指标。
计算方式： 对于每个查询，对每个被检索到的结果计算其相对于理想排序的增益值，然后对这些相对增益值进行加权求和，再除以理想排序的增益值。
意义： 衡量对于一个查询，检索结果的绝对和相对排序质量，适用于评估排序结果的质量与排名准确度的情况。
公式： @k表示一次查询搜索k个文档；
$\frac{DCG@k}{IDCG@k}$
其中：
DCG@k(Discounted Cumulative Gain)代表这次k个查询结果列表中每个文档与查询的相关程度。
IDCG@k代表最理想的这次k个查询结果列表中的结果。
DCG@k的公式为： Rel(n)表示这次查询结果中的第n个结果相关性分数，这里命中为1，未命中为0。
$DCG@k=\sum_{i=1}^{k}\frac{Rel(i)}{\log_{2}{i+1} }Rel(i)$
IDCG@k是按照Rel(i)从高到低排序的DCG@k

4. Recall（召回率）

计算方式： 对于一个查询，所有被召回的样本中正样本的比例。
意义： 关注于用户感兴趣的物品。
公式： 符号含义见下面的混淆矩阵。
$\frac{TP}{TP+FN}$
在搜索任务中，R表示检索出的正确文档集合，T表示检索出的所有文档。
$\frac{R\cap T}{T}$

5. Hit Rate（Recall@K）命中率

衡量检索结果准确性的指标。
计算方式： 对于一个查询，计算被正确检索的文档的占所有被检索的文档的比例。
意义： 衡量用户想要的项目有没有被检索到，强调预测的“准确性”。
公式：

6. Precision（精确率）

计算方式： 对于一个查询， 预测为正样本的样本中确实为正样本的比例。
意义： 关注于要推荐的物品。
公式： 符号含义见下面的混淆矩阵。
$\frac{TP}{TP+FP}$
在搜索任务中，R表示检索出的正确文档集合，T表示检索出的所有文档。
$\frac{R\cap T}{T}$