【论文阅读】FUNNELRAG：一个从粗到精的逐级检索范式

news2026/2/16 9:05:15

论文地址：https://arxiv.org/abs/2410.10293

github：

研究背景

现有的检索范式存在两个主要问题：一是平铺检索(flat retrieval)对单个检索器造成巨大负担；二是恒定粒度(constant granularity)限制了检索性能的上限。研究难点在于如何平衡检索的有效性和效f率。

Flat Retrieval： corpus文档切片后大海捞针式检索。

Constant Granularity: 切片粒度一致，比如都按照512token切片

贡献点

强调了现有研究中忽略的现实世界RAG系统中的问题，即flat retrieval和constant granularity。
提出了一个粗细粒度渐进检索范式FUNNELRAG，用于RAG，满足了节省时间、细粒度、上下文完整性这三个特性。
广泛的实验证明了FUNNELRAG可以在减少时间开销的同时，保持或甚至提高现有检索范式的检索性能。

方法

1、渐进式检索（Coarse-to-Fine Progressive Retrieval）

与传统的平面检索不同，渐进式检索通过逐步减少候选规模、细化检索单位粒度和提高检索器能力来平衡有效性和效率。

Progressive Retrieval: 从文档cluster集合->文档->段落，later chunking

Progressive Retrieval具体步骤包括：

检索阶段(Retrieval)：将文档集D聚类成粗粒度单元（clusters），使用稀疏检索器（如BM25）在这些粗粒度单元上进行检索，找到前K个最相关的粗粒度单元。

聚类方法：

1、排序：对文档集D中的文档按照它们的局部聚类系数进行排序。局部聚类系数是一个衡量文档在其邻居中形成紧密连接程度的指标。这意味着，如果一个文档与很多其他文档都有链接，那么它的局部聚类系数就会很高

2、查找相关聚类：调用一个名为FIND_RELATED_CLUSTER的函数，输入参数为当前文档d和当前的聚类集合C。这个函数的目的是找到与文档d相关的所有聚类，并将它们作为一个集合R返回。

3、合并聚类：我们遍历集合R中的每个相关聚类c，并检查是否可以将它们合并到新聚类c_new中。合并的条件是新聚类c_new的大小（即包含的文档数量）加上要合并的聚类c的大小不超过最大聚类大小S。如果满足条件，我们就将聚类c合并到c_new中，将新聚类c_new添加到聚类集合C中，并从聚类集合C中移除聚类c，

预排序阶段(Pre-ranking)：使用cross encoder models对检索到的单元（cluster细分到document粒度）进行预排序，缩小候选范围。
后排序阶段(Post-ranking)：使用list-wise models对细粒度单元(paragraph粒度)进行后排序，进一步提高检索精度。

Later Chunking：早期阶段检索长单元以保留上下文语义，然后在后期阶段将这些长单元分割成细粒度单元以进行更好的检索应用

基于FiD的解码器：后排名器基于FiD（Fusion-in-Decoder）架构，它是一个检索增强的编码器-解码器语言模型。系统使用检索增强的段落来训练FiD，以便学习寻找线索。然后，它获得后排名分数，并将这些段落中得分最高的作为“oracle”段落。

2、蒸馏对齐

对齐Post-ranking和Pre-ranking阶段的模型能力，使用局部到全局(L2G)的蒸馏方式。

（注意Pre-ranking阶段是文档粒度，Post-ranking阶段是paragraph粒度，需要归一化粒度）

STEP1: 找到post-reranking阶段的positive Document

Post-ranking阶段文档粒度score计算如下，当α = 1时，分数集中在文件中最重要的段落；当α = 0时，分数集中于文档中所有段落的平均重要程度：

STEP 2：确定pre-ranking阶段的postive Document D+和negative Document D-集合

根据这个分数排序找到TOP-K个文档，和命中ground truth的文档取并集为D+集合，D-为之外的集合：

STEP3: preranking模型训练，数据：D+和D-，loss function: pairwise Bayesian Personalized Ranking (BPR)

实验结果

研究问题：

RQ1:渐进式检索与普通检索相比，提升了Answer Recall？

RQ2:QA场景下使用funnelRAG收益？

RQ3:不同的设置如何影响渐进式检索的有效性？

实验配置：

Datasets：Natural Question (NQ)、Trivia QA (TQA)
Metrics: Answer Recall (Retrieval)、Exact Match (Generation)
Retrievers: BM25(retrieval) + bge-reranker-v2-m3(pre-ranker) + FiD(post-ranking) vs bge-large-en-v1.5 (flat retrieval) + bge-reranker-v2-m3(rerank)
Generators: Llama3-8B-Instruct、Qwen2-7B-Instruct