怎么理解Contextual-Retrieval ？（顺手讲一下prompt-cache）

news2026/3/18 2:43:42

最近这个其实提的人挺多的，Graph RAG的火爆已经是上上个月的事了，其实我之前就讲过，Graph RAG是解决什么问题的，它也没法绝对替代传统RAG

之前关于Graph-RAG的文章

你为什么要用GraphGAG？(qq.com)

详解MS的GraphRAG的实现流程 (qq.com)

不说Graph擅长得全局问题，和关系梳理，就说它有得干不了得传统RAG领域，其实传统RAG在自己得领域干得也不见得就咋好，Athropic最近推得Contextual Retreival 其实是个不错得改进方案。

它具体能改善哪里呢？

举个最简单得例子，你提了一个问题

"What was the revenue growth for ACME Corp in Q2 2023?"

其实最有用得一个答案是

"The company's revenue grew by 3% over the previous quarter."

然后你经过向量数据库，基本不可能选到这个答案为最优，因为上面所谓得The company和 previous quarter都不太能和ACME Q2 2023有太多语义上得关联，余弦或者欧式，你用啥距离都没用。

有人说用Hybrid RAG是不是能强点，比如上图，此时，你是加BM25 关键字，还是加Graph-RAG都没啥用，你懂得，因为回答是一系列得"The"指代，并没有和问题中得描述有关键字匹配，也没法建立节点和边得关系。

我们进一步观察问题和答案，是不是这俩东西要是能有点关联性就好了啊，比如切出来得chunk，我给转换一下

original_chunk = "The company's revenue grew by 3% over the previous quarter."
contextualized_chunk = "This chunk is from an SEC filing on ACME corp's performance in Q2 2023; the previous quarter's revenue was $314 million. The company's revenue grew by 3% over the previous quarter."

如上面所示，原始得chunk，是两个"The"，导致不管是embedding还是BM25都抓不出来它，那要是把original_chunk，通过某种手段，给转换成下面这种contextualized_chunk，把上下文信息给注入到chunk离，这下，如果还是刚才得问题，那必然是一问一个准。

那这个带上下文信息得chunk是咋生成得？

其实和你graph-rag一样，还得让大模型给你生成

graph-rag是让大模型给你生成图，既点和边还有各种声明，contextualized retrieval，是让你切chunk得时候，再把文档给一起带过去，然后给你切得这块chunk，带上上下文得信息。

其实单就原理来说，就这样，贼简单

上面这段操作给个prompt就能实现

<document> {{WHOLE_DOCUMENT}} </document> Here is the chunk we want to situate within the whole document <chunk> {{CHUNK_CONTENT}} </chunk> Please give a short succinct context to situate this chunk within the overall document for the purposes of improving search retrieval of the chunk. Answer only with the succinct context and nothing else.

A家自己测试发现用了Contextual Retrieval以后 RAG的错误率能直接下一半下去，这对于查询的命中率提升其实非常高了。

然而细心的观众老爷也发现了吧，这玩意费token啊，这要没事给一个chunk加上下文，就要发一遍全文，谁受得了啊

所以实际上项目里可实现的方法主要有2个

1- 滑动窗口吧，别所有的chunk都给全文，根据chunk在切分的文章位置，发一些文章的部分过去，这样能省不少。

2- prompt cache

prompt cache 也是最近比较火feature，说白了就是inbund token省钱

咋省钱呢，因为你没用它算力，虽然占AI服务商推理显存了

模型推理就是个单向的前向传播，这块没什么可讲的

那Transformer这东西推理实际上，是一个自回归，啥叫自回归呢，就是我要说：“我爱你”，第一次我是推出来个"我"，然后我用start of token+"我"，来推出来"我爱"。以此类推，最后推出来"start of token+我，爱，你+EOT"

那你每次是不是推都要占算力，都要折腾一遍，于是乎空间换算力的又能省时间的东西KVcache就出来了，你第一遍推出来"我"。那你第二遍再做推理的时候就别再推"我"这个logit了，直接用就可以了，而“我”相关的放进显存中，下次推理直接用，以此类推。这也是最长用的推理加速方法，你们爱用的vllm类的推理加速最本质上就这么个简单的路子（不提及page attention和flash attention的话）

但是KVcache这玩意它只能做到到单序列的，也就是反正你这句话用了就用了，下一句别想用，说白了，到下一句话，你还得刷新显存，那CPU到显存到再GPU，你害的来回折腾数据。快也就快一句话。

那我要想快N多句呢？

也不是不行，这就是prompt cache做的事，因为你没法跨序列（sequence）来搞注意力，这个不太现实，所以你就得整一个外挂（这外挂甚至可以不是显存，就是大内存就成，反正几千个token的logit被你一次读，你也不会感觉慢，要不凭啥给你便宜？）