1 什么是KV Cache? 定义:KV Cache 即 Key-Value Cache,是用于加速 Transformer 模型推理长序列过程的一种技术。 核心原理:在 Transformer 的自注意力机制中,将历史输入 token 中的 Key 和 Value 缓存下来,避免每一步生成都重新计算历史 token 的 Key、Value 以及注意力表示,从而提高推理效率。 2 KV Cache的流程是什么?