1. 思想
核心思想是空间换时间来进行加速
2. 基本原理
transformer是自回归生成模型,abc三个字符预测def
过程是:
abc -> d
d进行回归得到abc,回归讲究的是回去,如香港回归
abcd -> e
这里abc的运算中间值Q V可以保存下来作为Cache,避免后面继续再算了
abcde -> f
最终得到def
参考:
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention_哔哩哔哩_bilibili
https://zhuanlan.zhihu.com/p/700197845https://zhuanlan.zhihu.com/p/700197845