一 原理
图解大模型计算加速系列之:vLLM核心技术PagedAttention原理 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/691038809
二 源码分析
1 测试参数设置
test_paged_attention(
num_seqs=32,
num_heads=(64, 64),
head_size=64,
block_size=16,
dtype=torch.float16,
seed=1,
device="cuda:0",
)