本文记录大模型推理阶段 KV Cache 的原理及显存占用情况。
Self-Attention 与 KV Cache
如图,当新生成的 token x 进到模型计算 Attention 时,先分别乘上参数矩阵 W q W_q Wq、 W k W_k Wk、 W v W_v Wv 得到向量 q,以及矩阵 K、V。…
1.下载8.x版本的mysql
MySQL :: Download MySQL Community Server (Archived Versions)
2.安装linux
我安装的是Rocky Linux8.6 3.设置ip地址,方便远程连接
使用nmcli或者nmtui设置或修改ip地址
4.使用远程连接工具MobaXterm操作: (1)将mysql8版本的压缩包上传到mybaxterm…