【大模型基础】什么是KV Cache?

news2025/1/11 11:54:09

哪里存在KV Cache?

KV cache发生在多个token生成的步骤中,并且只发生在decoder中(例如,decoder-only模型,如 GPT,或在encoder-decoder模型,如T5的decoder部分),BERT这样的encoder模型不是生成式模型(而是判别性模型),因此没有KV cache。

以下动图是GPT-2以自回归形式生成文本的动态图:
在这里插入图片描述
下图是Attention的标准计算方式:
在这里插入图片描述

什么是KV Cache?

通过缓存以前的键(Key)和值(Value),我们可以只关注计算新token的注意力。
如下图,每当来一个新的token q n e w q_{new} qnew时,计算得到新的 k n e w k_{new} knew v n e w v_{new} vnew,并将其拼接(concat)到缓存的 K p r e v K_{prev} Kprev V p r e v V_{prev} Vprev中。
在这里插入图片描述

在这里插入图片描述
假设 T T T是序列长度, D D D是维度(也就是上图的emb_size)。
在没有cache的情况下:

  • Q : ( T , D ) Q: (T, D) Q:(T,D)
  • K T : ( D , T ) K^T: (D, T) KT:(D,T)
  • V : ( T , D ) V: (T, D) V:(T,D)
  • Q K T : ( T , T ) QK^T: (T, T) QKT:(T,T)
  • A t t e n t i o n : ( T , D ) Attention: (T, D) Attention:(T,D)

可以看到,每来一个新的query token后,都需要重新计算一遍注意力,复杂度是 O ( T 2 ) O(T^2) O(T2),这也就是原始的Transformer平方复杂度。

在有cache的情况下:

  • Q : ( 1 , D ) Q: (1, D) Q:(1,D)
  • K T : ( D , T ) K^T: (D, T) KT:(D,T)
  • V : ( T , D ) V: (T, D) V:(T,D)
  • Q K T : ( 1 , T ) QK^T: (1, T) QKT:(1,T)
  • A t t e n t i o n : ( 1 , D ) Attention: (1, D) Attention:(1,D)

可以看到,每来一个新的query token后,不需要重新计算一遍注意力,而是只关注计算新token的注意力,复杂度是 O ( T ) O(T) O(T),降低到了线性。

为什么这个优化很重要?
如上图所示,通过KV cache获得的矩阵要比没有KV cache小得多,这导致了更快的矩阵乘法。

Memory Usage分析

Transformer中注意力层中KV的存储开销计算公式:

在这里插入图片描述

下面是一个具体的例子,可以看到KV cache的大小竟然是模型的3倍,这在推理场景非常常见。在内存使用中,KV cache往往是主导因素。

在这里插入图片描述

参考文档

  • Transformers KV Caching Explained
  • The KV Cache: Memory Usage in Transformers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1546316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华院计算荣获CSDN“创新企业”和“年度创新产品与解决方案”大奖

日前,全国最大的专业开发者社区CSDN发布“2023中国开发者影响力年度榜单”,华院计算凭借其卓越的认知智能引擎平台荣获“创新企业”和“年度创新产品与解决方案”两项大奖。 CSDN 以数据为基础,经过个人或企业提交资料、层层筛选、深入调研、…

【C++教程从0到1入门编程】第十三篇:STL中list类的模拟实现

一、list的模拟实现 #include<iostream> #include<assert.h> #pragma once namespace jyr {template<class T>struct _list_node{_list_node<T>* _next;_list_node<T>* _prev;T _data;_list_node(const T& val T()):_next(nullptr), _prev(…

西圣VS飞利浦VS倍思开放式耳机哪款值得入手?爆款产品无广大测评

在当今这个无线耳机盛行的时代&#xff0c;开放式耳机以其独特的佩戴舒适度和出色的音质体验&#xff0c;逐渐赢得了消费者的青睐&#xff0c;西圣、飞利浦、倍思作为市场上的知名品牌&#xff0c;都推出了各具特色的开放式耳机产品&#xff0c;许多消费者也因此不知道哪款更加…

Mybatis中条件传入多个参数时,如何处理

entity&#xff1a; Data AllArgsConstructor NoArgsConstructor public class User {private Integer id;private String username;private String password;private String phone;private String address; }dao接口&#xff1a; public interface UserDAO {List<User>…

AWS EC2设置root登录

在使用亚马逊的服务器时&#xff0c;官方默认是使用密钥登录&#xff0c;跟国内的云服务器差别较大&#xff0c;本文记录下&#xff0c;如何开放AWS EC2的root登录。 一、通过网页版或者XShell登录服务器 这里略过 二、设置root账户密码 # 切换 root sudo -i # 设置或修改密…

常见端口及对应服务

6379 redis未授权 7001、7002 weblogic默认弱口令、反序列化 9200、9300 elasticsearch 参考乌云&#xff1a;多玩某服务器ElasticSearch命令执行漏洞 11211 memcache未授权访问 50000 SAP命令执行 50070、50030 hadoop默认端口未授权访问

1.Git快速入门

文章目录 Git快速入门1.Git概述2.SCM概述3.Git安装3.1 软件下载3.2 软件安装3.3 软件测试 Git快速入门 1.Git概述 Git是一个免费的&#xff0c;开源的分布式版本控制系统&#xff0c;可以快速高效地处理从小型到大型的各种项目&#xff0c;Git易于学习&#xff0c;占用空间小&…

A Novel Negative Sample Generating Method for KnowledgeGraph Embedding

摘要 为了有效地提取知识图中的关系和原因&#xff0c;将实体和关系编码到一个连续的低维语义空间中。在负样本生成阶段&#xff0c;大多数知识图嵌入方法更注重替换头或尾实体以提高训练效率&#xff0c;很少替换关系。这些负样本生成方法对关系预测的贡献不大。本文提出了一…

dubbo再回首

dubbo 服务框架&#xff0c; 远程通讯&#xff0c;集群容错&#xff0c;自动发现 spi&#xff1a; 接口全限定名找到指定目录下对应的文件&#xff0c;获取具体的实现类然后加载 增加缓存存储实例&#xff0c;对ioc api对支持 流程&#xff1a; 之前的博客实战总结&#xff1…

Linux之文件管理与重定向

文件的管理 最开始说到过, 一个进程是可以打开多个文件的并且可以对这些文件做出不同的操作, 也就是说加载到内存中的文件可能存在多个. 操作系统要不要管理这些打开的文件呢? 当我们在程序里面打开多个文件时, 操作系统肯定是得对这些文件进行管理的, 而管理的本质就是对数…

百度百科词条创建流程是怎样的?

百度百科词条&#xff0c;作为当今权威的知识分享平台之一&#xff0c;越来越多的个人和企业希望自己在百度百科上拥有独立的词条。如何创建一个高质量的百度百科词条呢&#xff1f;本文伯乐网络传媒将为您详细解析百度百科词条的创建流程及编辑技巧&#xff0c;并提供一些常见…

“数字化”持续走热,VR全景助力制造业上“云”

制造业要升级&#xff0c;数字化改造是重要途径。 早年间&#xff0c;由于对数字化的认识不足&#xff0c;一些企业明明有数字化改造需求&#xff0c;却不敢、不愿、不会上“云”。直到此次两会期间&#xff0c;2024年政府工作报告再次提出推动制造业数字化转型&#xff0c;越…

Learn OpenGL 25 法线贴图

为什么要引入法线贴图 我们的场景中已经充满了多边形物体&#xff0c;其中每个都可能由成百上千平坦的三角形组成。我们以向三角形上附加纹理的方式来增加额外细节&#xff0c;提升真实感&#xff0c;隐藏多边形几何体是由无数三角形组成的事实。纹理确有助益&#xff0c;然而…

SHA加密

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

软件设计师19--文件管理

软件设计师19--文件管理 考点1&#xff1a;文件相关概念例题&#xff1a; 考点2&#xff1a;树形目录结构&#xff08;绝对路径与相对路径&#xff09;例题&#xff1a; 考点3&#xff1a;位示图例题&#xff1a; 考点4&#xff1a;索引文件索引文件结构例题&#xff1a; 考点1…

【Java并发知识总结 | 第五篇】深入理解Synchronized底层原理(Monitor对象、Synchronized锁优化)

文章目录 5.深入理解Synchronized底层原理&#xff08;Monitor对象、Synchronized锁优化&#xff09;5.1Synchronized的特性5.1.1原子性5.1.2可见性5.1.3有序性5.1.4可重入性 5.2Synchronized的用法5.3Synchronized的两种同步方式4.3.1同步代码块5.3.2同步方法 5.4Synchronized…

第九届蓝桥杯大赛个人赛省赛(软件类)真题C 语言 A 组-分数

solution1 直观上的分数处理 #include <iostream> using namespace std; int main() {printf("1048575/524288");return 0; }#include<stdio.h> #include<math.h> typedef long long ll; struct fraction{ll up, down; }; ll gcd(ll a, ll b){if…

后端常见面经之MySQL

MySQL字段类型 数值类型 整型经常被用到&#xff0c;比如 tinyint、int、bigint 。默认是有符号的&#xff0c;若只需存储无符号值&#xff0c;可增加 unsigned 属性。 int(M)中的 M 代表最大显示宽度&#xff0c;并不是说 int(1) 就不能存储数值10了&#xff0c;不管设定了显…

openssl AF_ALG引擎使用

cmd AF_ALG是Linux提供的一种虚拟接口&#xff0c;用于访问内核中的加密算法。在Linux中&#xff0c;可以使用AF_ALG接口配合加密算法框架&#xff08;Crypto API&#xff09;来进行加密操作。 以下是一个使用AF_ALG和openssl进行加密操作的例子&#xff1a; # 加密 openssl…

SpringBoot—@ConditionalOnBean与@ConditionalOnClass

一、ConditionalOnBean概念 需求场景 比如下面一种场景&#xff0c;我在实例化People对象的时候&#xff0c;需要注入一个City对象。这个时候问题来了&#xff0c;如果city没有实例化&#xff0c;那么下面就会报空指针或者直接报错。 所以这里需求很简单&#xff0c;就是当前c…