LLM推理和优化(1):基本概念介绍

news2025/4/21 7:17:40

在这里插入图片描述

一、LLM推理的核心过程:自回归生成

LLM(如DeepSeek、ChatGPT、LLaMA系列等)的推理本质是自回归生成:从初始输入(如[CLS]或用户prompt)开始,逐token预测下一个词,直到生成结束符(如[EOS])。其核心分为两个阶段:

1. Initialization阶段(初始化)
  • 目标:准备第一个token的生成条件。
  • 关键步骤
    • 输入编码:将初始prompt转换为token序列(如[CLS]你好),嵌入为向量x_0
    • 初始隐藏状态:通过Transformer的编码器(或直接使用预训练参数)生成第一层的隐藏状态h_0
    • KV Cache初始化:为每一层的每个注意力头创建空的Key/Value缓存(形状:[batch, heads, seq_len, head_dim])。此时seq_len=0,因为尚无历史token。

示例:生成首词“今天”时,输入为[CLS],初始化后仅计算第一层的h_0,KV Cache为空。

在LLM推理中,Initialization阶段(初始化阶段)又称“预填充阶段”(Prefill Stage)。这一命名源于其核心功能:为后续的逐token生成预填充(Prefill)KV Cache和初始隐藏状态

工程实现

Hugging Face的transformers库、NVIDIA的FasterTransformer均采用prefillgeneration区分这两个阶段。例如:

# 伪代码:Hugging Face生成逻辑
outputs = model.prefill(prompt)  # 预填充KV Cache(Initialization)
for _ in range(max_new_tokens):
    outputs = model.generate_step(outputs)  # 解码阶段,逐token生成
术语对比:Initialization vs Prefill
场景常用术语含义侧重
学术描述Initialization强调“初始化隐藏状态和缓存”
工程实践Prefill强调“预填充固定长度的输入”
用户视角输入处理阶段对应“用户输入的prompt处理”

本质是同一阶段,但“Prefill”更直观反映了其“为生成提前准备历史KV”的工程目标。

2. Decoding阶段(解码)
  • 目标:逐token生成,每步复用历史计算结果
  • 核心逻辑(以生成第t个token为例):
    1. 当前token处理:将第t-1步生成的token嵌入x_t,与前一步隐藏状态拼接,输入Transformer层。
    2. 注意力计算优化
      • 查询(Query):仅计算当前token的Query向量Q_t(因为只关注当前位置)。
      • 键值(Key/Value)复用KV Cache中的历史Key/Value,并追加当前token的Key_t、Value_t。
      • 注意力得分:计算Q_t与所有历史Key的相似度(仅需一次矩阵乘法,而非重复全量计算)。
    3. 更新KV Cache:将当前层的Key_t、Value_t追加到缓存中(seq_len += 1)。
    4. 生成概率:通过LM头输出第t个token的概率分布,选择下一词(贪心/采样)。
3. 举个栗子🌰
  • 输入:用户prompt“请写一首诗:”(4个token)。
  • Prefill阶段
    1. 计算这4个token的所有层Key/Value,填充到KV Cache(此时缓存长度=4)。
    2. 生成第一个待扩展的隐藏状态(对应第4个token的输出)。
  • Decoding阶段
    逐句生成诗句,每步:
    1. 计算当前token的Q(仅1个token)。
    2. 复用Prefill的4个KV + 之前生成的KV,计算注意力。
    3. 追加当前token的KV到缓存(缓存长度逐步增加到4+N)。

通过“预填充”,避免了每次生成新token时重复计算prompt的KV,这正是LLM实现高效推理的关键优化之一。

二、原始Transformer的效率瓶颈:O(n²)的重复计算

  • 时间复杂度:训练时并行计算所有token的注意力(O(n²)),但推理时需自回归生成,每步需重新计算所有历史token的Key/Value,导致总复杂度为O(n³)(n为序列长度)。
  • 空间复杂度:每次推理需保存所有中间层的Key/Value,内存占用随n线性增长,长文本(如n=4k)时显存爆炸。
  • 现实痛点:生成1000字的文章需重复计算百万次注意力,传统Transformer无法支持实时交互。

三、KV Cache:用空间换时间的核心优化

1. 方法本质

缓存历史层的Key/Value,避免重复计算。每个Transformer层维护独立的KV Cache,存储该层所有已生成token的Key/Value向量。

2. 具体实现步骤(以单batch为例)
  1. 初始化缓存(t=0):

    • 每层创建空缓存:K_cache = [], V_cache = [](形状:[num_layers, heads, 0, head_dim])。
  2. 第t步生成(t≥1):

    • 前向传播:输入当前token嵌入,通过Transformer层计算当前层的Q_t, K_t, V_t
    • 拼接缓存
      K_cache[t_layer] = torch.cat([K_cache[t_layer], K_t], dim=2)  # 在seq_len维度追加
      V_cache[t_layer] = torch.cat([V_cache[t_layer], V_t], dim=2)
      
    • 注意力计算
      attn_scores = Q_t @ K_cache[t_layer].transpose(-2, -1)  # Q_t: [1, heads, 1, d], K_cache: [1, heads, t, d]
      attn_probs = softmax(attn_scores / sqrt(d)) @ V_cache[t_layer]  # 仅需O(t)计算
      
    • 更新隐藏状态:将注意力输出传入下一层,直到LM头生成token。
  3. 循环:重复步骤2,直到生成[EOS]或达到最大长度。

3. 优化效果
  • 时间:每步注意力从O(n²)→O(n),总复杂度O(n²)(接近线性)。
  • 空间:缓存占用O(n)(每层存储历史K/V),但避免了重复计算的中间变量,实际显存节省50%+。
  • 典型案例:LLaMA-2 70B在4k序列长度下,KV Cache使推理速度提升4倍(NVIDIA官方数据)。

四、延伸:KV Cache的局限性与改进

  • 显存瓶颈:长上下文(如100k token)的KV Cache占用巨大(每层约4k token×4byte×2(KV)≈32KB,64层×100k≈2GB)。
  • 优化方向
    • 分页缓存(Paged Attention):NVIDIA提出,用非连续内存存储KV,减少碎片化(2023年突破)。
    • 动态缓存:仅保留最近相关token的KV(如检索增强LLM)。

KV Cache是LLM落地的基石,其设计思想(复用历史计算)贯穿现代推理优化(如FlashAttention、QLoRA),最终实现了从“实验室模型”到“实时对话”的跨越。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2314529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kubernetes教程(七)了解集群、标签、Pod和Deployment

了解集群、标签、Pod和Deployment 一、K8s资源对象二、K8s集群1. Master2. Node 三、Namespace(命名空间)四、Label(标签)五、Pod1. 共享网络命名空间2. 共享数据 六、工作负载1. 设置副本数2. 应用升级 结语 Kubernetes的知识真的…

【最新】DeepSeek 实用集成工具有那些?

deepseek 系列github仓库地址 【主页】deepseek-aiDeepSeek-R1DeepSeek-V3DeepSeek-VL2【本文重点介绍】awesome-deepseek-integration 注意:以下内容来自awesome-deepseek-integration DeepSeek 实用集成(awesome-deepseek-integration) 将…

Flutter_学习记录_video_player、chewie 播放视频

1. video_player 视频播放 插件地址:https://pub.dev/packages/video_player 添加插件 导入头文件 import package:video_player/video_player.dart;Android配置(iOS不用配置) 修改这个文件:/android/app/src/main/AndroidMani…

【MySQL】增删改查进阶

目录 一、数据库约束 约束类型 NULL约束:非空约束 UNIQUE:唯一约束 DEFAULT:默认值约束 PRIMARY KEY:主键约束 FOREIGN KEY:外键约束 二、表的设计 三、新增 四、查询 聚合查询 聚合函数 GROUP BY子句 HA…

静态时序分析:SDC约束命令set_ideal_latency详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 当使用set_ideal_network命令将当前设计中的一组端口或引脚标记为理想网络源后,理想属性会沿着组合逻辑进行传播,理想网络中的线网和单元…

达梦数据库查看字符集编码

select SF_GET_UNICODE_FLAG(); 返回 0 代表数据库字符集编码为 GB18030 1 代表数据库字符集编码为 UTF-8 2 代表数据库字符集编码为韩文字符集 EUC-KR

Pac-Man(吃豆人) 游戏

目录 前言 1. Pygame游戏开发基础 1.1 Pygame简介 1.2 游戏开发基本概念 1.3 Pygame核心模块介绍 2. 游戏设计与规划 2.1 游戏规则设计 2.2 游戏对象规划 2.3 技术方案选择 3. 创建游戏窗口与初始化 3.1 初始化Pygame环境 3.2 设置游戏窗口 3.3 定义颜色和游戏参数…

【Spring】@PostConstruct详解

在 Java 开发中,尤其是在基于 Spring 框架的项目里,我们常常会遇到需要在对象创建并完成依赖注入后,执行一些初始化操作的场景。PostConstruct注解正是为解决此类问题而诞生的,它为我们提供了一种便捷且优雅的方式来处理对象的初始…

OEM SQL Details and Session Details 5s 或者parallel 才会在sql monitor显示

从企业管理器 13.4 版本更新 10 (RU10) 开始,ASH Analytics 的 SQL 详细信息和会话详细信息深入屏幕已更新为使用 Oracle JET UI。 在 Ash Analytics 中,单击左下角区域中“热门 SQL”中的 SQL ID 即可深入了解 SQL 详细信息。 单击右下角“热门会话”区…

JSAR 基础 1.2.1 基础概念_空间小程序

JSAR 基础 1.2.1 基础概念_空间小程序 空间空间自由度可嵌入空间空间小程序 最新的技术进展表明,官网之前的文档准备废除了,基于xsml的开发将退出历史舞台,three.js和普通web结合的技术将成为主导。所以后续学习请移步three.js学习路径&#…

Spring Security的作用

一、概述 Spring Security是一个框架,提供认证(authentication)、授权(authorization)和保护,以抵御常见攻击。对 常见漏洞 的保护提供了全面的支持,它对保护命令式和响应式应用程序有一流的支…

数据结构与算法效率分析:时间复杂度与空间复杂度详解(C语言)

1. 算法效率 1.1 如何衡量一个算法的好坏? 在计算机程序设计中,衡量算法优劣的核心标准是效率。但效率不仅指运行速度,还需要综合以下因素: 时间因素:算法执行所需时间 空间因素:算法运行占用的内存空间…

数据类设计_图片类设计之4_规则类图形混合算法(前端架构)

前言 学的东西多了,要想办法用出来.C和C是偏向底层的语言,直接与数据打交道.尝试做一些和数据方面相关的内容 引入 接续上一篇,讨论图片类型设计出来后在场景中如何表达,以及图片的混合算法.前面的内容属于铺垫和基础,这篇内容和实际联系起来了. 背景图和前景图 这里笔者想先…

从零使用docker并安装部署mysql8.3.0容器

在开始使用docker到完成mysql的安装部署,中间有很多的坑等着 安装docker并配置 sudo yum install docker-ce 启动docker并设置开机启动项 sudo systemctl start docker sudo systemctl enable docker查看docker是否启动 sudo systemctl status docker 或者直接…

cpu 多级缓存L1、L2、L3 与主存关系

现代 CPU 的多级缓存(L1、L2、L3)和主存(DRAM)构成了一个层次化的内存系统,旨在通过减少内存访问延迟和提高数据访问速度来优化计算性能。以下是对多级缓存和主存的详细解析: 1. 缓存层次结构 现代 CPU 通…

基于Python+SQLite实现校园信息化统计平台

一、项目基本情况 概述 本项目以清华大学为预期用户,作为校内信息化统计平台进行服务,建立网页端和移动端校内信息化统计平台,基于Project_1的需求实现。 本项目能够满足校内学生团体的几类统计需求,如活动报名、实验室招募、多…

[多线程]基于阻塞队列(Blocking Queue)的生产消费者模型的实现

标题:[多线程]基于阻塞队列(Blocking Queue)的生产消费者模型的实现 水墨不写bug 文章目录 一、生产者消费者模型特点:二、实现2.1详细解释1. 成员变量2. 构造函数3. Isfull 和 Isempty4. Push 函数5. Pop 函数6. 析构函数7. GetSize 函数 三、总结与多线…

vue组件库el-menu导航菜单设置index,地址不会变更的问题

请先确认 1.路由已配置好 route-index.js如下, 2.view-ProHome.vue中已预留路由展示位 3.导航菜单复制组件库,并做修改 其中index与路由配置的地址一致 运行后发现点击菜单,url地址还是不变,查看组件库 Element - The worlds …

MySQL 优化方案

一、MySQL 查询过程 MySQL 查询过程是指从客户端发送 SQL 语句到 MySQL 服务器,再到服务器返回结果集的整个过程。这个过程涉及多个组件的协作,包括连接管理、查询解析、优化、执行和结果返回等。 1.1 查询过程的关键组件 连接管理器:管理…

智能对话小程序功能优化day1-登录鉴权

目录 1.数据库表构建。 2.完善登录相关的实例对象。 3.登录相关功能实现。 4.小程序效果。 最近尝试下trae加入claude3.7后的读图生成代码功能,可以看到简单的页面一次性生成确实准确率高了不少,想起来之前笔记中开发的智能问答小程序功能还是有些简…